0

披着羊皮的数据标注生意怎么做?| 增长官·研究院

/ 1 /

谷歌在国内消费市场沉寂多时,今天却毫无征兆地发布了首款微信小程序「猜画小歌」,号称为了让每个人都有机会体验人工智能技术驱动下的人机交互。

「猜画小歌」玩法类似流行综艺里的「你画我猜」,或是六年前曾经一度火爆、后被 Zynga 收购的 Draw Something——你在有限的时间内根据提示完成绘画速写(毛衣、扫帚、钟表等),谷歌 AI 则猜出你画的物体,并记录得分。

 

连胜次数高的玩家将有机会进入下一关。你也可以邀请朋友家人来一起挑战更长的连胜记录。

「猜画小歌」凭借 Google AI 的神经网络加持,所有素材网罗自超过 5000 万个手绘素描的数据库。通过对素材数据的机器学习,计算机得以理解图像的输入,像人类一样「看到」这个世界,并做出判断。

谷歌这个题目还是太简单了。我顺手翻出当年玩 Draw Something 时候的作品截图。是时候向你们展示真正的技术了:

披着羊皮的数据标注生意怎么做?| 增长官·研究院

独眼龙CYCLOPS,来自X战警;

披着羊皮的数据标注生意怎么做?| 增长官·研究院

蜥蜴LIZARD,梗来自生活大爆炸

/ 2 /

我看到传统广告圈的朋友还在为谷歌昙花一现的现象级刷屏案例唱衰,觉得这不过是又一个「百雀羚」。真是替这个行业捏一把汗。

实际上,「猜画小歌」的意义远胜于做一款刷屏来怒刷存在感。掩藏在幕后的真实目的,在内行看来昭然若揭——利用玩家的参与,收集结构化的绘画素材「数据标注」,「喂」给 AI 使之在学习过程中变得更加聪明,最终服务于谷歌的其他商业或公益目的。

比如下面就是一个典型应用,来自 Google 自家的 Autodraw:

(谷歌推出的 Autodraw 将你的涂鸦转换成具象图片)

/ 3 /

这里解释一下人工智能领域的「数据标注」。

在智能音箱、人脸开锁等神奇酷炫的 AI 智能应用背后,依靠的是大量人工每天重复地生产机器学习的「食物」——标注好的数据。

尽管谷歌自身已有海量数据积累,但为了提升现行主流的「有监督学习」算法模型的准确度,数据永远不限多。Google 技术大神 Jeff Dean 就就曾在一次公开课上展示如下海量数据训练结果:

披着羊皮的数据标注生意怎么做?| 增长官·研究院

(Jeff Dean 在 Y-Combinator 创业课程讲座中的截图)

如图,横轴代表数据规模,纵轴代表准确率。蓝线是深度神经网络算法,绿线是传统训练方法。可以看出,蓝线的准确率和数据规模及质量持续成正比,并没有出现趋于平滑的拐点,这说明深度学习对数据有源源不断的需求。

在国内,数据标注的外包市场自 2011 年开启,2015 年走向繁荣,2016 年下半年小规模收缩,到 2017 年又发生新一轮爆发。BAT、人工智能创业公司、政府、银行金融机构、学术团体都可能成为项目方。

接项目的外包方一端,分为「众包」和「工厂」两种模式,前者把任务分摊给网民,并支付一定的酬劳,如「百度众包」、「京东众智」、「龙猫数据」;后者经营自己的团队,对整个流程加以控制,如贵阳梦动科技经营的 500 人规模的数据工厂。

披着羊皮的数据标注生意怎么做?| 增长官·研究院

(上图:实拍贵阳数据工厂)

据科技智库「甲子光年」披露,内嵌于北京邮电大学宏福校区电子商务培训班的数据标注兼职项目,为兼职学员提供一个月 2000 元左右的工资,全职则可到 4000 到 5000 元。

/ 4 /

谷歌一贯擅长利用潜移默化的方式,直接或间接地从用户手中花样收集数据标注,通常还能包装得让你喜闻乐见或欲罢不能。

2004 年,谷歌宣布开启全球图书馆馆藏图书的数字化计划,扫描了哈佛大学、牛津大学、斯坦福大学、康奈尔大学、纽约公共图书馆等世界一流设施内的书籍,光哈佛大学就有 1600 万册,将它们制作成电子版。

书页内的文字主要通过 OCR 光学字符扫描分析,转换成为文本。识别过程并非完美,字迹模糊、污迹等都可能产生错误,所以需要配合人工修正。

谷歌怎么做呢?他们直接把难于识别的文字,做成了验证码(ReCAPTCHA),当你在某些情况下需要登录验证谷歌帐号时,展示两个单词——一个单词是谷歌已知信息,靠这个完成真正的验证动作,另一个就是上述无法识别的图书文本,谷歌让你来肉眼识别,至少三个用户给出同一个结果,就会被提交给谷歌服务器。恭喜你成为了伟大的数字图书计划的贡献者一员。

披着羊皮的数据标注生意怎么做?| 增长官·研究院

(上图:谷歌数字图书计划的验证码设计)

与之类似地,最近谷歌将这套发扬到了无人驾驶领域,做成了图形验证界面,让用户在验证环节,从一堆谷歌街景的实拍照片矩阵中,够选出「人」、「车」或是「路牌」。

披着羊皮的数据标注生意怎么做?| 增长官·研究院

(上图:谷歌的无人驾驶人工标注识别码)

/ 5 /

说到底还是那句老话:「如果你一直在享受免费的商品,那么你自己很可能就是商品本身」。

文:范冰@增长官(zengzhangguan)

发表评论

电子邮件地址不会被公开。 必填项已用*标注