首页 理论教育数据标注产业:数据工厂的隐秘生意

数据标注产业:数据工厂的隐秘生意

【摘要】:2019年,国内数据标注产业规模已经超过100亿元。此外,学术机构、政府及银行等都有数据标注外包需求。承接数据标注外包业务的,往往是“数据工厂”。它们是专门从事数据标注的企业或团队,数据工厂里的全职标注员常被比作“数据民工”。数据工厂的优点是标注人员稳定、可与甲方即时沟通,易把控数据质量,一对一传递也降低了数据泄露的可能性。在中国,数据标注业务更是利用人口红利的优势,正在如火如荼地发展。

正因为大数据的收集是海量且漫无目的的,所以也增加了我们处理大数据的难度。由于这些数据没有固定格式,杂乱无章,因此我们要对这些数据进行过滤和清洗,去除无效数据,将关联数据进行格式化的分类整理,以便进一步使用。

在这个过程中,我们不得不提到一个很重要的环节——数据标注。

我们都知道,大数据与人工智能的发展是相辅相成的。机器智能化就需要通过大量数据与算法持续地学习,这就是所谓的机器学习。那么,我们如何为机器提供高质量的“学习资料”?

这时,我们就需要数据标注。它是对海量、复杂且多源的语音、图像或视频等数据进行标明注解,从而转化为机器可以识别和学习的信息。

比如,自动驾驶汽车的识别系统,曾经一度很难分辨猫和狗。这是因为从外形上看,猫和狗非常接近,而自动驾驶识别系统,还无法从一些细微的差异来分辨两者的不同。这就需要大量人工在成千上万含有猫和狗的图像中,将两者的细微差异标注出来,再让机器按照人工标注的差异点与相应的视觉识别算法来学习。

这就是数据标注的核心,也是整个大数据智能化发展中不可或缺的一环。2019年,国内数据标注产业规模已经超过100亿元。

目前,有些公司会自建内部团队,负责开发标注工具和完成大量数据标注任务,如小米、旷视和英伟达。但大多数人工智能企业为了集中精力研发,会将数据标注业务外包。此外,学术机构、政府及银行等都有数据标注外包需求。

承接数据标注外包业务的,往往是“数据工厂”。它们是专门从事数据标注的企业或团队,数据工厂里的全职标注员常被比作“数据民工”。数据工厂的优点是标注人员稳定、可与甲方即时沟通,易把控数据质量,一对一传递也降低了数据泄露的可能性。

因为有巨大的市场需求,数据标注也催生出众包服务平台,比如国内的百度众测、京东众智与数据堂等,以及世界上第一个众包平台——亚马逊劳务众包平台(Amazon Mechanical Turk)。

Amazon Mechanical Turk,2005年出现于美国,最初是为了解决亚马逊公司的内需,后来对外开放成为数据标注众包平台,平台可抽成每单任务奖金的10%,截至2019年底,该平台注册用户达80万人。

2007年,著名人工智能专家李飞飞带领团队创建的世界最大图像识别数据库ImageNet,其超过1400万张被分类的图片便是依赖于Amazon Mechanical Turk上5万名用户耗时两年完成的。

在中国,数据标注业务更是利用人口红利的优势,正在如火如荼地发展。有一个细节值得一提,当你用注册用户身份登录某些网站时,它会让你在一张图片上,按顺序找出几个汉字,或者点选图片上物体的名称。其实,你已经不知不觉地在为某个机构免费标注数据了。