来自不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象。数据量巨大,难以在合理时间内判断数据质量的好坏。数据变化速度快,数据“时效性”很短,对处理技术提出更高的要求。由于大数据的变化速度较快,有些数据的“时效性”很短。国内外没有形成统一认可的数据质量标准,对大数据数据质量的研究才刚刚起步。......
2023-06-23
正因为大数据的收集是海量且漫无目的的,所以也增加了我们处理大数据的难度。由于这些数据没有固定格式,杂乱无章,因此我们要对这些数据进行过滤和清洗,去除无效数据,将关联数据进行格式化的分类整理,以便进一步使用。
在这个过程中,我们不得不提到一个很重要的环节——数据标注。
我们都知道,大数据与人工智能的发展是相辅相成的。机器智能化就需要通过大量数据与算法持续地学习,这就是所谓的机器学习。那么,我们如何为机器提供高质量的“学习资料”?
这时,我们就需要数据标注。它是对海量、复杂且多源的语音、图像或视频等数据进行标明注解,从而转化为机器可以识别和学习的信息。
比如,自动驾驶汽车的识别系统,曾经一度很难分辨猫和狗。这是因为从外形上看,猫和狗非常接近,而自动驾驶识别系统,还无法从一些细微的差异来分辨两者的不同。这就需要大量人工在成千上万含有猫和狗的图像中,将两者的细微差异标注出来,再让机器按照人工标注的差异点与相应的视觉识别算法来学习。
这就是数据标注的核心,也是整个大数据智能化发展中不可或缺的一环。2019年,国内数据标注产业规模已经超过100亿元。
目前,有些公司会自建内部团队,负责开发标注工具和完成大量数据标注任务,如小米、旷视和英伟达。但大多数人工智能企业为了集中精力研发,会将数据标注业务外包。此外,学术机构、政府及银行等都有数据标注外包需求。
承接数据标注外包业务的,往往是“数据工厂”。它们是专门从事数据标注的企业或团队,数据工厂里的全职标注员常被比作“数据民工”。数据工厂的优点是标注人员稳定、可与甲方即时沟通,易把控数据质量,一对一传递也降低了数据泄露的可能性。
因为有巨大的市场需求,数据标注也催生出众包服务平台,比如国内的百度众测、京东众智与数据堂等,以及世界上第一个众包平台——亚马逊劳务众包平台(Amazon Mechanical Turk)。
Amazon Mechanical Turk,2005年出现于美国,最初是为了解决亚马逊公司的内需,后来对外开放成为数据标注众包平台,平台可抽成每单任务奖金的10%,截至2019年底,该平台注册用户达80万人。
2007年,著名人工智能专家李飞飞带领团队创建的世界最大图像识别数据库ImageNet,其超过1400万张被分类的图片便是依赖于Amazon Mechanical Turk上5万名用户耗时两年完成的。
在中国,数据标注业务更是利用人口红利的优势,正在如火如荼地发展。有一个细节值得一提,当你用注册用户身份登录某些网站时,它会让你在一张图片上,按顺序找出几个汉字,或者点选图片上物体的名称。其实,你已经不知不觉地在为某个机构免费标注数据了。
有关解码智能时***新未来认知的文章
来自不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象。数据量巨大,难以在合理时间内判断数据质量的好坏。数据变化速度快,数据“时效性”很短,对处理技术提出更高的要求。由于大数据的变化速度较快,有些数据的“时效性”很短。国内外没有形成统一认可的数据质量标准,对大数据数据质量的研究才刚刚起步。......
2023-06-23
第三十四条市人民政府应当依托大同大数据产业园,引进大企业建设大数据创客基地、软件研发基地,支持智慧经济示范企业、示范基地建设,鼓励智慧产业集聚化、规模化发展,引领互联网+新业态融合创新。第四十二条市、县(区)人民政府应当整合产业数据信息、政策数据信息、资源数据信息,打造一站式招商平台,实现精准招商,吸引埠外资本投资大同经济、文化、社会、生态建设。......
2023-07-19
第二阶段的核心任务就是收集有效数据,并回答本书第1章提出的前两个研究问题。其中,前两个数据集主要来源于文件整理与综合,第三个与第四个数据集通过问卷调查获得,最后一个数据集主要通过调查访谈与调查信息整合分析而取得。通过整合前三个数据集,可以在ArcGIS环境下建立描述创意企业与创意工人空间分布以及相关地理区位因素空间分布的数据库。利用ArcGIS的数据分析功能,可以得出影响创意企业与创意工人区位行为的地理区位因素。......
2023-08-10
PURR针对科学数据的描述、管理与保存的需求,在对现有元数据标准进行综合考虑与评估的基础之上选择合适的元数据标准形成了一套针对科学数据的元数据实施方案。多数描述元数据元素通过作者在提交数据时填写的在线表单获取,由馆员对提交信息的正确性进行检查,进行确认后,生成的元数据记录保存在PURR的数据库中。......
2023-11-22
为了集成海量的、异构的、多形态的数据,首先要将它们的描述统一起来,这就引出了对集成数据的元数据描述和管理的要求。事实上,人们对元数据的理解和认识还存在不少争议,迄今尚未形成真正统一的元数据定义。与数据字典不同,数据仓库主要是将元数据进行分析处理。2)元数据分类元数据广泛存在的多形态导致到目前还没有形成一个统一的分类标准。......
2023-10-28
近年来发展起来的数据挖掘技术及其产品已经成为数据仓库开采的有效工具。数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术,它使决策支持系统跨入了一个新的阶段。传统的DSS系统通常是在某个假设的前提下,通过数据查询和分析来验证或否定这个假设。有关数据挖掘技术的研究已经从理论走向了产品开发,其发展速度是十分惊人的。能够使用数据挖掘工具已经成为能否在市场竞争中获胜的关键所在。......
2023-11-24
(三)备份的策略由于电子阅览室上机读者多,数据变化快,必须要有完善的备份策略。常用的数据库备份操作可通过设置的备份日志自动完成,包括完全备份、差异备份、事务日记备份和数据库文件以及文件组备份四种方式。一般针对月备、周备、日备完全备份,可用做系统失败时恢复数据库的基础。制订备份数据日志检查表,每天定期对备份数据进行检查,查看系统是否完成备份,如出现问题及时解决。......
2023-07-06
在“系统首页”窗口中选择“对象资源管理器”区域,展开“英才大学信息管理”节点,右击打开快捷菜单,如图7-27所示。图7—32确定“查看数据类型映射”在“SQL Server导入和导出向导”窗口中选择“立即运行”选项,单击“下一步”按钮,如图7-33所示。图7—36“商品”表......
2023-11-24
相关推荐