首页 理论教育大数据的定义及其在医药领域的应用

大数据的定义及其在医药领域的应用

【摘要】:大数据目前还没有公认的定义。麦肯锡研究院对大数据的定义:所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。我们正处于大数据时代的边缘,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。如今的数据类型早已不是单一的文本形式,还包括订单、日志、音频等各种形式,从而对人们的大数据处理能力提出了更高的要求。

大数据目前还没有公认的定义。麦肯锡研究院对大数据的定义:所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。维基百科给出的大数据定义:数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。

数据增长速度与IT界的摩尔定律很类似,即社交网络、物联网、电子商务,35ZB的数据全部刻录到容量为9GB的光盘上,其叠加的长度将达到233万千米,相当于在地球与月球之间往返三次。全球在2010年正式进入ZB时代,预计到2020年,全球将总共拥有35ZB的数据量。我们正处于大数据时代的边缘,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。如今的数据类型早已不是单一的文本形式,还包括订单、日志、音频等各种形式,从而对人们的大数据处理能力提出了更高的要求。

以下为数据的换算:

1TB=2的40次方Byte=1099511627776 Byte

1PB=2的50次方Byte=1125899906842624Byte

1EB=2的60次方Byte=1152921504606846976 Byte(www.chuimin.cn)

1ZB=2的70次方Byte=1180591620717411303424 Byte

1YB=2的80次方Byte=1208925819614629174706176 Byte

1DB=2的90次方Byte=1237940039285380274899124224 Byte

1NB=2的100次方Byte=1267650600228229401496703205376 Byte

大数据层次观:从微观层次看大数据是在新一代信息基础设施支撑下,物理空间运动过程加速向网络空间映射的结果,表现为规模巨大、种类多样、内在关联的数据集,趋向于无限接近真实世界;从中观层次看大数据是信息经济时代主要的生产要素,是改造“生产力”和“生产关系”的基础性力量,个人角色、企业组织结构与战略、国家治理方式、国家之间竞争方式等,将在数字空间中被重新构建;从宏观层次看大数据是认识论的变革,大量对象从不可知到可知,从不确定到精确预测,从小样本近似到全样本把握,是认识世界和改造世界能力的升华。