首页 理论教育大数据特性及其医药应用

大数据特性及其医药应用

【摘要】:大数据的表现形态。实时性,大数据的实时性,体现为数据更新的实时性。重新定义大数据的本质特征。大数据的其他特征。图1-1大数据的4V特性图1-2大数据的价值大数据价值,如传统实时路径只能监控主要道路的交通状况,而现在使用出租车或私家车的数据将产生海量实时轨迹数据。事实上,应该关注大数据的本质特征,关注实际的问题需求,关注大数据的思维,关注大数据的实践。

大数据的表现形态。大数据在当今社会非常时髦,大数据的信息量是海量的,这个海量并不是某个时间端点的量级总结,而是持续更新、持续增量。由于大数据产生的过程中存在诸多的不确定性,使得大数据的表现形态多种多样:(1)多源性,大数据来源的复杂性。网络技术的迅猛发展使得数据产生的途径多样化。大数据结构的复杂性使得非结构化数据的格式多样化,而这些非结构化数据中可能蕴藏着非常有价值的信息。(2)实时性,大数据的实时性,体现为数据更新的实时性。如何及时、有效、全面地捕获到互联网、物联网、云计算中产生的大量不同来源的数据是直接影响数据价值体现的关键因素。(3)不确定性,体现的是数据的不确定性。原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同尺度、不同维度上都有不同程度的不确定性。

怎么理解“大”?从字面理解,Large、Vast和Big都可以用于形容大小,Big更强调的是相对大小的大,是抽象意义上的大。大数据是抽象的大,是思维方式上的转变。量变带来质变,思维方式、方法论都应该和以往不同。计算机并不能很好地解决人工智能中的诸多问题,利用大数据却可以突破性地解决,其核心问题也由此变成了数据问题。

重新定义大数据的本质特征。多维度:特征维度多;完备性:全面性,全局数据;关联性:数据间的关联性;不确定性:数据的真实性难以确定,噪音。

IBM则用四个特征相结合来定义大数据:数量(Volume)、种类多样(Variety)、速度(Velocity)和真实(Veracity)。互动百科和国家数据公司IDC也提出四个特征来定义大数据,但与IBM定义不同的地方,是将第四个特征由真实(Veracity)替换为价值(Value)。

大数据的特点:Big Data,大数据,海量数据;Volume,Tb级数据;Velocity,流数据;Variety,时间空间变化;Value,巨大的商业与社会价值;Complexity,复杂系统,复杂的语义关系。

大数据的3I。Ill-defined:定义不明确的,多个大数据的定义都强调了大数据规模超过传统数据的规模,随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也不断变大,因而没有一个明确的标准。Intimidating:从管理大数据到使用正确的工具来获取它的价值,利用大数据的过程中充满了各种挑战。Immediate:数据的价值会随着时间快速衰减,为了保证大数据的可控性,需要缩短数据从搜集到获得的时间,使大数据成为真正的即时大数据,这意味着尽快地分析数据对获得竞争优势至关重要。

大数据的其他特征。体量大:4V中的Volume;类型多:结构化、半结构化和非结构化;来源广:数据来源广泛;及时性:4V中的Velocity;积累久:长期积累与存储;在线性:随时能调用和计算;价值密度低:大量的数据中真正有价值的少;最终价值大:最终带来的价值大。

我们以预测CPI(consumer price index)为例,介绍这4个V。(1)大规模,计算CPI需要商品信息,淘宝网有5亿用户、8亿商品,每分钟5万订单;(2)速度高,计算CPI需要关心居民评论,新浪微博每秒产生3万条微博;(3)价值稀疏,计算CPI需要居民对商品价格的评论,但是1万条评论中只有一小部分和价格有关;(4)形式多样,计算CPI需要使用国家信息中心的经济数据、淘宝商品价格、股票交易等结构化数据,也需要评论等非结构化数据,因此预测CPI使用的数据满足大数据的特点,我们需要大数据计算技术来支持CPI的预测。(www.chuimin.cn)

图1-1 大数据的4V特性

图1-2 大数据的价值

大数据价值,如传统实时路径只能监控主要道路的交通状况,而现在使用出租车或私家车的数据将产生海量实时轨迹数据。实时路况获取方法:实时路况可以通过安装在道路上的监测设备,或将定位设备安装在车上,实时动态地对其所经过路段的通行情况进行获取。与传统的红黄绿显示交通路况不同,“凯立德路况服务”采用的是通过交通事件来显示路况状态的方式,包括“道路施工”“道路封闭”等相对静态的信息,一级“临时管制”“交通事故”“车多缓行”等动态信息也都在“凯立德路况服务”上清晰展示。嘀嘀打车(现改名“滴滴打车”)数据:2014年1月10日至1月26日,滴滴打车全国日订单70万单,微信支付订单超过48万单。全国33个城市支持微信支付打车费,微信支付订单总量突破500万单。滴滴打车目前全国司机数40万,乘客3000万以上,北京日均订单12万单,630万用户。2014年1月31日至2月6日,春节7天,滴滴打车全国单日订单数突破100万单,7天平均日增幅约10%,其中微信支付订单比例为68%。全国开通了33个城市,日均订单全部超过1万单,平均成功率为83%。北京日订单16万单,微信支付订单比例为76%;上海日订单98000单,微信支付订单比例为78%;武汉日订单81600单,微信支付订单比例为69%;杭州日订单42000单,微信支付订单比例高达83%。2月6日订单数较1月31日翻了一倍。

大数据洞见的基础是在大数据这件事上,要从需求出发,而不是从大数据本身出发。有人会问,有了一些数据,怎么才能发挥更大的价值?坦率来说,许多时候不了解业务场景是很难提出建设性的意见的。

应该关注“大”还是关注“数据”?事实上,应该关注大数据的本质特征,关注实际的问题需求,关注大数据的思维,关注大数据的实践。