首页 理论教育大数据的特点与用途探析

大数据的特点与用途探析

【摘要】:大数据的宝贵价值成为人们存储和处理大数据的驱动力。因此,海量数据的处理和利用是大数据研究的主要目的。“啤酒与尿布”的故事是大数据挖掘的经典案例。大数据分析相比于传统的数据仓库,具有数据量大、查询分析复杂等特点。大数据的特点有4 个:数据体量巨大,从TB 级别跃升到PB 级别。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。

大数据的宝贵价值成为人们存储和处理大数据的驱动力。《大数据时代》 一书指出了大数据时代处理数据理念的三大转变,即要全体不要抽样、要效率不要绝对精确、要相关不要因果。因此,海量数据的处理和利用是大数据研究的主要目的。

“啤酒与尿布”的故事是大数据挖掘的经典案例。故事发生于20 世纪90 年代的美国沃尔玛超市中,沃尔玛超市的管理人员分析销售数据时发现了一个令人难以理解的现象:在某些特定的情况下,啤酒与尿布这两种看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两种看上去不相干的商品经常会出现在同一个购物篮中的现象。

如果这个年轻的父亲在卖场只能买到两种商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,沃尔玛由此获得了很好的商品销售收入

从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种类型的数据中,快速获得有价值的信息的能力,就是大数据技术。

大数据分析相比于传统的数据仓库,具有数据量大、查询分析复杂等特点。大数据的特点有4 个:

(1)数据体量巨大,从TB 级别跃升到PB 级别。

(2)数据类型繁多,如网络日志、视频、图片、地理位置信息等。

(3)处理速度快,可从各种类型的数据中快速获得高价值的信息,这一点也和传统的数据挖掘技术有着本质的不同。

(4)只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4 个“V”—大量(Volume)、多样(Variety)、高速(Velocity)、价值(Value)。

数据中蕴藏的事物之间的关系和发展规律,必须通过数据挖掘来搜寻,数据挖掘实现的主要功能如下:

(1)对数据的统计分析与特征描述。

统计分析与特征描述可对数据本质进行刻画。统计分析主要包括数据的集中趋势分析、数据的离散程度分析、数据的频数分布分析等,常用的统计指标有:计数、求和、平均值、方差、标准差等。如某同学各门课的平均分、同专业同课程不同班级之间的平均成绩分析。(www.chuimin.cn)

(2)关联规则挖掘和相关性分析。

关联规则挖掘和相关性分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。

(3)分类与回归。

分类是通过对一些已知类别标号的数据进行分析,找到一种可以描述和区分数据类别的模型,然后用这个模型来预测未知类别标号的数据所属的类别,例如百度可以根据植物照片来判断它是哪种植物。

回归则是对数值型的函数进行建模,常用于数值预测,如房屋租赁价格预测。

(4)聚类分析

聚类分析是对未知类别标号的数据进行直接处理。聚类的目标是使聚类内部数据的相似性最大,聚类之间数据的相似性最小。每一个聚类可以看成一个类别,从中可以导出分类的规则,如班主任根据班内同学兴趣的相似性将他们分到对应的兴趣小组。

(5)异常检测或者离群点分析

数据集中包含的一些数据与数据模型的总体特性不一致,称为离群点。离群点可以通过统计测试进行检测,如假定数据服从某一概率分布,看对象是否在分布范围内。也可以使用距离测量,将与任何聚类都相距很远的对象当作离群点。也可以用基于密度的算法来检测局部区域内的离群点。其常用于反作弊、伪基站金融诈骗等领域的研判。

物联网、云计算、移动互联网、车联网、手机平板电脑、遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划、建设、运营、管理的系统工程;大数据科学在大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。