首页 理论教育容错性大数据分析:快速决策优先于精准度

容错性大数据分析:快速决策优先于精准度

【摘要】:为保证抽样得出的结论相对可靠,人们对抽样的数据要求精益求精,容不得半点差错。随着大数据技术的不断突破,我们已经有技术与能力进行全样数据分析,就更应该关注效率而不是精确度,甚至可以容忍其中的一些纰漏和错误,因为我们获得的数据量绝对庞大,其结果更加接近客观事实。只要大数据分析指出可能性,就会有相应的结果,从而帮助我们快速决策、快速动作、抢占先机。

其次,是精准思维到容错思维的转变。

在小数据时代,我们习惯了抽样。一般来说,全样的样本数量是抽样样本数量的很多倍,因此抽样的一丁点错误,就容易导致结论的“差之毫厘,谬以千里”。为保证抽样得出的结论相对可靠,人们对抽样的数据要求精益求精,容不得半点差错。

这种对数据质量近乎疯狂的追求,是小数据时代的必然要求。这样一来,一方面,极大地增加了数据预处理的代价,大量的数据清洗算法和模型被提出,导致系统逻辑特别复杂。另一方面,不同的数据清洗模型可能会造成清洗后的数据差异很大,从而进一步增加了数据结论的不稳定性。

还有一个容易被忽视的事实是,现实世界本身就是不完美的,现实中的数据本身就存在异常、纰漏、疏忽,甚至错误。将抽样数据极致清洗后,很可能导致结论反而不符合客观事实。这也是很多小数据的模型,在测试阶段效果非常好,到了实际环境效果就非常差的原因。

随着大数据技术的不断突破,我们已经有技术与能力进行全样数据分析,就更应该关注效率而不是精确度,甚至可以容忍其中的一些纰漏和错误,因为我们获得的数据量绝对庞大,其结果更加接近客观事实。

为了统计消费物价指数,美国劳工统计局以前每年都会花费一大笔钱,雇用很多人向全美90个城市的商店打电话、发传真甚至登门拜访。这些传统方式收集的数据虽然精确有序,但结果却是滞后的。

后来,麻省理工学院两位专家提出了一个大数据解决方案。通过一个软件系统在互联网上收集信息,他们每天可以收集到50万种商品的价格。这些数据虽然非常庞杂且混乱,但是把它们和分析算法相结合,就能及时发现消费物价指数的变化,这让消费物价指数的统计更有效率。

所以说,大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储、分析和共享的很多东西都被数据化了,拥有大量的数据和更多不那么精确的数据,为我们理解世界打开了一扇新的大门。

过去寻求精确度,现在寻求高效率;过去寻求因果性,现在寻求相关性;过去寻找确定性,现在寻找概率性,对不精确的数据结果已能容忍。只要大数据分析指出可能性,就会有相应的结果,从而帮助我们快速决策、快速动作、抢占先机。