- 一本书读懂大数据(全彩图解版)
- 马兆林
- 1980字
- 2020-06-27 15:49:21
大数据的思维变革时代
大数据正犹如滔滔洪水般向我们袭来,世界正在以迅猛之势被推进大数据时代。大数据时代的出现更带来了人们思维方式的巨大变革,即由原先的小数据思维转变为大数据思维。大数据正改变着我们的方方面面,由此导致的思维变革也是具有必然性的。大数据思维变革具有整体性、多样性、相关性等特征,因此,大数据实际上是一种复杂性思维。正如维克托·迈尔·舍恩伯格与肯尼思·库克耶所著的《大数据时代》一书中所提到的:“大数据思维的变革具有更加深远和巨大的意义。”
1.整体性。整体性则是用全体划一的目光来看待一切。早在古希腊时期,便开始有了寻找“基始”的传统,近代科学家中,以牛顿为代表,则更为擅长分割整体,通过研究基本构件来把握整体行为,这便是西方的还原论传统。该理论认为,大凡事物都可以分割为小部分,小部分远比整体更具重要性。事实上,这是当时科学落后的产物,也是最早随机抽样的雏形。
但是,随机抽样只是数据收集与统计的一条捷径,是在某些数据不可全面收集和全面分析的情况下不得不做的选择,其本身存在着许多不可忽视的缺陷。它的成功建立在抽样的绝对随机的基础之上,但是能做到现实抽样的随机性是非常困难的。一旦随机抽样过程中出现一丝主观偏见,那么分析结果可能会相差很远。
然而,大数据的出现改变了人们原有的思维,使得整体和部分走向统一。大数据理论依然承认整体由部分组成,但是大数据研究中,随机抽样已经被取代,取而代之的是对全体数据进行研究。在很多领域,我们需要的并不是部分数据或者有局限性的数据,我们更加需要的则是海量的、所有数据,这就意味着“样本=总体”。整体体现了全部,反映了所有细节。
2.多样性。多样性意味着世界存在多样性和差异性。要想利用大数据获得理想的效益,首先我们要以宽大的胸怀接受大数据本身的多样性。
小数据时代,由于人们收集数据和处理数据都不容易,因此在要求上都比较严格,每个数据必须精确,例如身份证号码对于每个人来说,其格式都是统一的,在人口普查中,要求严格按照标准化格式填写,但一旦产生非标准格式的数据,便将其当作无用数据被排除。
在如今的大数据时代,我们要彻底打破以往追求数据精准性的陈旧观念和思维,虽然我们收集的数据没有那么精准,但是从整体把握,那些庞大而多样的信息却让我们的选择变得更为划算,更有价值。
我们简单地以GPS为例。众所周知,GPS并不能做到完全定位,它通常会有几十米的误差,但只要给它加上地图数据,便可以保证你出行无误;GPS容易受到外界的影响,由于天空卫星状态每天都在变化之中,因此我们在城市内使用的时候也许同一个地方,上午收讯满格,到了晚上却无法定位,更糟糕的是,或许一连好几天定位状况都不好,那么这时候在惯性导航系统的帮助下,GPS导航系统就可以正常工作了;由于运动传感器在室内的惯性导航会存在一定的累积误差,加上办公室里会有一定的磁传感器干扰,在这种情况下,我们只要将WiFi的室内定位与地图相匹配,这样就可以恢复工作了。
前面的这些例子充分说明,数据的多样性也是有一定优势的。如果误差是内在的必然性,那么更多样化的数据采集和信息融合便是能及时纠正这些误差的一剂良药。
3.相关性。通过大数据的相关性我们可以很好地捕捉现在并且预知未来,这是大数据相关性的一个非常重要、非常有价值的特点。以前人们总是先在脑海里建立一个想法,之后才去有针对性地收集相关数据资料来预测这个想法是否可行。现在情况大不相同了,我们已经掌握了十分庞大的数据,并且拥有很好的工具,促使人们的思维有了一定的变化,想要预测未来将要发生的事情已经是一件非常容易的事情了。
我们在大数据的世界里,正在更加努力地利用这种相关性来预防或促成某些结果。这种相关性在医学领域的应用比较广泛。
近期,在对棕榈酸化的破坏与SAP致病相关性的深入研究中,医学家们通过蛋白序列数据描述符和随机森林方法构建了一个数据模型,这个模型可以简单有效地识别棕榈酸化的位点,之后医学家又对所有的人类单点氨基酸突变位点进行预测识别,发现部分疾病的相关单点氨基酸突变位点惊人地被预测为棕榈酸化位点。通过参考之前的临床数据记载,发现其中5个位点的致病性与棕榈酸化的破坏具有关联性的这一结果基本上可以确定,这个研究很好地证明了医学家们所建的数据模型具有很强的实用性,此外也在SAP的致病机理解释方面具有非常有效的参考价值。这一研究所取得的准确且可靠的预测结果,也给SAP建模的研究分析奠定了较为坚实的数学理论基础。
由上述例子来看,相比小数据时代,大数据的相关关系的分析方法则具有更精准、更快捷、更不易受主观偏见影响的优势。在社会环境下寻找关联物只是大数据相关关系分析法中的一种方式。此外还有一种比较可行的方法,那就是通过找出新种类数据之间的相互联系并由此而决定互相需要。目前一种被叫做预测相关分析法的方法在商业领域里被广泛应用,它可以很好地预测事件的发生。