- 数据分析与挖掘算法:Python实战
- 张晓东
- 3313字
- 2022-05-06 13:10:46
2.1 数据思维认知
大数据技术带来的变革是多方面的,但是首当其冲的是认知机制上的变革。随着大数据技术的日新月异,其已经成为一种全新的科学工具,这一技术同样蕴含着数据思维的认知路径。
1.数据思维的全局性认知路径
在大数据技术未被开发及利用之前,人们对于某一事物的认知通常是通过样本抽样的研究方法,抽取主要数据或者具有代表性的数据。这只是人类由于数据收集手段的落后导致无法获得总体数据的无奈之举。在这种局部性认知路径下,人们对事物的认知往往会忽略一些细节,甚至是更重要的数据资源,所以人们以往得出的认知结果具有一定的局限性和片面性。
如今使用数据思维去认知事物,依托计算机技术和互联网的广泛运用和发展,人们在认知事物的过程中可以用一个全局性、宏观性的认知路径获得并分析更多的数据资源。现在我们几乎可以获得所有的相关数据,不再一味地依靠以往的样本少的数据,这样一些细节性且不容易捕捉的数据就会得到有效的挖掘和利用,进而让我们对事物有更加全面的认知。
随着大数据技术的不断发展,相对应的数据收集、存储、分析等技术也会取得一定的突破。这样一来,获取我们想要认知事物的数据就会更加方便、快捷、动态,而不再因技术限制而不得不采用局限性的样本抽样的研究方法。而且我们的思维认知路径也应该产生相应的变化,即应该从局部性认知路径转向全局性认知路径,从而能够更加全面、立体、系统地认知和研究事物。
全局性认知路径得益于计算机技术的不断创新和发展:计算机计算速度的不断加快再加上其存储空间的逐渐加大,使得我们可以高效率地利用数据思维去认知外界事物。但是,需要说明的是,不能一味地夸大这一研究路径,从而完全摈弃以往传统的样本抽样方法,因为数据思维的全局性认知路径也存在明显的不足。
虽然现在的计算机技术已经可以容纳足够多的数据,也可以处理海量的数据,但是这些数据中大多都是价值小的数据,甚至是无用的数据。从海量的数据中精确筛选出有价值的数据还需要新的计算机技术。这样一来,数据思维的全局性认知路径便暴露出其明显的不足,即需要耗费过多的资源去处理海量的数据才能得到有价值的数据,可谓在大浪中淘金,不仅增加了不必要的成本,而且得到的数据缺乏一定的针对性和有效性。因此,我们在使用数据思维的全局性认知路径的同时也不能忽视样本抽样的方法,在目前的计算机技术没有达到精准定位数据的情况下,将两者有效结合和使用,更有利于我们进行科学研究和数据统计。
2.数据思维的模糊性认知路径
在以往研究事物的过程中,由于认知方法的局限性,我们只能抽取一定量的数据作为认知对象并加以研究。为了使认知结果更完善,并进一步完成下一步的研究,必须要保证这些被抽到的数据尽可能精确化、结构化,否则,最后得出的结果将会影响整个认知过程。因此,在传统的认知机制中必须非常重视精确性思维,要秉持精准的态度去分析数据。
然而,随着计算机技术的日益成熟和广泛应用,大量的非结构化、异构化的数据能够得到存储和分析,这在提升我们从数据中获取知识和洞察能力的同时,也对传统的精确认知路径造成了一定的挑战。换句话说,由于信息时代下的计算机技术水平有限,所以只能依靠精确性的数据分析,在这其中只能运用到传统数据库中的少量的结构化数据。如果不接受一定程度的“模糊”,则剩下大量的非结构化数据都无法利用,只有善于、敢于运用数据思维的模糊性认知路径,我们才能进入一个从未涉足的“世界”。
换句话说,数据思维的认知视角要求我们在认知事物的过程中从精确性认知路径逐渐转向模糊性认知路径。适当忽略数据在微观层面上的精确度,容许一定程度上的模糊与混杂,不仅可以极大地提高我们的认知效率,还可以让我们在宏观层面上获得更好的知识资源和洞察视角。
数据思维的模糊性认知路径不再一味地追求精准性,而是追求结果的高效性和实用性,所以它将在一定程度上弥补了全局性认知路径的缺陷,减少了分析、计算的时间,以及降低了流程的复杂度,这在某些领域是值得提倡和借鉴的。
同时,我们也应该认识到,数据思维的模糊性认知路径也应该具体问题具体分析,不能一味夸大。
3.数据思维的关联性认知路径
人们在以往的科学研究中,普遍认为一切科学认知都在寻找现象之间的因果性,热衷于追根溯源,试图通过从局限的认知路径获得的样本来剖析其中的内在原理,并由此形成固定的认知路径(即因果性认知路径)。传统的认知路径有一个明显的不足,就是认知数据太少,无法反映认知对象之间的全部关系,也就是说,无法满足关联性。对此,这里有必要先梳理一下因果性和关联性之间的内在关系。因现象之间的必然性而建立起来的联系被称为因果性,因此,两个现象之间存在的因果性又被称为因果必然性。而两种事物之间的关联却不一定具备因果性中的必然性,它完全可以是偶然的。关联性按照强弱程度可以分为强关联性和弱关联性。因果性就是关联性的一种表现形式,即它是一种强关联性。关联性认识路径就是指在我们运用数据思维认知某一事物的过程中,只需要把研究对象当成一个“黑箱子”,只研究“黑箱子”的输入方与输出方之间的关系,而不研究“黑箱子”本身。换句话说,就是只研究表象而不研究本质。其本质的研究是从业务层面着手的,包括业务背景、业务逻辑及业务经验。
数据思维正是要求我们培养这种关联性认知路径。因为我们可以通过大数据技术挖掘出事物之间隐含的关联关系,而大数据的核心议题正是建立在关联关系分析基础上的预测。有了这样的预测,我们就可以获得更多的认知和预见。运用这些认知与预见,我们就可以更好地捕捉现在和较为精准地预知未来。此外,通过关注大数据的线性关联关系,以及复杂的非线性关联关系,还可以帮助我们发现以往不曾关注的事物之间的关联,进一步掌握以前无法理解的复杂技术和社会动态。从这个意义上讲,大数据中的关联关系甚至可以超越因果关系,成为我们认知这个世界更好的方法或路径。
因此,我们不要一味地秉持以往的因果性认知路径,要试图运用数据思维这种全新的关联性认知路径,努力颠覆传统认知思维模式和固有偏见。但这并不意味着要完全摈弃因果性认知路径,因为寻找关联性是我们在大数据中没有找到因果性的无奈之举。这样看来,我们应该明确:关联性认知路径不是完全地摈弃和排斥因果性认知路径,而是在肯定因果性的基础上又不拘泥于因果性,并通过关联性认知路径超越和发展因果性,这样我们才能更好地分享数据思维带来的深刻洞见。
4.数据思维的动态性认知路径
事物的本质是以多维度状态和多层次形态呈现的,大数据分析技术作为全新的科学技术手段,在分析数据的过程中通过动态性认知路径,从事物的多维度层面,采用灵活、模糊、立体、非确定的思维来认知数据价值。数据思维的动态性认知路径使得我们在同一时间从多个角度认知事物时,秉承亦对亦错、亦此亦彼的原则,这样就没有了绝对的对错判断,从而不会受到具体问题和复杂背景环境的限制和影响。
以往,我们在对数据认知的过程中,必须采取静态性认知路径来提升数据的准确性,从而最大限度地降低由于数据出错带来的结果偏差。更为复杂的是,对于传统的静态性认知路径,我们还需要花费大量的精力去检测并去除错误数据。相反,对于数据思维的动态性认知路径,错误数据不仅不会影响认知结果,反而会让我们利用这些错误数据并借助一定的反馈机制,最终精准获知数据的内在价值。数据思维的动态性认知路径实质上综合了各个认知路径的优势于一体,完美地展现了数据思维的先进性。
所谓动态,便是需要灵活,而要想灵活地处理和分析数据,就必须做到在全局状态下实现数据的相互关联。在这里,实现动态性的关键在于大数据系统本身具有的内在反馈机制,因此,在数据处理过程中,不必在乎每一步的对与错,因为程序一旦发生错误,则系统便能及时地得到反馈并加以修正,然后继续处理和分析数据。这样便有效地弥补了以往静态性认知路径的不足。这样一来,不仅极大地提高了数据处理的速度,而且也提高了数据处理的精度,进而使数据思维的动态性认知路径的作用得到了有效发挥。
总之,数据思维的动态性认知路径摆脱了传统的静态性认知路径的束缚和限制,从动态性视角多维度、多层次地认知数据的价值,从而进一步揭示了认知事物的内在真理,让我们能够更加全面地认识世界。