1.3.3 海量数据的处理分析——大数据

大数据(big data)简而言之就是指庞大、复杂的数据集。早在2001年,分析公司Gartner对大数据给出定义:大数据是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力来适应海量、高增长率和多样化的信息资产。2012年,Gartner更新了其对大数据的定义:大数据是指具备大数据量、高增长率和/或多样化的信息资产,这些信息资产需要新型的处理方式来强化决策制订、洞察和处理优化。这是目前对于大数据最权威的解释之一。从该定义可以总结出大数据具有数据量大(volume)、增长速度快(velocity)、种类形式多样(variety)的特点,即描述大数据的“3V”模型。后来IBM公司又添加了低价值密度(value)和真实性(veracity)两个特点,组成了大数据技术的“5V特征”。

大数据本质仍是数据,对数据的处理过程具体可以分成大数据采集和预处理、大数据存储与管理、大数据处理和分析、大数据展现和应用四项关键技术。

(1)大数据采集和预处理。大数据采集和预处理是大数据流程的第一步。大数据采集是指通过传感器数据、系统日志、移动互联网等方式收集获得不同类型的海量数据集。大数据预处理是指因为采集到的原始数据通常存在杂乱、不完整、重复等问题,需要对原始数据进行数据清洗、数据集成、数据转换和数据消减等操作,以提高大数据的质量,保证大数据分析的准确性。

(2)大数据存储和管理。大数据存储是指将预处理好的数据进行整理、归档和共享的过程。目前比较常用的存储技术主要有分布式文件存储、NoSQL数据库、NewSQL数据库、云存储四种方式。大数据管理是指对不同类型的数据进行收集、整理、组织、存储、加工、传输、检索的各个过程。数据存储与管理是大数据中关键的一步,其好坏直接影响大数据系统的性能表现。

(3)大数据处理和分析。大数据处理和分析是指利用分布式并行编程模型和计算框架,结合机器学习、深度学习、数据挖掘等算法对海量非结构化数据进行处理与分析,并将结果可视化展示,方便用户分析。常用的大数据处理和分析工具主要有Hadoop、Talend、Apache Spark、Azure等。

(4)大数据展现和应用。大数据展现也可称为大数据可视化,通常大数据的使用对象除了工程师和程序员外,还包括普通大众,因此如何把大数据之间的内在联系清晰、简单地表示出来,就需要使用到大数据可视化技术。大数据可视化一般是将大数据以图表、动画、用户界面等形式展现出来。如今,随着大数据技术的快速发展,大数据已经与各行各业相融合,被广泛应用在金融、医疗、政务、电商、交通等领域。