1.3.3 海量数据的处理分析——大数据_人工智能原理与应用教程-QQ阅读男生历史网

书名：人工智能原理与应用教程
作者名：贡亮刘成良主编
本章字数：999字
更新时间：2024-08-07 09:08:28

1.3.3　海量数据的处理分析——大数据

大数据（big data）简而言之就是指庞大、复杂的数据集。早在2001年，分析公司Gartner对大数据给出定义：大数据是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力来适应海量、高增长率和多样化的信息资产。2012年，Gartner更新了其对大数据的定义：大数据是指具备大数据量、高增长率和/或多样化的信息资产，这些信息资产需要新型的处理方式来强化决策制订、洞察和处理优化。这是目前对于大数据最权威的解释之一。从该定义可以总结出大数据具有数据量大（volume）、增长速度快（velocity）、种类形式多样（variety）的特点，即描述大数据的“3V”模型。后来IBM公司又添加了低价值密度（value）和真实性（veracity）两个特点，组成了大数据技术的“5V特征”。

大数据本质仍是数据，对数据的处理过程具体可以分成大数据采集和预处理、大数据存储与管理、大数据处理和分析、大数据展现和应用四项关键技术。

（1）大数据采集和预处理。大数据采集和预处理是大数据流程的第一步。大数据采集是指通过传感器数据、系统日志、移动互联网等方式收集获得不同类型的海量数据集。大数据预处理是指因为采集到的原始数据通常存在杂乱、不完整、重复等问题，需要对原始数据进行数据清洗、数据集成、数据转换和数据消减等操作，以提高大数据的质量，保证大数据分析的准确性。

（2）大数据存储和管理。大数据存储是指将预处理好的数据进行整理、归档和共享的过程。目前比较常用的存储技术主要有分布式文件存储、NoSQL数据库、NewSQL数据库、云存储四种方式。大数据管理是指对不同类型的数据进行收集、整理、组织、存储、加工、传输、检索的各个过程。数据存储与管理是大数据中关键的一步，其好坏直接影响大数据系统的性能表现。

（3）大数据处理和分析。大数据处理和分析是指利用分布式并行编程模型和计算框架，结合机器学习、深度学习、数据挖掘等算法对海量非结构化数据进行处理与分析，并将结果可视化展示，方便用户分析。常用的大数据处理和分析工具主要有Hadoop、Talend、Apache Spark、Azure等。

（4）大数据展现和应用。大数据展现也可称为大数据可视化，通常大数据的使用对象除了工程师和程序员外，还包括普通大众，因此如何把大数据之间的内在联系清晰、简单地表示出来，就需要使用到大数据可视化技术。大数据可视化一般是将大数据以图表、动画、用户界面等形式展现出来。如今，随着大数据技术的快速发展，大数据已经与各行各业相融合，被广泛应用在金融、医疗、政务、电商、交通等领域。