四、大数据分析框架

大数据分析技术的发展需要在两个方面取得突破,一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语义、情感、意图等。二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。
目前的大数据分析主要有两条技术路线,一是凭借先验知识人工建立数学模型来分析数据。二是通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力。由于占大数据主要部分的非结构化数据往往模式不明且多变,因此难以靠人工建立数学模型去挖掘深藏其中的知识。通过人工智能和机器学习技术分析大数据,被普遍认为具有很好的前景。2006年Google等公司的科学家根据人脑认知过程的分层特性,提出增加人工神经网络层数和神经元节点数量,加大机器学习的规模,构建深度神经网络,可提高训练效果,并在后续试验中得到证实。这一事件引起工业界和学术界高度关注,使得神经网络技术重新成为数据分析技术的热点。目前基于深度神经网络的机器学习技术已经在语音识别和图像识别方面取得了很好的效果。但未来深度学习要在大数据分析上广泛应用,还需解决模型的迁移适应能力、超大规模神经网络的工程实现等大量理论和工程问题。