1.3 AI与大数据的关系

人工智能如今处在发展的早期阶段,非常像十几年前互联网的成长。推动AI发展的三个动力是算法、算力和数据(见图1-10)。第一个是算法,尤其是机器学习的算法在过去几年迅速发展,不断有各种各样的创新,深度学习、DNN、RNN、CNN到GAN,不停地有新的发明创造出来;第二个是计算能力,随着云计算的普及,计算的成本在不断下降,服务器也变得越来越强大,我们将在第2章中详细介绍人工智能芯片产业;第三个是数据,数据的产生仍然在以一个非常高的速度发展,数据越多,训练越全面,就会进一步推动算法的不断创新,以及对计算能力提出更新的要求。数据是AI的根本和基础,AI和大数据密不可分。没有海量数据支撑的人工智能就是人工智障。

图1-10 推动AI的动力

AI的火热是与近几年大数据获得重大的突破紧密相关的。本轮AI浪潮是大数据驱动的,算法就是“炼数术”。因此,AI面临的核心挑战之一依然是数据,尤其是进行监督式学习时所需要的高质量训练数据源。大数据与人工智能相辅相成,在人工智能的加持下,海量的大数据对算法模型不断训练,又在结果输出上进行优化,从而使人工智能向更为智能化的方向进步,大数据与人工智能的结合将在更多领域中击败人类所能够做到的极限。

1.什么是大数据?

云计算、物联网、移动互联、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。一般意义上,大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合。

大数据呈现出多种鲜明的特征。

· 在数据量方面,当前全球所拥有的数据总量已经远远超过历史上的任何时期,更为重要的是,数据量的增加速度呈现出倍增趋势,并且每个应用所计算的数据量也大幅增加。

· 在数据速率方面,数据的产生、传播的速度更快,在不同时空中流转,呈现出鲜明的流式特征,更为重要的是,数据价值的有效时间急剧缩短,也要求越来越高的数据计算和使用能力。

· 在数据复杂性方面,数据种类繁多,数据在编码方式、存储格式、应用特征等多个方面也存在多层次、多方面的差异性,结构化、半结构化、非结构化数据并存,并且半结构化、非结构化数据所占的比例不断增加。

· 在数据价值方面,数据规模增大到一定程度之后,隐含于数据中的知识的价值也随之增大,并将更多地推动社会的发展和科技的进步。此外,大数据往往还呈现出个性化、不完备化、价值稀疏、交叉复用等特征。

大数据蕴含大信息,大信息提炼大知识,大知识将在更高的层面、更广的视角、更大的范围帮助用户提高洞察力,提升决策力,将为人类社会创造前所未有的重大价值。但与此同时,这些总量极大的价值往往隐藏在大数据中,表现出价值密度极低、分布极其不规律、信息隐藏程度极深、发现有用的价值极其困难的鲜明特征。

2.大数据产业链

如图1-11所示,大数据生产全链条覆盖数据采集、计算引擎、数据加工、数据可视化、机器学习、AI应用等。

图1-11 大数据产业链

3.基于大数据的AI应用

如何把数据资源转化为AI应用,是我们特别关注的问题。现在看来,大数据和AI的结合主要有以下几种较为常用的场景。

· 追踪:互联网和物联网无时无刻不在记录数据,大数据可以追踪、追溯任何记录,形成真实的历史轨迹。历史数据是许多AI应用的起点,包括消费者购买行为分析、购买偏好分析等。在电商平台上,从前是人找货,现在是货找人。

· 识别:在对各种因素全面追踪的基础上,通过定位、比对、筛选可以实现精准识别,尤其是对语音、图像、视频进行识别,使AI可分析的内容更加丰富,得到的结果更为精准。

· 画像:通过对同一主体不同数据源的追踪、识别、匹配,形成更立体的刻画和更全面的认识。只要积累足够的用户数据,就能分析出用户的喜好与购买习惯,甚至做到“比用户更了解用户自己”。这样的画像就可以精准地推送广告和产品;对企业画像,可以准确地判断其信用及面临的风险。

· 预测:在历史轨迹、识别和画像基础上,对未来趋势及重复出现的可能性进行预测,当某些指标出现预期变化或超预期变化时给予提示、预警。以前也有基于统计的预测,大数据和AI技术大大丰富了预测手段,对建立风险控制模型有深刻意义。

· 匹配:在海量信息中精准追踪和识别,利用相关性、接近性等进行筛选比对,更有效率地实现产品搭售和供需匹配。

· 优化:按距离最短、成本最低等给定的原则,通过各种算法对路径、资源等进行优化配置。对企业而言,提高服务水平,提升内部效率;对公共部门而言,节约公共资源,提升公共服务能力。

总之,把用户、数据和算法巧妙地连接起来的是AI应用(或AI产品)。最终,大数据的成功最关键的一步往往是一个极富想象力的AI创新应用。比如金融行业的“秒贷”,就是基于AI算法的数据智能实时发挥作用,最终实现秒级放贷,这个是传统的金融服务没法想象的。这样的智能商业才是对传统商业的颠覆。再比如,美国的UPS快递公司建立了基于大数据的预测性分析AI系统来检测全美60000辆车辆的实时车况,以便及时地进行防御性修理。

4.深度神经网络等新兴技术开辟大数据分析技术的新时代

传统的数据分析方法,无论是传统的OLAP技术还是数据挖掘技术,都难以应付大数据的挑战。首先是执行效率低,在处理太字节(TB)级以上的数据时效率更低。其次是数据分析精度难以随着数据量的提升而得到改进,特别是难以应对非结构化数据。目前来看,以深度神经网络等新兴技术为代表的大数据分析技术已经得到一定发展。神经网络是一种先进的人工智能技术,具有自行处理、分布存储和高度容错等特性,非常适合处理非线性的以及模糊、不完整、不严密的知识或数据,十分适合解决大数据挖掘的问题。深度学习是近年来机器学习领域最令人瞩目的方向。自2006年深度学习界泰斗Geoffrey Hinton在Science杂志上发表Deep Belief Networks的论文后,激活了神经网络的研究,开启了深度神经网络的新时代。学术界和工业界对深度学习热情高涨,并逐渐在语音识别、图像识别、自然语言处理等领域获得突破性进展,深度学习在语音识别领域的准确率获得了20%~30%的提升,突破了近十年的瓶颈。图像识别领域早在2013年就通过深度学习将准确率提高到了89%。神经网络算法的结构和流程特性非常适合大数据分布式处理平台进行计算,通过神经网络能够实现各领域的分析算法和应用。