- 智能化变革:人工智能技术进化与价值创造
- 李修全
- 2439字
- 2021-12-10 19:40:08
2.1 多层级的智能技术体系
人工智能的研究内容既包括基础层通过多学科交叉开展的神经处理机理、生物启发的演化机制、智能计算模型等研究,又包括共性技术层的机器学习、智能算法、智能芯片,还包括专用技术层的自然语言处理、计算机视觉、知识表示、自动推理、机器学习、人机交互等技术,共同支撑专家系统、智能机器人、自动驾驶等各类应用层典型智能系统,这些共同构成了多层级的智能技术体系,见图2-1。
在基础理论层面,人工智能具有典型的多学科交叉特点。概率论、逻辑学、统计学等学科都是人工智能发展的基础学科,为贝叶斯网络、产生式系统、深度学习等方法提供了理论基础;心理学、生物学、社会行为科学也为强化学习、启发式搜索、遗传算法等提供了重要的方法启发;下一步脑神经科学、认知科学、量子科学的新发现,也将继续推动人工智能新模型新算法的突破。
在不同基础交叉学科支撑下,在过去的几十年中,符号语义、连接语义、行为主义等学派的研究者从不同的技术路线上发展起大量智能模型和算法,这些技术主要处于共性模型和方法层。各种模型方法在不同时期发挥了重要作用,未来也将优势互补,共同支撑上层人工智能各专项智能技术的突破和发展。
语音识别、机器视觉、自然语言理解等人工智能技术,大多是处于专项智能技术层。同时,各项专项智能技术的集成应用也支撑了各类智能系统的研发和产业化应用。在专项智能技术层和智能系统层,各个方向的产业化价值都已比较清晰,每个方向上都可以支撑企业化运营。近年来,在专项智能技术层和智能系统层很多方向上都已经成长起了大批独角兽公司。
图2-1 人工智能技术生态体系示意图
1.图像识别
图像识别是当前发展迅速的专项类智能技术,是指利用计算机对图像进行处理、分析和理解,从图片或影像中识别出物体、场景甚至行为,或对目标进行识别、跟踪和测量的相关技术。
典型的图像识别技术包括文字识别、人脸识别、虹膜识别、商品识别等。图像识别通常包括一系列更为具体的子任务,包括图像采集、图像预处理、特征提取、图像匹配与识别等。机器学习技术是目前计算机视觉的主要研究方法,通过在海量图像中不断训练和改进视觉模型来提高其识别对象的能力。当前TensorFlow、PyTorch等主流的深度学习开源框架均有相应的应用层计算机视觉开源软件或开源工具集与之配套,如TensorFlow-Models、PyTorch Vision等。图像识别也是立体视觉、运动分析、数据融合等技术的基础,在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多应用领域具有重要价值。
2.语音识别
语音识别是另一项重要的专项类智能技术,让机器自动且准确地转录人类的语音,是实现人与机器进行语音交互的基础性技术,包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别把语音信号转变为相应的文本或命令,是语音输入、语音控制、智能对话等应用技术的基础。
图像识别和语音识别是在基于大数据驱动的深度学习推动下率先达到成熟并走向产业化的两类人工智能技术。IBM在20世纪90年代就提出了一款名为IBM ViaVoice的语音听写软件,当时的实用效果还不理想。经历了持续的潜心研究之后,该软件逐步具备了连续语音识别和强大的学习功能,经过口音校正就能够在Word中以听写方式输入文字,IBM ViaVoice世纪1.0版被纽约时报评选为2000年最受欢迎的十大顶尖商务软件之一。Switchboard测试语音识别系统的经典语料库,是包含大约2400个日常电话对话的标准数据集,2017年微软工程院在Switchboard数据库上达到94.9%的语音识别准确率,水平与人相当。
目前语音识别技术在各类人工智能专项技术中成熟度已经比较高,开始在大量场景落地。比如智能家居领域,语音识别技术正在成为关键性技术,各类家电企业都在利用语音识别与交互升级产品中控系统。但同时,语音识别技术在进入真实工业环境应用的过程中,也还面临像远场噪声、方言、情感识别等大量技术难点,仍有一定的创新提升空间。
3.自然语言理解
自然语言理解使计算机具有文本处理能力,能理解和运用人类社会的自然语言,与语音识别技术相结合,目前已经能够实现人机之间的多轮对话。内容理解、知识抽取、语义推理等高级认知技术的研发正在全球大规模开展,成为新一轮人工智能发展中最活跃的技术突破方向之一。
由于理解语言存在切词、歧义、上下文联系等一系列挑战性问题,自然语言理解一直是人工智能领域未得到很好解决的问题,因而也被称为人工智能皇冠上的明珠。辛顿(Hinton)认为深度学习的下一个大的进展应该是让神经网络真正理解文档的内容。杨立昆(Yann LeCun)也表示深度学习的下一个前沿课题是自然语言理解。
前期自然语言处理主要基于语言学的方法,基于规则和知识的方法,但成效并不显著。近年深度学习发展起来之后,基于大规模真实语料库的数据驱动建模方法取得了更好的效果,目前主流的自然语言处理都是采用机器学习的方法。通过建立语言模型对语料中语言表达的概率分布进行学习,从而获得给定字符或单词表达某一特定语义的最大可能性,正在成为近几年人工智能领域的一大热点前沿方向。近年来,ELMo、BERT等新的网络模型深度结合文本语言理解问题的内在特征,设计了双向训练、预训练等创新性方法,与特定任务不相关的预训练和针对特定任务的再训练结合,强化了语言模型的语境建模能力、知识迁移能力,推动自然语言处理领域实现了长足进步。未来基于知识和推理的深层方法与基于语料统计等数据驱动方法结合起来,有可能为自然语言理解能力带来新的突破。
从产业化角度看,人工智能的核心是共性技术层,专项智能技术层的新算法是人工智能技术水平的最直接体现。可以说,在核心算法领域具有绝对优势的公司,将在人工智能产业化这场长跑赛中取得最终胜利。如果企业想要在产业应用上谋求长远竞争优势,就需要在算法层有较深的技术储备,并将优势向应用层延展。
从理论创新看,对于人类智能的模拟,正在不断实现和突破,但每种智能类型采取的技术路线却大不相同。对感知智能,深度学习发挥出了强大的威力。但对于思考与推理,深度学习却一筹莫展。可能不会有大一统的算法模型解决各类智能问题,未来仍需要不同技术路线优势互补,协同完成感知、推理、博弈、优化等智能任务。