1.2 不同学派的科学探索

当前火热的深度学习已经成为当前人工智能的主流技术,但深度学习并非人工智能的全部。

人工智能研究至今已多年,科学家们朝着如何使机器拥有人类一样的智能的方向,从功能、结构、行为等不同途径进行不懈探索,形成了“符号主义”“连接主义”“行为主义”等不同的理论学派。此外,以支持向量机为代表的类比学派,以贝叶斯算法为代表的贝叶斯学派,还有以遗传算法、粒子群算法等为代表的演化计算学派,都是人工智能学术研究的重要力量,目前都在各自优势领域发挥作用,共同构成人工智能的科学体系。

1.符号主义

符号主义又称为逻辑主义,该理论认为符号是人类的认识基元,人工智能的核心问题是知识表示、知识推理和知识运用,知识可以用符号表示,也可以用符号进行推理,人认知的过程即是对符号的计算与推理过程。符号主义学派主张实现人工智能应从功能模拟入手,采用符号演算和形式化逻辑来衍生人工智能。其主要代表人物有纽厄尔、西蒙、麦卡锡、尼尔逊、肖特利菲等,主要研究成果有归结推理方法、启发式算法、专家系统、知识工程理论与技术等。

符号主义在逻辑问题求解方面曾取得令人瞩目的成就。1956年,两位图灵奖得主艾伦·纽厄尔(Allen Newell)和希尔伯特·西蒙(Herbert Simon)与约翰·克里夫·肖(John Cliff Shaw)共同开发了自动定理证明系统“逻辑理论家”,证明了《数学原理》第二章中的38条定理。1958年,美籍数理逻辑学家王浩在IBM 704计算机上证明了《数学原理》中有关命题演算的全部220条定理。这一学派也曾创造了像SAINT、SIN等符号解题系统,这些系统能够完成函数积分求解问题,达到大学生甚至专家的水平。1977年,我国中科院数学所的吴文俊先生借助中国传统数学思维,用方程式方法解决几何定理证明机械化问题,提出机器自动证明几何定理的方法,在国际上被称为“吴方法”,在推动符号主义发展方面做出了贡献。20世纪七八十年代非常活跃的专家系统,比如STUDENT、DENDRAL、MYCIN、XCON等也都是当时符号主义学派的典型成果。

知识库和知识工程技术在新的时期继续向前发展。语义网络(semantic network)是一种以网络格式表达人类知识构造的形式,涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面技术,旨在从数据中识别、发现和推断事物与概念之间的复杂关系,是事物关系的可计算模型。

2010年,谷歌收购了语义网络技术公司Metaweb,给它起了个响亮的名字叫“知识图谱”。知识图谱是一种大规模语义网络,用图模型来描述知识和建模世界万物之间的关联关系,推动符号主义技术更加强大、更加实用。2011年,IBM的沃森(Waston)在美国智力竞猜电视节目《危险边缘》(Jeopardy)比赛中,战胜该节目历史上两位最成功的人类选手获得冠军。知识图谱和知识库已经成为当前智能化技术群的重要成员,语义搜索、智能问答、自然语言理解、视觉理解、推荐系统、智能医疗等场景都与知识图谱技术密切相关。

2.连接主义

连接主义理论认为,人脑的神经元是智能处理的基本单元,认知的过程就是人脑进行神经信息处理的过程。

连接主义是当前较活跃的技术学派,代表性技术是人工神经网络(Artificial Neural Network,ANN),其主要原理是尝试通过模仿人脑细胞间互相连接的生理结构和突触放电工作模式来形成智能计算模型。人工神经网络的早期基础是借鉴脑神经元突触放电机理设计的人工神经元激活函数模型,以及用于浅层神经网络训练的反向传播(B-P)算法。

从学术进化来看,1943年沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)受生物神经学启发提出神经元的数学模型,试图通过模拟人脑实现智能,开创了微观人工智能研究的技术路线。1949年唐纳德·赫布(Donald Hebb)提出的赫布理论,解释了在人脑学习过程中,神经元的突触可塑基本原理,提出了突触连接强度可以通过训练进行调整的思想,建立了神经网络学习机制的基础。在此基础上,1957年弗兰克·罗森布拉特(Frank Rosenblatt)提出感知器的概念和模型,并利用电子管首次实现了可学习的机器。获得1981年诺贝尔医学奖的戴维·休伯尔(David Hubel)和托斯坦·维厄瑟尔(Torsten Wiesel)所发现的视觉系统信息处理机制,支撑了后来多层感知机和神经网络的发展。

神经网络在20世纪80年代的兴起应该归功于物理学家约翰·霍普菲尔德(John Hopfield)。1982年,霍普菲尔德提出了一种具有完整理论基础的神经网络模型,可以解决一大类模式识别问题,还可以给出一类组合优化问题的近似解。1986年,由加拿大多伦多大学的杰弗里·辛顿(Geoffrey Hinton)等提出的多层网络中的反向传播(B-P)算法,将神经网络从理论向实用性方法大大推进了一步。同期,托伊沃·科霍宁(Teuvo Kohonen)提出了自组织映射SOM竞争学习神经网络模型,人工神经网络模型的研究开始吸引了越来越多学者的关注。

之后,美国纽约大学的杨立昆(Yann LeCun)在1989年构建了CNN卷积神经网络(Convolutional Neural Network)应用于图像识别任务,即LeNet的最初版本,并在1993年开发出世界上第一个用于手写文本识别的神经网络程序,展示出CNN网络在复杂特征提取方面的潜力,其采用的先初始化后梯度下降的学习策略,后来成为深度神经网络的主流训练方法。1997年,赛普·霍克赖特(Sepp Hochreiter)等建立了称为LSTM长短时记忆模型的RNN递归神经网络(Recursive Neural Network),RNN网络在当前时间序列研究、自然语言理解、机器翻译等领域具备旺盛的生命力。

在持续多年的理论方法积累基础上,2006年连接主义开始新一轮的突破。杰弗里·辛顿在《科学》发表论文,提出深度信念网络(Deep Belief Networks, DBNs),或称深度学习,应用于手写字符识别,但提出后并没有引起太多人关注。直到2012年,辛顿和他的学生亚历克斯·克里热夫斯基(Alex Krizhevsky)在著名的ImageNet图像识别全球大赛中采用AlexNet卷积深度神经网络取得了令人惊奇的成绩,通过结合GPU强大算力一举将准确率提升到90%以上,证实了深度学习在模式识别方面的惊人潜力,也奠定了视觉信息处理中CNN模型的基本结构。CNN网络现在已经成为图像识别领域深度学习的代名词,也被用于在围棋程序中提取棋盘特征,以及文本分类、语言翻译等领域,掀起了汹涌至今的人工智能发展新浪潮。

3.行为主义

行为主义理论认为,智能行为是通过与现实世界环境的交互学习而形成的,人工智能应像人类智能一样从成功或失败的经历里去归纳行为的准则,通过逐步进化而实现。行为主义最重要的概念就是环境“反馈”。

人工智能的行为主义研究与心理学中的行为主义学派关联密切,其灵感来源于心理学中联结论和刺激—反应论,最早可以追溯到巴甫洛夫的条件反射实验,认为学习是环境的刺激与学习者的行为反应之间的联结过程。因此,行为主义学派注重外部条件对学习的影响,又注重学习者对环境的行为反应。

行为主义研究从动物行为研究和优化控制两个领域各自发展。

动物行为研究视角关注比人类低级得多的生物的行为方式,借此理解智能的产生。比如尽管蚂蚁个体非常简单,智力平平,但当很多小蚂蚁聚集在一起形成庞大的蚁群的时候,却能表现出非凡的智能,能够寻找和优化行进路径。受生物学启发的进化计算在复杂问题寻优、高维空间求解、群体任务协作等大量研究领域都做出了重要贡献。

行为主义研究者的另一部分研究源于1948年维纳提出的“控制论”(Cybernetics)。控制论把神经系统的工作原理与信息理论、控制理论、逻辑以及计算机联系起来,其早期的研究工作重点是模拟人在控制过程中的智能行为和作用,如对自寻优、自适应、自镇定、自组织和自学习等控制论系统的研究,并进行“控制论动物”的研制。

1986年,罗德尼·布鲁克斯(Rodney Brooks)提出基于行为的编程方法,其设计的六足行走机器人被看作新一代的“控制论动物”,是一个基于感知—动作模式模拟昆虫行为的控制系统。这些机器昆虫没有复杂的大脑,也不会按照传统方式进行复杂的知识表示和推理。它们甚至不需要大脑的干预,仅凭四肢和关节的协调,就能很好地适应环境。我们把这些机器昆虫放到复杂地形中,它们可以顺畅地爬行,还能聪明地避开障碍物。它们看起来的智能事实上并不来源于自上而下的复杂设计,而是来源于自下而上的与环境的互动,这是行为主义所倡导的理念。

行为主义的理论推动了机器学习的发展,强化学习(Reinforcement Learning,RL)又称再励学习或增强学习,是其中的典型代表。不同于监督学习和非监督学习,强化学习不要求预先给定训练样本数据,而是通过接收环境对动作的奖励(反馈)作为学习信息。在多步决策过程中,智能体对每次动作的环境反馈效果进行自我评价,以达到累计奖励最大化为目标,不断接收环境信号并动态调整模型参数、优化策略,给机器学习带来新的研究理念和范式。比如,可利用强化学习进行商品推荐算法训练,将用户是否购买作为算法奖励,通过动态交互试错不断提升推荐算法性能。1987年,格瑞·特索罗(Gerry Tesauro)等人打造的自我学习双陆棋程序为后来的增强学习的发展奠定了基础。1989年,英国学者克里斯·沃特金斯(Chris Watkins)首次采用马尔科夫决策(Markov Decision Processes, MDP)进行强化学习建模,提出的Q-learning算法在机器学习领域得到高度关注。

谷歌的DeepMind团队推动强化学习技术与深度学习技术的融合,2013年首次提出了被称为Deep-Q-Network的深度强化学习方法(6),用于在Atari游戏中自主学习游戏规则,学会打七种不同的游戏。后来深度强化学习技术经过不断拓展,在AlphaGo Zero围棋、Dota2、星际争霸2等游戏中采用,显现出其在解决复杂博弈问题方面的潜力,使历史悠久的行为主义再次大放异彩。2017年,强化学习被《麻省理工科技评论》评为2017年全球十大突破性技术,成为这两年火热的人工智能技术方向之一。除游戏博弈类场景外,深度强化学习法未来有望在机器人控制、对话系统、组合优化、无人驾驶等大量场景中得到更广泛应用。

“符号主义”“连接主义”“行为主义”构成的三大技术流派是共识度比较高的人工智能技术路线划分方式。同时,国内外也有学者将人工智能技术路线划分为“符号学派”“连接学派”“类比推理学派”“贝叶斯学派”“进化学派”五大流派。其中,“符号学派”“连接学派”“进化学派”与三大流派的划分相似,以支持向量机为代表的“类比推理学派”在20世纪90年代曾成为人工智能研究的主流方法,而以贝叶斯算法为代表的贝叶斯学派则源于统计学理论,贝叶斯分类、贝叶斯网络、贝叶斯推理等目前仍是很多人工智能研究的重要理论方法。