1.2.6 游戏

游戏是一个相对简单和可控的实验环境,因此经常用于AI研究。在游戏领域,AI已超过人类。

1.国际象棋

20世纪50年代,一些计算机科学家预测,到1967年,计算机将击败人类象棋冠军。但直到1997年,IBM的“深蓝”系统才击败当时的国际象棋冠军盖瑞·卡斯帕罗夫(Gary Kasparov)。如今,在智能手机上运行的国际象棋程序可以表现出大师级的水平。

2.围棋

2016年3月,谷歌DeepMind团队开发的AlphaGo系统击败了围棋冠军。DeepMind后来发布了AlphaGo Master,并在2017年3月击败了排名世界第一的柯洁。2017年10月,DeepMind发表在Nature上的论文详细介绍了AlphaGo的另一个新版本—AlphaGo Zero,它以100︰0击败了最初的AlphaGo系统。

AlphaGo成功的背后是结合了深度学习、强化学习(Reinforcement Learning)与搜索树算法(Tree Search)三大技术。简单来说,当时的AlphaGo有两个核心:策略网络(Policy Network)和评价网络(Value Network),这两个核心都是由卷积神经网络(Convolutional Neural Networks,CNN)所构成的。具体而言,首先在“策略网络”中输入大量棋谱,机器会进行监督式学习,然后使用部分样本训练出一个基础版的策略网络,并使用完整样本训练出“进阶版”的策略网络,让这两个网络对弈,机器通过不断新增的环境数据调整策略,也就是所谓的强化学习。而“策略网络”的作用是选择落子的位置,再由“评价网络”来判断盘面,分析每个步数的权重,预测游戏的输赢结果。当这两个网络把落子的可能性缩小到一个范围内时,机器计算需要庞大运算资源的负担减少了,再利用蒙特卡洛搜索树于有限的组合中算出最佳解。而AlphaGo Zero与AlphaGo不同,它没有被输入任何棋谱,而是从一个不知道围棋游戏规则的神经网络开始,仅通过全新的强化学习算法,让程序自我对弈,自己成为自己的老师,在这个过程中,神经网络不断被更新和调整。

中国工程院院士“高文”总结了什么样的AI系统不需要外部数据就可以战胜人,实际上需要满足以下三个条件:

(1)集合是封闭的。无论是状态集还是其他集,集合都是封闭的,我们知道围棋集合是封闭的。

(2)规则是完备的。也就是说,下棋时什么地方能下,什么地方不能下,这个规则是完全完备的,不能随便更改。

(3)约束是有限的。也就是说,在约束条件下,不可以继续递归,因为允许继续递归之后,往下推演就停不下来,而约束为有限的就能停下来。

满足这三个条件,不需要外部数据,系统自己产生数据就够了。所以可以预见,今后有很多情况,我们可以判断这个人和机器最后谁能赢,满足这三个条件机器一定能赢,无论是德州扑克还是围棋,类似的情况很多。