1.2.6 游戏_人工智能技术入门-QQ阅读中文轻小说网

书名：人工智能技术入门
作者名：杨正洪
本章字数：977字
更新时间：2025-02-27 15:16:37

1.2.6　游戏

游戏是一个相对简单和可控的实验环境，因此经常用于AI研究。在游戏领域，AI已超过人类。

1．国际象棋

20世纪50年代，一些计算机科学家预测，到1967年，计算机将击败人类象棋冠军。但直到1997年，IBM的“深蓝”系统才击败当时的国际象棋冠军盖瑞·卡斯帕罗夫（Gary Kasparov）。如今，在智能手机上运行的国际象棋程序可以表现出大师级的水平。

2．围棋

2016年3月，谷歌DeepMind团队开发的AlphaGo系统击败了围棋冠军。DeepMind后来发布了AlphaGo Master，并在2017年3月击败了排名世界第一的柯洁。2017年10月，DeepMind发表在Nature上的论文详细介绍了AlphaGo的另一个新版本—AlphaGo Zero，它以100︰0击败了最初的AlphaGo系统。

AlphaGo成功的背后是结合了深度学习、强化学习（Reinforcement Learning）与搜索树算法（Tree Search）三大技术。简单来说，当时的AlphaGo有两个核心：策略网络（Policy Network）和评价网络（Value Network），这两个核心都是由卷积神经网络（Convolutional Neural Networks,CNN）所构成的。具体而言，首先在“策略网络”中输入大量棋谱，机器会进行监督式学习，然后使用部分样本训练出一个基础版的策略网络，并使用完整样本训练出“进阶版”的策略网络，让这两个网络对弈，机器通过不断新增的环境数据调整策略，也就是所谓的强化学习。而“策略网络”的作用是选择落子的位置，再由“评价网络”来判断盘面，分析每个步数的权重，预测游戏的输赢结果。当这两个网络把落子的可能性缩小到一个范围内时，机器计算需要庞大运算资源的负担减少了，再利用蒙特卡洛搜索树于有限的组合中算出最佳解。而AlphaGo Zero与AlphaGo不同，它没有被输入任何棋谱，而是从一个不知道围棋游戏规则的神经网络开始，仅通过全新的强化学习算法，让程序自我对弈，自己成为自己的老师，在这个过程中，神经网络不断被更新和调整。

中国工程院院士“高文”总结了什么样的AI系统不需要外部数据就可以战胜人，实际上需要满足以下三个条件：

（1）集合是封闭的。无论是状态集还是其他集，集合都是封闭的，我们知道围棋集合是封闭的。

（2）规则是完备的。也就是说，下棋时什么地方能下，什么地方不能下，这个规则是完全完备的，不能随便更改。

（3）约束是有限的。也就是说，在约束条件下，不可以继续递归，因为允许继续递归之后，往下推演就停不下来，而约束为有限的就能停下来。

满足这三个条件，不需要外部数据，系统自己产生数据就够了。所以可以预见，今后有很多情况，我们可以判断这个人和机器最后谁能赢，满足这三个条件机器一定能赢，无论是德州扑克还是围棋，类似的情况很多。