AlphaGo:如何解决围棋AI的挑战难点?

新知榜官方账号

2023-06-30 21:38:40

AlphaGo的设计

围棋对AI的挑战难点在于棋盘空间的大小,它包含10170个位置状态空间。作为比较,国际象棋的状态空间约为1043。这样的游戏都具有高分支因子,也就是当前状态下的可能下法的数量。围棋中可能的游戏场景的数量要大于宇宙中的原子数。AlphaGo的开发者设法解决了这一问题。他们设计的系统基于树搜索,由神经网络驱动。

AlphaGo实施的每一个细节都是多年研究的结果,而它们的融合才是AlphaGo成功的关键。AlphaGo的CNN的输入部分是当前的棋局,输出部分是对人类对手下一步棋的预测。AlphaGo使用神经网络来预测人类对手的下法。为了训练CNN,AlphaGo的开发者在围棋服务器KGS上选取了三万盘棋局,并从每一局中随机抽取对战的位置及棋手随后的行棋。这些应对的行棋就是神经网络预测的目标。输入位置转换为48个特征,表示每个交叉点棋子的颜色、四周相邻位置为“空”的数量和一些其他信息。这些特征都根据以前的研究结果进行了选择。因此,输入层是一个19×19×48堆栈,包括了棋盘上每个交叉点的每个特征的值。CNN有13个隐藏层,每层256个滤波器。输出层的尺寸为19×19,输出中的每个单元都包含一个人将棋子放在相应交叉点的概率。神经网络通过标准反向传播进行训练。

AlphaGo还使用了强化学习。神经网络与蒙特卡洛(MCTS)的融合图:AlphaGo中的蒙特卡洛树搜索。AlphaGo使用了各种不同的UCT规则来选择行动,优化方程式x(a)+u(a),其中,x(a)是对行动(走法)的评估。u(a)是P(a)的一部分,即SL神经网络预测出来的概率。在一个场景中,CNN会偏向MCTS,来尝试新的走法,这些走法一般都是非常罕见的,但是对于CNN来说,却是一个最优解。虽然增强学习网络被证明比SL网络更强,但是,当走法的选择经过SL网络提升时,AlphaGo的整体表现会更好。

AlphaGo的成功关键

AlphaGo最大的优势是应用了通用算法,而不是仅局限于围棋领域的算法。AlphaGo证明了像围棋这样复杂的问题都可以通过先进的技术解决。深度学习已经被成功应用于图像及自然语言处理、生物医疗及其他领域。AlphaGo的开发者们所使用的方法或许也可被应用于上述领域。AlphaGo的成功关键在于:1)深度学习技术的应用;2)树搜索和神经网络的融合;3)强化学习的使用;4)通用算法的应用。

本页网址:https://www.xinzhibang.net/article_detail-3477.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AlphaGo 围棋AI 神经网络

分享至微信: 微信扫码阅读

相关工具

相关文章