新知榜官方账号
2023-06-30 21:38:40
围棋对AI的挑战难点在于棋盘空间的大小,它包含10170个位置状态空间。作为比较,国际象棋的状态空间约为1043。这样的游戏都具有高分支因子,也就是当前状态下的可能下法的数量。围棋中可能的游戏场景的数量要大于宇宙中的原子数。AlphaGo的开发者设法解决了这一问题。他们设计的系统基于树搜索,由神经网络驱动。
AlphaGo实施的每一个细节都是多年研究的结果,而它们的融合才是AlphaGo成功的关键。AlphaGo的CNN的输入部分是当前的棋局,输出部分是对人类对手下一步棋的预测。AlphaGo使用神经网络来预测人类对手的下法。为了训练CNN,AlphaGo的开发者在围棋服务器KGS上选取了三万盘棋局,并从每一局中随机抽取对战的位置及棋手随后的行棋。这些应对的行棋就是神经网络预测的目标。输入位置转换为48个特征,表示每个交叉点棋子的颜色、四周相邻位置为“空”的数量和一些其他信息。这些特征都根据以前的研究结果进行了选择。因此,输入层是一个19×19×48堆栈,包括了棋盘上每个交叉点的每个特征的值。CNN有13个隐藏层,每层256个滤波器。输出层的尺寸为19×19,输出中的每个单元都包含一个人将棋子放在相应交叉点的概率。神经网络通过标准反向传播进行训练。
AlphaGo还使用了强化学习。神经网络与蒙特卡洛(MCTS)的融合图:AlphaGo中的蒙特卡洛树搜索。AlphaGo使用了各种不同的UCT规则来选择行动,优化方程式x(a)+u(a),其中,x(a)是对行动(走法)的评估。u(a)是P(a)的一部分,即SL神经网络预测出来的概率。在一个场景中,CNN会偏向MCTS,来尝试新的走法,这些走法一般都是非常罕见的,但是对于CNN来说,却是一个最优解。虽然增强学习网络被证明比SL网络更强,但是,当走法的选择经过SL网络提升时,AlphaGo的整体表现会更好。
AlphaGo最大的优势是应用了通用算法,而不是仅局限于围棋领域的算法。AlphaGo证明了像围棋这样复杂的问题都可以通过先进的技术解决。深度学习已经被成功应用于图像及自然语言处理、生物医疗及其他领域。AlphaGo的开发者们所使用的方法或许也可被应用于上述领域。AlphaGo的成功关键在于:1)深度学习技术的应用;2)树搜索和神经网络的融合;3)强化学习的使用;4)通用算法的应用。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16