金年会金字招牌信誉至上_人工智能(61)–AlphaGo浅析(1)

来源：点击：时间：2024-08-03 04:47

本文摘要：AlphaGo（阿尔法狗）战胜了柯洁，人工智能输掉了，赢家依然是人类！之前讲解过深度增强自学DRL，其中一个特立独行经典的应用于就是谷歌DeepMind团队研发的棋士程序AlphaGo（阿尔法狗）。

AlphaGo（阿尔法狗）战胜了柯洁，人工智能输掉了，赢家依然是人类！之前讲解过深度增强自学DRL，其中一个特立独行经典的应用于就是谷歌DeepMind团队研发的棋士程序AlphaGo（阿尔法狗）。AlphaGo的胜利将深度增强自学推向新的热点和高度，沦为AI人工智能历史上一个新的里程碑。有适当跟大家一起探究一下AlphaGo（阿尔法狗），理解一下AlphaGo背后神秘的AI力量。

棋士的程序设计：棋士是一个极致的、有意思的数学问题。棋士棋盘是19x19路，所以一共是361个交叉点，每个交叉点有三种状态，可以用1回应黑子，－1回应白字，0回应无子，考虑到每个方位还有可能有落子的时间、这个方位的气等其他信息，可以用一个361＊n维的向量来回应一个棋盘的状态。

则把一个棋盘状态向量记作s。当状态s下，继续不考虑到无法落子的地方，供下一步落子的空间也是361个。把下一步的落子的行动也用361维的向量来回应记作a。

于是，设计一个棋士人工智能的程序，就改变为：给定等价一个s状态，找寻最差的应付策略a，让程序按照这个策略回头，最后取得棋盘上仅次于的地盘。谷歌DeepMind的棋士程序AlphaGo（阿尔法狗）就是基于这样思想设计的。

AlphaGo阐述：AlphaGo（阿尔法狗）创新性地将深度增强自学DRL和蒙特卡罗树根搜寻MCTS结合，通过价值网络（valuenetwork）评估局面以增大搜寻深度，利用策略网络（policynetwork）减少搜寻宽度，使搜寻效率获得大幅度提高，胜率估计也更为准确。MCTS必要性：AlphaGo（阿尔法狗）系统中除了深度增强自学DRL外，为什么还必须蒙特卡罗树根搜寻？棋士棋面总共有19＊19＝361个落子方位。假如计算机有充足的计算能力，理论上来说，可以穷举黑白双方所有有可能的落子方位，寻找拟合或次优落子策略。

如果穷举黑白双方所有有可能的落子方位，各种人组的总数，约是250＾150数量级，即棋士的计算出来复杂度大约为250的150次方。假如使用传统的暴力搜寻方式（迭代搜寻方式），用当今世界最强劲云计算系统，算数几十年也算数不完了。按照现有的计算能力是相比之下无法解决问题棋士问题的。早期计算机棋士软件通过专家系统和模糊不清给定增大搜寻空间，减低计算出来强度，但受限于计算资源和硬件能力，实际效果并不理想。

但是到了2006年，蒙特卡罗树根搜寻的应用于标志着计算机棋士转入了崭新阶段。AlphaGo网络结构：网络结构如下图右图：AlphaGo系统构成：AlphaGo（阿尔法狗）系统主要由几个部分构成：1．策略网络（PolicyNetwork）：等价当前棋士局面，预测／取样下一步的走棋。2．较慢走子（Fastrollout）：目标和策略网络一样，只不过棋士有时间容许，必须在规定时间内必要壮烈牺牲走棋质量情况下，较慢落子，速度要比策略网络要慢1000倍。3．价值网络（ValueNetwork）：等价当前棋士局面，估算是白胜还是黑胜。

4．蒙特卡罗树根搜寻（MonteCarloTreeSearch）：不穷举所有人组，寻找拟合或次优方位。把以上这四个部分融合一起，构成一个原始的AlphaGo（阿尔法狗）系统。蒙特卡洛树根搜寻（MCTS）是一个大框架，许多博弈论AI都会使用这个框架。增强自学（RL）是自学方法，用来提高AI的实力。

深度自学（DL）使用了深度神经网络（DNN），它是工具，用来数值棋士局面评估函数和策略函数的。蒙特卡洛树根搜寻（MCTS）和增强自学RL让具备自学能力、分段的棋士博弈论算法沦为有可能。深度自学（DL）让分析地评估棋士局面沦为了有可能。小结：可以说道AlphaGo仅次于优势就是它应用于了标准化算法，而不是仅有局限于棋士领域的算法。

AlphaGo胜利证明了像棋士这样简单的问题，都可以通过先进设备的AI人工智能技术来解决问题。

本文关键词：金年会金字招牌信誉至上,金年会官方网站入口,金年会网页版登录入口

本文来源：金年会金字招牌信誉至上-www.wutaice.com

上一篇：下一代苹果手机或将提高像素|金年会金字招
下一篇：‘金年会官方网站入口，金年会网页版登录入