博文

李世石堪堪要败：人类快要没戏了？

热度 11已有 13516 次阅读2016-3-10 12:31 |个人分类:休闲时尚|系统分类:时尚天地| 围棋, 人工智能分享到微信

白露为霜注：五个月前当谷歌的计算机程序阿尔法围棋(AlphaGo)击败欧洲围棋冠军樊麾时并没有太多人在意，樊麾的段位不算高，也不是很有名。然而今年三月阿尔法围棋同李世石之间的人机大战却完全不同，李世石雄居世界围棋顶尖多年，名声显赫。这个在五个月前还不乍样的计算机程序真有可能撼动人类顶尖的高手？绝大多数的人都认为是不可能的，李世石更是豪言要5:0取胜。

前天晚上第一场比赛吸引的众多的观众，Youtube的录像一天之内就有100万人观看。结果大出人意外，以李世石中盘认输收场。对此，除了震惊之外很多棋迷还不服气 - 李世石有些轻敌，或者选用不常见的开局是错误，等等。昨天晚上第二场比赛，AlphaGo持黑先行，李世石不敢大意，以较为常见的开局应对。局面一直非常胶着，黑棋气势站优，白棋拿实地稳扎稳打。中盘过后在现场用英文评论的Michael Redmond九段一遍又一遍地计算局面的得分，结论都是：很接近。突然，再算一遍后大惊失色：“黑棋领先了”。果然，不多久，李世石再次投子认输。

0:2落后，李世石堪堪要败，人类是不是快没戏了？这的确是很好的问题。再往下还有三场比赛，李世石应该还是有机会的，但这个计算机程序具有击败人类的顶尖棋手的能力已经是不争的事实。AlphaGo还不时下出精彩的棋来，大有青出于蓝而胜于蓝的架式。

那么阿尔法围棋到底是何方神圣，它是怎样能进步如此神速呢？今年一月，谷歌的研究团队发出一篇博文，介绍阿尔法围棋所用的算法和策略。这篇博文来得正是时候，我把它翻译成中文，也可以让那些不服气的棋迷也死的明白。

其实大多数人不懂“黑暗”的力量有多么强大。击败李世石的AlphaGo多机分布系统动用了1202个CPU和176个GPU，拥有极为巨大的计算能力。这真的不能算是公平的比赛，就像对手端着机关枪，李世石拿的是一把破菜刀。但让阿尔法围棋获胜的真正秘诀不再硬件，我个人的看法，是在于蒙特卡洛树搜索(Monte-Carlo Tree Search)的算法。正是这个算法，使得程序具有了自我学习的能力，并且能有效地控制搜索的复杂性。

阿尔法围棋：使用机器学习掌握古老的围棋

AlphaGo: Mastering the ancient game of Go with Machine Learning

游戏是测试与人类解决问题方法相似的更聪明，更灵活的算法的一个很好的试验场。人类很早就开始创造能比最好的人玩游戏玩的更好的程序 – 作为1952年一个博士生的毕业设计，计算机学会了第一个经典的游戏 - 玩圈和十字架(noughts and crosses)，也称为tic-tac-toe。接着1994年计算机在跳棋(checkers)上打败人类高手。IBM的“深蓝”在1997年击败国际象棋大师Kasparov更是轰动一时。计算机的成功并不局限于棋类，IBM的“华生”(Waston)在2011年获得Jeopardy的冠军。仅根据原始象素的输入，谷歌的算法还学会了玩数十种Atari游戏。

但有一种游戏一直让人工智能的企图遭受挫败：古老的围棋。2500年前在中国发明，目前世界范围下围棋的人数超过四千万人。围棋的规则很简单：玩家轮流将黑色或白色的棋子放在棋盘上，试图捕捉对手的棋子或者围成空地而得分。孔子曾经写过这个游戏，它的美感让它被提升到任何中国学者必需具备的四种技艺之一(琴棋书画)。下围棋主要靠直觉和感受，很多世纪以来一直因其精妙博大和思维的深度而让人们着迷。

但尽管规则很简单，围棋其实是极为复杂的游戏，围棋的搜索空间是如此的巨大，是10的100次方倍大于国际象棋的搜索空间 - 这个数字比整个宇宙所有原子的总和还要大。其结果是，传统的“蛮力”(brute force)人工智能方法 - 构建一个所有可能的下法的搜索树在围棋上无法做到。迄今为止，电脑下围棋的水平还是业余级的。专家预测至少需要10年时间电脑才有可能击败顶级专业围棋手。

我们认为这是一个难以拒绝的挑战！我们开始构建一个系统，阿尔法围棋(AlphaGo)，来克服种种障碍。AlphaGo程序关键是将围棋巨大的搜索空间减少到可以对付的规模。要做到这一点，它将最先进的树搜索(tree search)方法同两个深度神经网络相结合，每个神经网络包含很多层的数以百万计的像神经元样的联结。一个神经网络称为“策略网络”(policy network)用来预测下一步的行动，通过只考虑最有可能导致胜利的下法来缩小搜索范围。另外一个神经网络叫“价值网络”(value network)用于减少搜索树的深度 – 评估在走每一步赢的可能性，一路搜索到游戏的结束。

AlphaGo的搜索算法比以前的方法更接近人的思维方法。例如，当“深蓝”下棋时，它使用比AlphaGo多数千倍的蛮力搜索。相反，AlphaGo使用一种称为蒙特卡洛树搜索(Monte-Carlo Tree Search)在它脑子中一遍又一遍地把剩下的棋下完。同以前的蒙特卡罗程序不同的是，AlphaGo使用深层神经网络来指导其搜索。在每个模拟游戏中，策略网络建议最聪明的下法，而价值网络则精确地评估下完这步后局面的优劣。最后，AlphaGo选择在模拟中最成功的下法。

我们首先使用从人类下的棋中的3千万种常用招法来训练策略网络，直到它可以以57%的准确度预测出人类的回应（AlphaGo前之前的纪录是44％）。但是，我们的目标是击败最好的人类棋手，而不仅仅是模仿他们。要做到这一点，AlphaGo必须学会发现新的策略。通过在神经网络之间下数以千记的棋，并在一种被称为“强化学习”一个试错的过程中不断改进。这种做法导致了更好的策略网络，这个网络是如此强大的，即使仅仅是没有树搜索的原始的神经网络就可以打败最先进的建立庞大的搜索树的程序。

这些策略网络再用来训练价值网络，同样是通过自我下棋来学习改进。这些价值网络可以评估任何围棋的局面，并计算出最后的优胜者 – 这个任务非常的困难一直被认为是不可能完成的问题。

当然，所有这些都需要巨大的计算能力，所以我们大量使用谷歌云平台(Google Cloud Platform)，这使得做人工智能(AI)和机器学习(ML)的研究人员能按照需求弹性的运用计算、存储和网络的能力。此外，用来数量计算的数据流图的开源库，如TensorFlow，使研究人员能够高效地部署多个中央处理器(CPU)或图像处理器(GPU)来满足深度学习算法的计算需要。

AlphaGo似乎做好了准备迎接更大的挑战。所以我们邀请了三次欧洲围棋冠军樊麾 – 从12岁时起就投身围棋的一个精英职业棋手，到我们在伦敦办公室进行挑战赛。这场比赛在去年10月5-9日之间进行。AlphaGo以5:0取胜 – 这是计算机程序第一次击败一个职业围棋手。

AlphaGo的下一个挑战将是在过去十年中一直处在世界颠峰的李世石。比赛在今年三月于韩国首尔举行。李世石很高兴接受挑战说：“我很荣幸地下这场人机大战，但我相信我能取胜。”这将被证明是一场引人入胜的比赛！

我们很高兴已经学会了围棋，从而实现人工智能的重大挑战之一。然而，这一切对我们来说最有意义的是AlphaGo不仅仅手工编写的规则，建立了一个“专家系统”，而是使用通用的机器学习的技术，通过观看和自我下棋不断完善自身。虽然游戏是开发和快速高效地测试人工智能算法的完美平台，最终我们希望将这些技术应用于重要的现实问题上。因为我们所用的方法是通用的，我们希望有一天它们可以被扩展到帮助我们解决一些社会的最棘手和最紧迫的问题，从气候建模到复杂的疾病分析。

英文原文：

AlphaGo: Mastering the ancient game of Go with Machine Learning

李世石堪堪要败：人类快要没戏了？_图1-1

网络直播人机大战第二局 (Lee Se-dol vs AlphaGo)

免责声明：本文中使用的图片均由博主自行发布，与本网无关，如有侵权，请联系博主进行删除。

上一篇: 极客们的狂欢：硅谷动漫节一瞥
下一篇: 在蒙特利看王者归来

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (10 人)

收藏站内分享举报

分享《李世石堪堪要败：人类快要没戏了？》

全部作者的其他最新博文

发表评论评论 (27 个评论)

回复 mrasiandragon 2016-3-13 13:55: 白露为霜: 谢谢留言。无人机大多是人遥控的，没有什么太了不起。但正在研究的无人驾驶车是真正意义的人工智能。机器人被运用到战场上是肯定会发生，但要留后手防止机器人调 ...
机器战士安装的是硬件与软件也一样是假以人为操纵。

回复白露为霜 2016-3-13 12:32: 阿耳卢: 3月13号直播第四局围棋http://www.sogou.com/link?url=DSOYnZeCC_q8hVjQWDwxJI_M1OjogV-l__cSHZ13YtOP4dC-Lwx0ia3mlRzfPLR2&query=3%E6%9C%8813%E5%8F%B7+%E7 ...
总算扳回一盘。
很期待第五盘，看李是不是真的发现了ALPHAGO的弱点，还是瞎猫碰上死耗子。

回复阿耳卢 2016-3-13 03:31: 3月13号直播第四局围棋http://www.sogou.com/link?url=DSOYnZeCC_q8hVjQWDwxJI_M1OjogV-l__cSHZ13YtOP4dC-Lwx0ia3mlRzfPLR2&query=3%E6%9C%8813%E5%8F%B7+%E7%9B%B4%E6%92%AD+%E7%AC%AC%E5%9B%9B%E5%B1%80+%E5%9B%B4%E6%A3%8B

回复白露为霜 2016-3-12 10:44: mrasiandragon: 美国有了无人机现正研发机器人作战，但愿人类不会自掘坟墓。
谢谢留言。无人机大多是人遥控的，没有什么太了不起。但正在研究的无人驾驶车是真正意义的人工智能。机器人被运用到战场上是肯定会发生，但要留后手防止机器人调转枪口对付自己人。

回复 mrasiandragon 2016-3-12 10:30: 白露为霜: 机器人的硬件上的优势是明显的，但困难的地方是如何让它在读谱和下棋中自我学习，这样才能不断提高。这才是人工智能的精髓。 ...
美国有了无人机现正研发机器人作战，但愿人类不会自掘坟墓。

回复 Lmd 2016-3-12 01:42: 白露为霜: 机器人自己下了上百万盘的棋，比有历史以来人类下过的棋的总和还多。机器人不具有生命，但它的程序可以自我学习的，可以根据看别人的棋谱或自己下棋的经历来积累 ...
不可怕就是计算！
上亿次的计算速度比人强，那也是只是工具的单一行为：不可能创造思维！
李世石如果能过下胜所有高手，而且步步无失误，必然胜机器，人会归纳、总结、主动搜外、联想，再出新；机器没法主动，只有等指令一是一，二是二。
谢谢

回复田螺姑娘 2016-3-11 20:46: 白露为霜: 差不多。

回复白露为霜 2016-3-11 13:06: mrasiandragon: 那是因为机器人输入了硬件能让它在一秒钟分析两亿步棋，如果把它的硬件解除了它只不过是一件冷冰冰的机器。
机器人的硬件上的优势是明显的，但困难的地方是如何让它在读谱和下棋中自我学习，这样才能不断提高。这才是人工智能的精髓。

回复 mrasiandragon 2016-3-11 12:50: 那是因为机器人输入了硬件能让它在一秒钟分析两亿步棋，如果把它的硬件解除了它只不过是一件冷冰冰的机器。

回复小虫 2016-3-11 12:03: 白露为霜: 如果你有计算机帮助计算，或许有胜的机会。所以这是不允许的。
已经有一批美国年轻人，以前用手机操作，一直赢钱。后来被逮捕。现在赌场不允许手机在赌的时候用

回复白露为霜 2016-3-11 10:58: liushuai2009: 分享
谢谢分享。

回复白露为霜 2016-3-11 10:58: Lmd: 李世石对付不了机器人的棋界的高手棋谱：证明他棋力低于他们一档。他是在与高人对弈而不是机器。
机器人不具备生命：它受命与输入指令，唯有听从人！设计不了自 ...
机器人自己下了上百万盘的棋，比有历史以来人类下过的棋的总和还多。机器人不具有生命，但它的程序可以自我学习的，可以根据看别人的棋谱或自己下棋的经历来积累知识和经验，这才是可怕的地方。

回复白露为霜 2016-3-11 10:54: 老农民工: 电脑不过是人类发明的一个工具。电脑的好坏在于人们给它的程序的优劣。李世石的失败不排除谷哥与他之间有作弊，竟然没有一次打劫，很可能程序不会打劫。 ...
如果仅仅是输入的指令那就没啥。ALPHAGO程序具有自我学习的能力，这才能不断进步。

回复白露为霜 2016-3-11 10:52: 红酒不过夜: 阿尔法狗在布局上的视野显然远远超越当今棋坛的顶尖高手。
它下出的有些招法，评论的高手开始时认为低级或不是很有效，后来证明并不是这样。APLHAGO显然不局限于人类定式，考虑问题更深更远。

回复白露为霜 2016-3-11 10:49: 田螺姑娘: 人类快要没戏了？哈哈..已经没戏了！
差不多。

回复白露为霜 2016-3-11 10:49: 曾经湘桥: 电脑毕竟是靠人去设计运作程序（运作起来）而亿倍数強于任何个体人。而'个体人'若不要以为人定可胜天，就不必担心退化吧～
人若真完全退化了，还怎么去升级电脑 ...
如果电脑能够自我改进自己的程序，它就不再需要人类程序员。

回复白露为霜 2016-3-11 10:47: 小虫: 电脑搞过人脑，人一定要退化的。难怪现在赌场的机器赌博，人人都要输的。千万不要去玩了
如果你有计算机帮助计算，或许有胜的机会。所以这是不允许的。

回复 liushuai2009 2016-3-11 04:54: 分享

回复 Lmd 2016-3-11 03:02: 李世石对付不了机器人的棋界的高手棋谱：证明他棋力低于他们一档。他是在与高人对弈而不是机器。
机器人不具备生命：它受命与输入指令，唯有听从人！设计不了自己。没有自己所以机器！

回复老农民工 2016-3-11 02:18: 电脑不过是人类发明的一个工具。电脑的好坏在于人们给它的程序的优劣。李世石的失败不排除谷哥与他之间有作弊，竟然没有一次打劫，很可能程序不会打劫。

12 / 2 页下一页

白露为霜霜满天 //www.sinovision.net/?163286 [收藏] [复制] [分享] [RSS] 溯洄从之 道阻且长 溯游从之 宛在水中央

博文

李世石堪堪要败：人类快要没戏了？

刚表态过的朋友 (10 人)

全部作者的其他最新博文

发表评论 评论 (27 个评论)

白露为霜

白露为霜霜满天 //www.sinovision.net/?163286 [收藏] [复制] [分享] [RSS] 溯洄从之道阻且长溯游从之宛在水中央

发表评论评论 (27 个评论)