AlphaGo之父详解“围棋上帝”炼成记

AlphaGo之父详解“围棋上帝”炼成记

AlphaGo 之父 Demis Hassabis

  原文标题:AlphaGo 是怎样炼成的?

  历史悠久的围棋已经流传了近 3000 年,但人类一直低估了一点:以第五条线为代表的棋局中部区域。

  这是 AlphaGo 之父、DeepMind 创始人 Demis Hassabis 向外界分享 AlphaGo 背后故事时透露的重要信息。

  自从去年 3 月首尔那场载入史册的比赛以来,AlphaGo 超越人类棋手固有思维和套路的招法,对围棋界的冲击史无前例。用 Demis Hassabis 的话说,“就像人们利用哈勃望远镜发现新的宇宙空间一样。AlphaGo 就是围棋界的‘哈勃天文望远镜’。”

  5 月 24 日,DeepMind 创始人 Demis Hassabis 以及 AlphaGo 团队负责人 David Silver 一起对外详解了 AlphaGo 背后的研发故事,以及 AlphaGo 究竟意味着什么?

  “AlphaGo 已经展示出了创造力,在某一个领域它甚至已经可以模仿人类直觉了。” Demis Hassabis 说,在未来能看到人机合作的巨大力量,人类智慧将通过人工智能进一步放大。“强人工智能是人类研究和探寻宇宙的终极工具。”

  围棋难在哪儿?

  历史上,电脑最早掌握的第一款经典游戏是字游戏,这是 1952 年一位博士在读生的研究项目;随后是 1994 年电脑程序 Chinook 成功挑战西洋跳棋游戏;3 年后,IBM 深蓝超级计算机在国际象棋比赛中战胜世界冠军加里·卡斯帕罗夫。

  相比之下,围棋看似规则简单,复杂性却是难以想象的。它一共有 10 的 170 次方种可能性,这个数字比整个宇宙中的原子数 10 的 80 次方都多,没有办法穷举出围棋所有可能的结果。

  可以对比的是,国际象棋有着巨大的数据库,如果棋盘上少于 9 个棋子的时候,通过数学算法就可以计算出谁胜谁败;如果棋盘上少于九个棋子的时候,下象棋时人类是没有办法获胜的。可以说,国际象棋的算法已经近乎极致。

  在 Demis Hassabis 看来,更困难的是围棋不像象棋等游戏靠计算,而是靠直觉。“围棋中没有等级概念,所有棋子都一样,围棋是筑防游戏,因此需要盘算未来。你在下棋的过程中,是棋盘在心中,必须要预测未来。小小一个棋子可撼动全局,牵一发动全身。围棋’妙手’如受天启。”哈萨比斯如此解释道。

  第一位与 AlphaGo 对阵的人类职业棋手樊麾对记者感慨,“曾经以为计算机打败职业棋手,一辈子都不会看到,没想到这么快就实现了。”

  对 AlphaGo 团队来说,是时候寻找一种更聪明的方法来解开围棋谜题了。

  如何训练 AlphaGo?

  AlphaGo 系统的关键是,将围棋巨大无比的搜索空间压缩到可控的范围之内。

  为了应对围棋的巨大复杂性,AlphaGo 采用了一种新颖的机器学习技术,结合了监督学习和强化学习的优势。

  具体而言,首先是通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络(value network)对自我对弈进行预测,以 -1(对手的绝对胜利)到1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。

  这两个网络自身都十分强大,而 AlphaGo 将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。最后,新版的 AlphaGo 产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

AlphaGo之父详解“围棋上帝”炼成记

  AlphaGo 如何决定落子?

  在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。

  在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo 的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

AlphaGo之父详解“围棋上帝”炼成记

  Demis Hassabis 表示,阿尔法狗不只是模仿其他人类选手的下法,而且在不断创新。

  例如,在与李世石第二局里对弈第 37 步,这一步是 Demis 在整个比赛中感到最震惊的一步。

AlphaGo之父详解“围棋上帝”炼成记

  Demis 解释道:在围棋中有两条至关重要的分界线,从右数第三根线。如果在第三根线上移动棋子,意味着你将占领该线右边的领域。而如果是在第四根线上落子,意味着你计划向棋盘中部进军,潜在的,未来你会占棋盘上其他部分的领域,可能和你在第三根线上得到的领域相当。

  因此,在过去的 3000 多年里,人们普遍认为在第三根线上落子和第四根线上落子有着相同的重要性。但在第 37 步中,阿尔法狗却把棋子落在了第五条线,进军棋局的中部区域。“这可能意味着,在过去几千年里,人们低估了棋局中部区域的重要性。”

  值得一提的是,和去年战胜李世石的 AlphaGo 相比,DeepMind 科学家 David Silver 称现在 AlphaGo 要更强三子,他介绍道:“与李世石对战的 AlphaGo 在上有 50 个 TPUs 在运作,搜索 50 个棋步为 10000 个位置/秒,而昨天打败柯洁的 AlphaGo Master 则在单个 TPU 上进行游戏,AlphaGo 成为自己的老师,它从自己的搜索里学习,有着更强大的策略和价值网络。”

  柯洁也在今日的微博中,对于 AlphaGo 团队给出的检测报告感叹:自己是在跟怎样可怕的对手下棋。

  “这个差距有多大呢?简单的解释一下就是一人一手轮流下的围棋,对手连续让你下三步…又像武林高手对决让你先捅三刀一样…”柯洁说。

  除了下围棋,AlphaGo 还能做什么?

  围棋之外,Demis Hassabis 告诉记者,AlphaGo 的高效算法是一种通用型的算法,也可以推广到其他算法,把人工智能运用到各种各样的领域,如将 AI 用到材料设计、新药研制上,还有现实生活中的应用,如医疗、智能手机教育等。

  他曾举例,通过与人类专家的合作,可以找到各种各样的创新方式,包括从“其中一种变体应用于医疗行业,我们正在着力解决蛋白质折叠的问题,用来治疗各种疾病。”

  “人机合作可以达到1+1 大于 2 的效果,人类的智慧将被人工智能放大。人工智能和 AlphaGo 都是工具,就像哈勃望远镜一样,可以推进人类文明的进步。”他说。

  不过他也对第一财经坦言,围绕 AlphaGo,背后的技术包括图像处理、大数据分析等,这些技术目前在其它领域的使用还在早期探索阶段,只在 AlphaGo 研究的中间环节某些领域应用,但是在未来肯定会在多个领域推广相关的技术。

  Demis Hassabis 还表示,目前信息过载和系统冗杂是人类面临的巨大挑战,希望利用 AI 找到元解决方案。“我们的目标是实现‘人工智能科学家’或‘人工智能辅助科学‘。”

  “人工智能和所有强大的新技术一样,在伦理和责任的约束中造福人类。” Demis Hassabis 说。这意味着,人工智能应该是应用于科学、制药等领域,而不是应用于研发武器、战争上;此外,人工智能不能只为少数几家公司使用,而是为全人类所共享。

PS:如果您想和业内技术大牛交流的话,请加qq群(527933790)或者关注微信公众 号(AskHarries),谢谢!

转载请注明原文出处:Harries Blog™ » AlphaGo之父详解“围棋上帝”炼成记

赞 (0)

分享到:更多 ()

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址