转载

解密AlphaGo:TA有了人类的直觉

  五场对弈,凭借着4:1 战胜李世石,AlphaGo 的排名积分来到了 3586 分,仅次于中国棋手柯洁。这也意味着,如果想在围棋界称王,挑战柯洁将成为绕不过去的一环。

  事实上,第四战结束后,AlphaGo 的研发工程师拉利亚·哈德赛尔就在 Facebook 上写下了战书:“柯洁,准备好一场比赛了吗?”几天之后,得到回应。19 岁的柯洁用惯有的语气在微博上写道:咱能动手就尽量别废话。同时,贴上了哈德赛尔的战书截图。

  硝烟再起,似乎又一场“世纪大战”一触即发。然而,在不少专家看来,哈德赛尔和柯洁的隔空喊话,更像是谷歌的一场公关秀。因为找高手下棋,更多是为了验证 AlphaGo 的自学水平。 ●南方日报记者王伟凯叶丹实习生熊颖策划:魏楠程鹏

  TA 学到什么地步,没人知道

  表象下的 AlphaGo 只是一台台式电脑,在整场对弈中,它只能安静地杵在边上,需要落子时,才由研发者之一黄士杰来执行。于是在连赢两局后,就有中国网友调侃,愤怒的李世石一气之下将 AlphaGo 砸碎,发现柯洁正躲在黑暗的机箱里。

  AlphaGo 的名声大振始于今年 1 月 27 日。当时,国际顶级杂志《Nature》以封面论文的形式对它进行了报道,并记录了去年 10 月5:0 击败欧洲棋王樊麾一事。

  《Nature》杂志的高级编辑坦吉·肖尔德在此前接受媒体采访时说,AlphaGo 是“深度学习神经网络”与“蒙特卡洛树搜索算法”结合上的关键进展,它的基本概念在原理上可以解决人工智能的各类问题。

  虽然这期杂志的问世引来了不少争议,有人认为那篇论文属于典型的《Nature》式炒作体,因为深度学习和蒙特卡洛算法在人工智能领域中的引用并不新鲜,不过这篇论文依然得到了学术界和产业界的认可。

  Facebook 人工智能组研究员、美国卡耐基梅隆大学机器人系博士田渊栋曾对 DeepMind 团队发表在《Nature》上的论文做过分析,他认为,这整篇文章价值在于它是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。

  时下,AlphaGo 颇为人津津乐道的是它对于 neural network (神经网络)的应用。

  中山大学人机互联实验室主任翟振明教授在接受南方日报记者采访时表示,70 年前有学者建立了“神经网络”数学模型,但是到目前为止,发挥效应最大的就是此次人机大战。通过软件模仿来建构人工的神经元,就像给计算机安装上一个充满神经元的“大脑”。

  “这些人工神经元,有输出端、有输入端,关键是相互之间的联通及由此产生的非线性累积迭代。”翟振明说。不过,由于人工神经元网络的无序性,输入进去的数据便很难追踪,这也就意味着,即便是研发者也不知道它们到底学到了什么样的水平。

  “所以,他们要到处找人下棋,因为他们自己也不知道 AlphaGo 到了一个什么水准。”科大讯飞研究院副院长魏斯在也向记者表达了同样的观点。

  TA 的风格,不是优柔寡断

  众所周知,AlphaGo 的神经网络有两个,即策略网络(Policy Network)和估值网络(Value Network)。

  DeepMind 的 CEO 哈萨比斯在此前介绍 AlphaGo 研究进展时说,AlphaGo 不是做穷举计算,策略网络负责落子选择,将理论上存在的 200 种可能的棋步缩小到三四种得分最高的可能,从而减少计算的宽度,不用去计算所有落子可能;价值网络则负责评估落子后的局面和最终胜负的概率关系,从而减少计算的深度,不用徒劳地尝试算到底。

  田渊栋在介绍 Facebook 的围棋人工智能时则坦言,他们的程序没有后者,而正是后者的引入,AlphaGo 棋力得到了大规模提升。它让 AlphaGo 可以一边推算落子,一边判断局面。

  除了上述两个网络之外,蒙特卡洛算法的应用也颇值得关注。这一算法可以将棋局和数据库上的信息放在一个概率函数上,这样 AlphaGo 就不用对每一步棋都给以同样计算量,然后可以对某些棋步作重点分析。

  与人工神经网络一样,蒙特卡洛算法也有 70 年历史,进入 21 世纪之后,研究者们开始探索“蒙特卡洛树搜索”的全新思路,日本的 ZEN 和法国的 CrazyStone 都是在“蒙特卡洛算法”的思路上不断改进的代表。

  它以蒙特卡洛城来命名。蒙特卡洛位于地中海之滨,属于摩纳哥公国,为世界三大赌城之一。除了蒙特卡洛算法之外,还有拉斯维加斯算法,两者都属于一种随机算法。

  科普作家苏椰解释,拉斯维加斯算法可以总结为“尽量找最好的,但不保证能找到”,而蒙特卡洛算法则可以理解为“尽量找好的,但不保证是最好的”。这也意味着,如果 AlphaGo 选用前者,那么因为可能找不到最优解而陷入无法落子的尴尬局面;选用后者,则可能因落子并非最佳选择,而导致输棋。

  不过,科学家最终选择了蒙特卡洛算法,因为没有永远的最好。另外,蒙特卡洛算法的规律也说明,采样越多就越能给出最优解,疯狂采样对于机器来说,从来不是问题。苏椰就笑称,在引入蒙特卡洛算法之前,“机器围棋的水平几乎是个笑话”。

  中国著名围棋手江铸久九段曾多次与人工智能对弈,据他讲述,在以前,只要在棋盘上丢几个弃子,人工智能就会傻乎乎地围着那几个弃子转。

  TA 的“直觉”,得靠学习

  AlphaGo 的学习能力令人吃惊,据了解,它曾研究了围棋的三千万种可能,如果按照常人每半小时下一盘的速度,这三千万种如果要学完大概需要 1700 年。不过 AlphaGo 在学习过程中,只要两微秒就可以走一步,这样,三千万种棋路在很短时间内就可以学成,而且从不疲倦。

  AlphaGo 的惊艳表现也让很多人看到了“直觉”的影子。魏斯在接受记者采访时就盛赞 AlphaGo 似乎有了“灵性”。他说,两大神经网络让它照顾到了大势和局面,蒙特卡洛算法又让他像人一样,在现有的棋面下,再往深处想几步。

  “直觉”也是围棋魅力的一部分,当棋局达到一定深度的时候,靠的只能是直觉。据统计,围棋棋步的数量甚至要远高于宇宙的原子总数,围棋的步数有 10 的 360 次方之多,而宇宙的原子数则只有 10 的 80 次方。

  “如果你问一个围棋大师为什么这一步要这么走,有时候他只能告诉你,这样走感觉是对的。围棋更像是一个靠直觉的游戏。”哈萨比斯在此前的宣传短片里这样说,这也是围棋程序让很多科学家着迷的原因所在。因为再强大的数据库也无法完全覆盖围棋所有棋路,要想将围棋程序训练成绝世高手,只能赋予它“直觉”。

  黄士杰在日前也曾表示,是人类的“直觉”给了他们启发,AlphaGo 观察围棋的整体布局,然后选择最佳下法,这种方式就像依靠直觉和第六感作出判断的人类大脑的功能。

  田渊栋将这种“直觉”说成是“可以学到的模型”。据他介绍,从一开始的规则驱动的暴力搜索,到特征驱动的线性模型,再到数据驱动的深度学习,越来越强的模式识别能力让“直觉”两字从神秘莫测,变成了通过大量样本就能学到的模型。

  现在常见的语音识别、图像识别技术,就被很多人认为是机器“直觉”的一部分。

  TA 还没意志和情绪

  哈萨比斯曾在多个场合表达过自己的想法——设计一款世界级的围棋冠军并非最终目的,他要做的是编写一款通用领域的人工智能程序。

  这被很多人认为是在吹嘘,魏斯在接受记者采访时就表示,短时间内很难实现,但是 AlphaGo 独特的编程依然还是让不少人看到了它的不同之处。

  《Nature》高级编辑坦吉·肖尔德在此前接受媒体采访时就直言:“‘深蓝’是单一程序,只针对国际象棋,且需要科学家手工操作。而 AlphaGo 中包含的神经网络程序,可以通过抓取信息实现学习技能,不需要再进行领域特定编程。”

  田渊栋在对 DeepMind 团队发表在《Nature》上的论文分析之后得出结论,与之前的围棋系统相比,AlphaGo 确实没有依赖围棋领域的知识。

  然而,人工智能从专一领域到通用领域的跃进,中间隔着的是个不小的坎。田渊栋就悲观地表示:“如何让机器学会人类的各项能力,依旧是一座需要攀登很多年的大山。”

  魏斯则认为,此次人机大战的象征意义大于技术突破,深层次的语义理解、感知、推理等方面的能力,现在依然比较弱。“很少有机器能分清楚‘中国足球很烂,谁也赢不了’和‘中国乒乓球很好,谁也赢不了’两句中‘谁也赢不了’的意思。”

  翟振明将人工智能分为“强人工智能”和“弱人工智能”。目前这种没有情绪、没有意志的人工智能属于“弱人工智能”。在他看来,按照现在思路来搞人工智能, 做出来的人工智能不可能有自我意识和情感意志。几十年前他就开始研究,现在可以说已否定了图灵测试与人的自我意识的涌现的实质性关联。他把“强人工智能” 的希望寄托在量子力学的研究之上,他说按照量子力学的基本构架可能会有实质性突破。

  据了解,最近美国量子物理学家斯塔普、英国物理学家彭罗斯都提出了人类意识的量子假设,中国清华大学副校长施一公院士、中科大副校长潘建伟院士等也大胆猜测,人工智能的底层机理就是量子效应。

  延伸

  DeepMind 已公开研发过程

  AlphaGo 在此次人机大战中已经展示了自己超强的学习能力,虽然尚未与柯洁交手,但是在很多人看来,未来战胜柯洁或许仅是时间问题。柯洁与 DeepMind 的隔空喊话,是否能变成场上对弈,也充满了悬念。

  人机大战的象征意义已经产生,再争世界第一除了商业价值之外,再无其他意义。第一还是第二,对于 AlphaGo 和 DeepMind 团队来说,意义并不大。就像没有哪一位围棋选手可以一直霸占世界第一的位子一样。

  此外,值得注意的是,据黄士杰介绍,DeepMind 团队已经把所有开发过程与论文内容在网上公开,这也意味着复制 AlphaGo 的技术并不会是一个多么大的难题,只要那些研发团队愿意,在未来就可以有更多 AlphaGo 的出现。

  “目前的人工智能只能是人类的工具,但是并不排除有朝一日,以量子力学为基础设计出来的计算机会生产出具有第一意识‘我’的人工智能,只不过那时的人工智能,就不再是工具,而是我们的同类,我们的后代。”翟振明教授如是说,“当然我们也不必以敌对的心态马上想到的就是被‘征服’被‘消灭’之类的‘末日’残局”。

正文到此结束
Loading...