转载

傅盛：关于AlphaGO Zero的几点看法

这几天，有很多关于AlphaGO Zero的文章，更多从技术角度阐述。我决定从思想实践角度，简单说几点看法。开放讨论，欢迎大家拍砖：

有人可能会问，有那么严重吗？AlphaGO不是已经赢了吗？这个无非就是赢得更厉害些。

关键不是赢了多少，而是AlphaGO Zero没有使用人类经验，而AlphaGO是学着人类经验成长起来的。

这就意味着：。

尽管很多人可能会说，别说的这么玄乎，这不就是增强学习理论，无非就是实现了一个例子而已。但问题恰恰在这：。

你看到了并不意味离得近。我们所看到的理论，或者认知，是需要不断“实践—再认知—再实践”的过程。

今天，人工智能热潮风起云涌。我们回头来看，是什么具体事件点燃了呢？应该是AlphaGO。一场围棋比赛打开了全人类的认知，才让我们知道，原来Al已经能在围棋这种领域战胜人类，而之前大家认为至少还要十年。

这一下，大量的人力资源和资金都涌入了人工智能，比如无人驾驶，人脸识别。为什么呢？因为大家在想，既然复杂的围棋智能都能提前十年，那些神奇科技还会远吗？

人类就是这么神奇的动物。尽管很多事情知道会发生，但没发生之前往往将信将疑，更多时候是看客。。

大家都知道增强学习是方向，但短期内能不能做到，效果如何，其实大家心里是没底的。所以，未必真舍得去探索。但这次AlphaGO Zero，一下子让大家认识到：既然围棋都可不需要人参与，且效果更好，那别的呢？

我立刻想到了iphone x的人脸解锁，其实大家是否想过它可能就是个AlphaGO Zero？以前，我们认为所有人脸的结果是需要通过人的训练才能完成的，但iphone x有摄像头，结构光，密码三者互相验证的解锁模式。即使摄像头没认出你，但前置结构光也许认出了你，这时候，摄像头就可基于该结果自己再学习一次。如此往复，你还担心卸妆后认不出你吗？按这个模式，不断自学习，毁容以后都能认出来。

这样一种。各种传感器也都将被关注并应用其中。

比如，此前我们认为实地道路操作才是无人驾驶的核心，但试想一下，我们是否可能在一个虚拟的城市道路上去做优化无人驾驶的算法，让计算机自己去碰撞，是不是也能做到很好的效果呢？如果我们有能力让计算机感知到世界相关的数据、环境和规则，它就有可能再去模拟出一个虚拟的环境，完成整个任务实践。

机器人也是同样。此前机器人的一个巨大的障碍就是数据。今天看来，如果传感器足够，我们再有一套方法去完成对信息数据的加工，比如GAN，那么机器人的优化本身也可做到如同AlphaGO Zero的效率和效果。

前几天，看完AlphaGO Zero的文章后，我久久不能寐，还做了一个梦。什么梦呢？我想象有一条生产线，这条生产线上的每一个环节都可被数据模拟。此时，机器人自己就可生成一个虚拟空间（类似AlphaGO Zero），并以此训练和优化生产线的智能化。比如，利用该生产线去生产一个产品，而产品本身会有一些指标，且指标是规则可定义的。

就拿生产一瓶矿泉水来说吧。目标是通过一些工艺，能把矿泉水成本降到一块钱以下。于是，它开始设计这条生产线，并进行虚拟生产，生产完以后，通过一个评估软件，发现成本没能做到一块钱以下。计算机就会重新设计不同的生产线，自己再去训练，再去博弈，直到有可能生产出一个世界上最廉价又最优质的矿泉水……

当我醒来时，发现其实这个梦是有可能成真的。当然这只是个梦，有些条件未必满足，但它代表着一个未来可能的方向。

我想表达的是，机器人的梦想正在离我们越来越近。

傅盛：关于AlphaGO Zero的几点看法