转载

与百度首席科学家吴恩达对话中文背景下的神经网络

　　英文原文：Google Brain’s Co-inventor Tells Why He’s Building Chinese Neural Networks

　　编者按：在原文作者 Caleb Garling 对话吴恩达时，他刚结束在旧金山的深度学习大会，这名斯坦福深度学习教授，前 Google Brain 负责人，Coursera 的创始人和现任百度首席科学家在大会上受到了一大群仰慕他的计算机科学家的访问。

　　吴恩达和我谈论了他带领“中国的 Google”（百度）在深度学习中面临的挑战，他强调，百度只对可以影响 1 亿用户的技术有兴趣。其本人十分友好温和，是那种说起话来你不好意思打断他的人。

　　以下内容节选自访问：

　　中文和英文，无论从哪个方面来说都是两种完全不同的语言，所以对于理解这两种语言的机器框架来说，究竟会有多不同呢？

　　嗯，现有科技理论还没有成熟到让我可以言简意赅地给出答案的地步。对英语来说我们已经有很好的框架了，现在我们想对中文进行尝试。
英语有 26 个字母，然而中文大约有 5000 个字符。如果你看一篇中等长度英文的语料库，出现的总是那么 26 个字母，而中文的语料库中会有一些你只会见到一次的生僻字。所以你要如何学会认识这些中文字符？

　　相较而言，罗曼斯语言更加简单。从法语转到英语比从中文转到英语要容易得多。

　　所以如果你有一张英文标签的图片，你如何把这些标签转换成中文？

　　我认为我很多值得尝试的方法，并且这些方法都还没有探索过。我们一般用的是多任务学习的方法。假设说你有一个识别英语标签图像的网络，现在你要训练一个网络可以识别中文标签，如果你训练一个网络同时完成这两件事，很有可能这个网络会比单独两个网络分别识别英语和中文要好得多。

　　这么做是有优势的，但是优势并不明显。原因是这样，机器可能会学习识别图像中的边，然后又学会了辨别图像中的角。对于两种语言来说，这种知识都是通用的。一旦你学会了识别英语中的物体，这事实上对于你学习中文中的物体也有帮助，因为你可以辨别这些边和物体。

　　那么，那些只存在于一种语言之中的词又该怎么办呢？

　　在英语里，姐妹只有一个单词“sister”，但是在中文中，“姐”和“妹”是两个不同意思的词。事实上，当你想要翻译“sister”这个词的时候，就会遇到问题，因为你不知道应该把它翻译成姐姐还是妹妹。不过我认为如果机器知道你的 sister 和屋子里其他的物体是有区别的话，那再区别是姐姐或者是妹妹并不困难。如果你不知道“sister”的概念，就要从零学习“姐妹”的概念了。

　　随着不断地训练，投入会越来越昂贵，当然，除非你的神经网络规模比较小了。

　　等一下，什么样的神经网络才算是小型的？

　　【哈哈】这不一定，会随着时间改变。我们一般是依照神经网络之间的连接数划分。Baidu 训练的神经网络的连接数量一般可以达到几百亿。

　　那我们来聊聊语言识别，百度会不会从一些特殊的音节或是字母组合入手，比如像“th”这样的组合？

　　过去的语音识别是这么做的。过去的语音识别都有一个标准管道，你输入音频，预计这些音节到底是什么。然后你再用另一套系统，把这些音节转化成文字。不过近来人们一直在争论，到底音节是语言的一个基本组成部分，还是语言学家臆想出来的？我花了很多年试图向人们解释，音节其实是人为划分的，它不是语言的一个基本事实，只是人类发明出来，对语言的一种描述方式。许多语言学家对此表示强烈的不满，甚至公开地向我表示反对。

　　我们在百度语音系统中做事并没有用到音节的概念，这个过程更像是小孩学习语言的过程：我们给电脑听一段音频，告诉它文字的内容，然后让它自己建立对应，而不是人工的构建所谓“音节”的概念。在我还不知道音节是什么之前，我就已经会说英语了。

　　那么电影呢？百度有关注这方面吗？

　　深度学习在视频方面有很多的成果，但是考虑到机器对于时间这个基本维度的认识，我并不认为它们很成功。所以深度学习的研究者们常常会争论，时间的概念对于我们的智能发展到底有多重要。

　　你能详细阐述一下机器如何学习“时间”这个概念吗？

　　当你的头移动的时候，你看到的物体都是有视差的（这意味着你可以辨别不同时间下你所看到物体的差别）。有的在前景中移动，有的在后景中移动。我们不知道小孩子到底是不是先学会区分这些物体，再根据视察学会分辨它们之间的距离。反正我是不知道，我也不认为有人知道。也有一些围绕视频的其他特性的（关于时间的）想法，但是关于应该怎么处理时间，目前也没有很好的结果。

　　动物们看到的世界就是一个视频，那如果动物只能看到静态的图像呢，它们的视觉系统会怎么发展。神经科学家们在猫身上做过一个实验，它们把猫放在黑暗的环境中，利用频闪闪光灯使毛只能看到不动的图像，结果这些猫的视觉都没有发育完全，所以看到动态的世界是很重要的，但是算法又该怎么写？机器的“视觉系统”又该怎么利用它？

　　我认为解决这个问题的关键还是时间，只是我们现在还没有开发出好的算法。

正文到此结束