转载

李飞飞：从斯坦福到谷歌云，让 AI 成为计算之魂

编者按：本文来自 “新智元”（ID：AI_era） ，作者闻菲。36氪经授权发布。

李飞飞教授刚履新谷歌，她说自己是利用休学术假到谷歌去实践 AI 的普世价值，此前已经有 3 年多没回中国了。谦逊、睿智、富有洞察力，她的确是我们这个时代的AI 智慧之花，难能多得的学术瑰宝。感谢飞飞教授担任新智元智库专家，接受新智元团队的专访，给新智元的书做评。李飞飞今天（1月20号）即将启程回美国，我们用这篇专访为她送行。

“我是来学习的”，李飞飞在采访过程中不止一次这么说。她说自己实际上并不太了解中国的人工智能。“中国的文化我是懂的，我是中国人，”李飞飞说：“但中国的公司我就不太了解了。”时隔三年多回到中国，短短一周的时间里，她见了很多公司，与中国学术界的朋友也谈了很多。“我这次回来，就是想了解现在国内各个行业的情况，了解国内学术界对人工智能的想法。”

这次匆忙的中国之行，李飞飞表示她完全没有想到国内人对人工智能的热情，也没有料到自己竟意外地身处这股风潮的正中心。“新智元作为一个平台，看到很多东西，接触到很多人，我还很感兴趣你们有哪些想法呢。”

除了学习，李飞飞还多次提到“传承”，她反复强调了解过去的重要。做研究而言，她一直鼓励学生要独立思考。“我个人的心得是，眼睛看到的前方应该是比较空旷的。”她说：“如果你眼睛看到的前方是热闹的，那这个方向就不是最好的研究方向。而空旷的地方一般都不是热点，因此你必须找准自自己的焦点。”

李飞飞坦承，她不是一个特别关注热点的人。“如果我关注热点，就没有今天的ImageNet。”现在，她带头创建的 ImageNet 已经成为全球最大的图像识别数据库，每年一度的 ImageNet 竞赛牵动着业界无数人的心。2016 年初，李飞飞和她在斯坦福的同事一起，开启了 Visual Genome（视觉基因组）计划。Visual Genome 是一个数据集和知识库，致力于将结构化的图像概念和语言连接起来。教会计算机解析视觉图像是人工智能非常重要的任务，这能带来更多有用的视觉算法，也能训练计算机更为高效的沟通——毕竟，在表达真实世界的时候，语言总是受到很大的限制。

“我们专注在计算机视觉领域的一些最艰难的问题，给感知和认知建立一个桥梁，”李飞飞说：“不仅仅是处理像素的数据、知道它的颜色、阴影，而且把它们转变成 3D 形式进行更全面的理解，带来语义视觉的世界。”

Visual Genome 的图像要比 ImageNet 的图像标签更为丰富，包括名字、图片的不同细节，以及在对象和动作信息之间的关系。Visual Genome 数据集包含十几万张图片，每一张图片都包含了平均 21 个对象、18 种属性和 18 种物体之间的关系。规范化了从对象、属性、关系、区域描述里的名词和短语和问答对到 WordNet 同义词集的关系。Visual Genome 的注释代表了图像描述、属性、关系和问答里最密集、规模最大的数据集。

就在一个月前，李飞飞等人发表了一篇论文，这是她的实验室最近和 Facebook 的一项合作。他们联合推出了一个视觉问题的基准 CLEVR，结合语义和推理，测试机器的语言视觉（Language Vision）在语义（Syntax）和推理（Inference）方面的能力。CLEVR 包含 10 万张经过渲染的图像和大约 100 万个自动生成的问题，其中有 85.3 万个问题是互不相同的，包含了测试计数、比较、逻辑推理和在记忆中存储信息等视觉推理能力的图像和问题。

李飞飞说：“建立所有数据集的初衷，都是想通过汇集高质量的、标准化的、可衡量的、很准确的数据，推动领域里算法的进步。”

从 ImageNet、Visual Genome 到 CLEVR，她一直是这样一步一步，踏实地走着。进入谷歌云让她成了公众人物，其实李飞飞表示，她并不喜欢在媒体上露面太多。但是，她还是强迫自己站出来，因为她充分意识到，已经成为人工智能代表的自己有责任出来说一些话，做一些事情。

“当然，我现在是在谷歌云担任首席科学家。我和李佳的团队，我们的使命就是整合谷歌云人工智能方面的工作。具体说，我一周有 4 天在谷歌，剩下 1 天在斯坦福。但是说实话，这并不能代表什么。重要的是，我没有离开斯坦福。我想我会一直处在教育的第一线。”

李飞飞：从斯坦福到谷歌云，让 AI 成为计算之魂

2016 年 3月，李飞飞受聘成为新智元人工智能智库的专家

我没有离开斯坦福，加入谷歌云是为实践人工智能普世价值

新智元：您加入谷歌的消息成了大新闻。

李飞飞：首先我想说，我没有离开学术界。说来好笑，我这次来中国有些像一趟辟谣之旅（笑）。我也看到微信上的消息，有的说“李飞飞离开学术界，加入谷歌了”。这方面还是有一些误解的。我其实是在休学术假。在美国学术界有一个传统，那就是每7年教授可以休一次学术假。我已经连续教学12年了，从来没有休过学术假——我休过两次产假。这是我第一次休学术假，当然就有一些选择，我最后选择进入谷歌。

但是，我还是斯坦福的教授，我的实验室还在，我的博士生、博士后都在，我每周都会回去跟他们讨论研究工作。当然，我现在是在谷歌云担任首席科学家。我和李佳的团队，我们的使命就是整合谷歌云人工智能方面的工作。具体说，我一周有4天在谷歌，剩下1天在斯坦福。但是说实话，这并不能代表什么——工作并不是按“天”计算就行了。重要的是，我没有离开斯坦福。休假结束后，一到两年，我还是会回到斯坦福。我想我会一直处在教育的第一线。

实际上，我进入谷歌就 6 天——我 1 月 3 号入职，1 月 10 号在谷歌上完最后一天班，11 号在斯坦福开了一天会，12 号就飞到中国了。我对谷歌的了解，和学术界对谷歌的了解差不多，Jeff Dean 他们和我都是好朋友——学术朋友，大家通过研究有交流。

我选择去谷歌的原因就是考虑到人工智能的普世价值，云能够对应各个垂直的领域，比如金融、商业、医疗、制造、农业、教育、娱乐、传媒……这是特别重要的一点。如果说要涉足工业界、产业界，我自己最想学习的是如何真正把人工智能应用到大家需要的地方，而不是光是去画一个饼。

谷歌云的灵魂就是 AI，AI 是新的计算

新智元：最开始是其他公司联系您，然后谷歌云也来联系您，最终您决定加入谷歌云的，是吗？

李飞飞：是的。

新智元：您跟 Jeff Dean 在谷歌的定位有什么差异呢？

李飞飞：Jeff Dean是谷歌大脑的负责人，谷歌大脑是谷歌的研究团队，他们是研究为主的，包括基础研究在内。我们和他们会有很多的合作。云这边我负责的是整个研究和开发（R&D），有很多东西会跟产品部门合作。

新智元：也就是说会更贴近于产品了？

李飞飞：不是的，我认为这是一条完整的线，从基础研究一直走到产品，负责整个云的研发。所以，我的团队既会有做研究（research）的组，也会有做应用（applied）、做工程（engineering）和做开发（development）的组。

新智元：如果能选择的话，您会选择加入谷歌大脑或 DeepMind 这样的研究机构吗，还是说会继续留在谷歌云？

李飞飞：谷歌大脑和 DeppMind 都是世界上最优秀的AI科研的团队，Jeff Dean、Demis Hassabis 他们都是很了不起的研究者，在把握科技方向的同时管理很大的队伍。我选择去谷歌云，第一是因为我还是可以跟谷歌大脑、DeepMind 他们合作，我依然能从他们那里学习，第二是因为云带来的是 AI 的普世价值，我不希望 AI 变成少数人的东西，成为一种特权。谷歌云之所以会存在，就是因为计算有普世的需求，各个产业，像刚才说的医疗、健康、金融、商业、制造……进入每一个垂直领域去思考你就会发现，不管是计算机视觉也好，还是语音识别、语义理解、文本处理，都有巨大的应用场景。比如说，各个产业都会有的客户服务，那这就是语音和语义的需求；各个产业都会有安保监控，那这就是视频的需求。我希望在工业界学习，我也有要在工业界实现的想法，虽然不可能全部做到，但要最大化实现，加入谷歌云是最好的选择。

新智元：在云计算方面，谷歌算是后来者。市场上有很多竞争对手，比如说亚马逊。您对云计算当前的市场竞争如何看呢？

李飞飞：我想说的是，谷歌是世界上 AI 力量最深厚的公司，也许这一两年大家才看到，但是在学术界这么多年了，互相学习交流、合作最频繁的公司就是谷歌。谷歌的 AI-First 是真心实意的 AI-First。AI 已经大量应用在它的产品当中，从搜索到设备再到云。不是说现在 AI 火了谷歌才开始做 AI，不管是计算机视觉还是自然语言处理，还是机器学习，到后来的深度学习，谷歌大脑是在工业界第一个搭建深度学习大平台的机构，这一切都是用行动表示出来、实实在在看得到的，这样的技术实力、AI实力非常难得。所以，我对谷歌非常有信心。

云是人类最大的计算平台，这是云最大的特色。云最开始可能只是一个存储设施，很快我们就进入到数据，而数据也被称为“digital gold”。数据经过转化得到的就是信息，是商业决策，是对企业具有战略意义的资源。我们平时说，人工智能要帮助人类生活得更美好，但是怎么落地呢？我认为，云可能是目前最好的落地平台之一。

另外，站在科研的角度。实际上，我去谷歌云工作没几天就产生了这样一个想法，过去 20 多年的人工智能，尤其科研方面的进步，主要来自三大子领域的蓬勃发展，分别是机器学习、计算机视觉和自然语言处理。这三大子领域的发展，又主要来自互联网数据的推动。ImageNet 就是一个再好不过的例子，这上面千万量级的数据都来自于互联网。可以说，数据带来了算法的思路，算法又促进了数据的信息化和知识化。

但是，进入到垂直领域后才发现，有很多非互联网数据和非互联网场景，一旦深入这些场景后你就会发现，还有很多的新的问题形式，需要进行更多的研发，这就形成了一个正循环。现在的人工智能技术可以满足人和企业的一些需求。在满足这些需求后，他们又会产生更多的需求，而这些更多的需求又会促进人工智能技术的进步。而且，这些需求跟互联网需求很不一样，因此会带来很多新的思路，这也是为什么我认为云在研究和开发这两方面都很令人兴奋，都能带来非常新颖的东西。

新智元：是不是说有一种新的趋势，以前的云计算现在逐渐变成一种 AI 云？

李飞飞：是的，我认为 AI 就是云的战略布局。可以这么理解——AI 就是新的计算。因为几乎所有现在需要计算的任务都需要 AI 的元素。计算（compute）本身就是让数据（data）产生信息、从知识中提炼决策的过程。现在的计算都是用 AI 来完成的，这也是 AI 该做的事情。当然，云还包括硬件、平台、基础设施和存储空间，这些是肯定的，但云的灵魂应该是 AI。

新智元：我们此前与 ARM 的业者沟通，他们现在遇到的一个问题是云端的AI迭代速度较快，但终端——包括机器人，一些智能硬件、AR/VR，技术上还需要很长的发展过程。

李飞飞：终端和云端肯定是不一样的。云端有大的cluster，有大的数据，训练甚至可以离线（offline）。终端则需要快速、轻便、能量消耗小，所以就有很多具体的不一样的问题，涉及到推理（inference）。而推理的问题，从芯片到算法都还在不断地推进。人工智能要走得更精更细，这些都是要继续研发的。

李飞飞：从斯坦福到谷歌云，让 AI 成为计算之魂

独立的研究者，前方的视野应该是空旷的

新智元：您认为 2017 年 AI 产业界或学术界，有所突破或者爆发的点是什么呢，比如说对抗生产网络或是其他的几个技术热点？

李飞飞：我特别不知道该如何回答这类问题（笑）。实际上，我从自己做研究开始，就不是一个特别关注热点的人。如果我关注热点，就没有今天的 ImageNet。当然，我并不是说不应当关注热点。我不希望这句话被理解为热点不好，我也需要谦虚地学习，像GAN（对抗生成网络）这样的新模型，我认为它非常具有创造性，是非常好的模型。但它也才刚刚开始，主要还是呈现出一些定性的结果（qualitative results）。

做研究而言，我一直鼓励学生要独立思考。每个人做研究都有不同的心得，我个人的心得是，眼睛看到的前方应该是比较空旷的。如果你眼睛看到的前方是热闹的，那这个方向就不是最好的研究方向。而空旷的地方一般都不是热点，因此你必须找准自自己的焦点。我比较喜欢研究一些基础的（fundamental）问题，这些问题有时候会是热点，有时候则会是“冷点”。科学家是最不能跟风、追求时尚的，科学家一定是追求原则性和原创性的东西。

要学习和研究计算机视觉，必须要做两件重要的事，一是知道过去，二是展望未来。知道过去当然就是大量阅读文献。我有一点担心，就是现在深度学习的热潮高涨，大多数学生只读过深度学习的论文。实际上，不管是计算机视觉还是自然语言处理、机器学习，都是走过了几十年的路程，有很多重要的工作都是在 2012 年之前完成的。计算机视觉在学术界，基本上完成了识别这个工作，可是很多学生可能都不知道，这是从上世纪五六十年代就开始的计算机和脑神经生物学基础研究一脉相承传递下来的，从 Hubel & Wiesel 的研究开始，到后面心理学家的研究，比如 Irvine Biederman 提出将物体分成几个不同的部分。这都是一步一步、一代一代去更新、去调整，不管是 Yann LeCun 1998 年提出的卷积神经网络，还是 Hinton 他们后来的工作，都传承了很多重要的思想，年轻的学生如果不去了解这种思想传承的过程，不从中汲取营养，就很难创造新的东西，只是知其然不知其所以然。所以，这是温故的一部分。而往前看，就像我刚才说的那样，研究的视野需要空旷，不要繁杂。计算机视觉走到今天也是到了一个转型期，纯粹的像素空间（pixel space）、识别（recognition），可能已经不是最新颖的思路了。目前看，有两个比较重要的新方向，一个是视觉和语言的结合，另外一个是视觉与机器人的结合。

另外，我们还有很多的没有解决的问题，也就是“open problems”，比如视频，现在处理视频基本上是平的，图片怎么处理就怎么处理视频，把视频分为N张图片串起来。但实际上，视频是很深奥的，涉及对运动、行为（behavior）、因果关系（causality）、动态（dynamics）、预期（intention）、代理（agent）这些因素的理解，这些环环相扣，都需要我们对计算机视觉有新的思考。

建立所有数据集的初衷，都是想通过汇集高质量的、标准化的、可衡量的、很准确的数据，推动领域里算法的进步。

做 Visual Genome 是因为在感知任务，比如图像分类有很多进展，但是在认知任务，比如图像描述和问答计算机表现得不怎么样。如果我们不仅仅诉求识别出图像，而要深究我们视觉世界的意义，那么认知是最核心的任务。用于解决图片内容丰富的认知任务的模型，依然使用给感知任务设计的相同数据集来训练。要在认知任务中获得成功，模型需要理解对象和物体之间的交互和关系。

CLEVR 是我的学生 Justin Johnson 去 Facebook 暑期实习的时候，我们合作的一个项目。参与这个项目的还有 Facebook 的研究员 Lawrence Zitnick，他也是参与 COCO 的研究者，对数据集有很深度的思考。我们设计 CLEVR 的目标很明确，那就是实现详细的视觉推理分析。尽管 CLEVR 中的图像可能看起来很简单，但它的问题却很复杂，需要一系列的推理能力。具体我们用了一个图像引擎，去模仿很多很多的场景，又回到了更像积木一样的世界。在这些场景里面，我们又自动生成了很多问题。比如说，“这张图里有没有和半球一样大的积木？” 这些问题是在挑战这个计算机系统对场景结构的理解，这个结构里面包括物体的大小、材料，包括数字计算，也包括比较的能力、空间关系和逻辑运算。CLEVR 旨在测试计算机的好几层的能力。

对创业者最大的建议，不要拿着锤子找钉子

新智元：虽然您提到才去谷歌 6 天，不过这边的氛围跟斯坦福还是很不一样吧？

李飞飞：是的，非常不一样。学术界的重心是学生和研究，而且学术界的研究氛围可以说是自由到极致，因为没有产品的压力。当然了，学术界也有学术界的限制和要求，但它毕竟不是一家公司。工业界的灵魂，至少谷歌的灵魂是工程师，他们是非常受使命驱动的（mission-driven）。

新智元：那您对国内的学者于工业界的合作或者是说转型有什么建议呢？

李飞飞：这是一个很个人的问题，我认为国内的学者他们都比我了解国内，他们都比我做得好，我还要向他们学习呢。

新智元：您对自动驾驶和计算机视觉相关的创业有什么建议吗，比如说好的切入点？

李飞飞：我很幸运身处斯坦福，这个地方接触到极多的创业者和投资人。我也受硅谷一个比较优秀的投资团队 A16Z 邀请出任顾问。我对创业者最大的建议就是，先去找你的市场，理解你需要解决的问题和去满足的需求，而不是拿着一个锤子到处去找钉子。

当然，有技术或研究上优势也可以创业，只是我认为更加冷静的做事方法是先找到需求，找准问题。创业需要有一种使命感（mission），是要解决问题，为企业解决问题也好，或者为个人消费者解决问题，这是创业的目的。每一个产业都有自己具体的应用场景，需要有懂这个场景、懂机器学习和人工智能的人去寻找解决方案。

李飞飞：从斯坦福到谷歌云，让 AI 成为计算之魂