转载

微软为何要豪赌AI?纳德拉想让公司超越谷歌

微软为何要豪赌AI?纳德拉想让公司超越谷歌

  美国科技博客 The Verge 近日发布了署名为凯西·牛顿(Casey Newton)的文章,文章对微软为何将未来押宝在人工智能(AI)方面进行了阐述与分析。以下就是这篇文章的主要内容。

  萨蒂亚·纳德拉(Satya Nadella)一踏进会议室,就开始急切地谈论智能问题。我有幸到微软总部,听纳德拉谈论微软公司在打造更多智能应用和服务等方面的进展情况。纳德拉告诉我,每天早上,他都会戴上 HoloLens 全息眼镜,这款眼镜能够让他看到投影到自家墙壁上的虚拟现实、互动日历等内容。纳德拉在描述这些情况时,显得眉飞色舞。这套系统是非常智能的、具有生产力的,也是未来派的,纳德拉希望一切都将掌控在他的领导之下。

  纳德拉表示,无论我们将来在哪儿工作,微软都将会在其中拥有一席之地。微软公司于今年三月展现的“对话即平台”(Conversation as a platform)战略,就体现了该公司在豪赌一项业务——基于聊天的互动界面将取代应用作为我们使用互联网的主要方式,未来用户将使用新的聊天界面来查找信息、购物、使用其它服务。与此同时,由于微软推广的“认知 APIs”的推动,应用也将更加智能。未来,微软所使用的这种“认知 APIs”将能够识别照片和视频中的人脸、表情以及包含的其它信息。

  微软认为,经过近二十年在机器学习和自然语言处理方面的进展,该公司已经拥有最好的“大脑”,可以帮助该公司缔造一个由人工智能支持的美好未来。微软在打造能够与用户进行情感共鸣的智能设备方面已经取得领先地位,并率先在中国市场进行了视频测试。在科技行业各个大公司中,微软是第一家针对文本聊天界面而发布真正平台的公司,这也是微软引以为豪的地方,特别是在智能手机的崛起导致多数此类业务下滑的情况之下。

  移动业务受挫之后,微软还能打赢下一场战争吗?

  今年 1 月,The Verge 曾发布文章描述了科技行业寻找杀手级智能设备的消息。在之后的几个月中,业界大小公司都加快在此方面的努力措施。Facebook 启动了自己的智能聊天设备研发平台,搭载其具有人气的 Messenger 聊天应用。谷歌也宣布了自己的新智能助手,代号为“Allo”,而且还将推出一款智能对话应用“Home”,与亚马逊的 Echo 展开竞争。与此同时,Echo 的语音输入信息功能已经吸引了不少开发者,这款产品也已经入驻 300 多万家庭,而且还通过其 API 增加了 1200 多个“技能”。

  微软对自身在 API 方面的工作感到非常满意,并急切地希望表明该公司在这一方面的竞争中必将最终胜出。今年 6 月,微软邀请我到该公司的园区,采访纳德拉的一些高级幕僚,这些高级幕僚正在帮助把人工智能融入到微软业务的每一个角落。在之后的两天中,微软向我展示了在自然语言处理和机器学习方面取得进展的大量应用。

  与以往一样,微软公司这次还是热情洋溢地讲述了该公司的进展和远景目标。微软此前在判断科技行业的走向方面一直有着较高的水准,但是,在针对科技行业发展趋势而采取行动方面,微软则出现了一些失误之处。例如,微软要比业界同行更早地看到了智能手机和平板电脑的巨大潜力,但在最终的产品开方发,微软却在苹果和谷歌面前一败涂地。因此,面对微软在人工智能方面所采取的积极措施,业界免不了产生了这样一个疑问:微软公司这次怎么不走寻常路了?

  或许,与美国的任何一家公司相比,微软在打造聊天机器和软件方面已经取得了更多的成功。但是,人们可能对此毫不知情,因为微软的这一成功始于中国市场。

  2016 年 1 月,微软的一位人工智能产品出现在上海东方卫视的早间新闻当中。当时,东方卫视在播放天气预报时,就利用微软小冰提纲主持人,取得了较大的成功。

  如果你想知道,微软为何能够在聊天机器人方面拥有如此骄人的成绩,那么“小冰”就是最好的一个答案。微软必应搜索工程业务主管德里克·康奈尔(Derrick Connell)表示,“现在我还不敢说我们已经研发出杀手级的聊天应用——但是,我们已经找到了一款聊天应用,这款应用以一种全新的方式工作,能够实现诸多的对话潜力。”

  2014 年,微软曾通过中国的消息应用“微信”推出了“小冰”。小冰能够回答一些简单的问题,这有点像微软的虚拟现实助手 Cortana。但是,小冰比 Cortana 更加出色的地方就是对话功能。这个智能聊天设备对情绪非常敏感,而且还能够记住用户此前的聊天情况,并主动与用户进行互动聊天。

  在使用了三天之后,小冰就得到了业界的广泛关注,不仅成为微信用户广泛议论的话题之一,而且还吸引了中国大量微博用户的关注。在中国市场,小冰也成了最具人气的名人帐号。如今,这款智能聊天应用已经被 4000 多万用户使用,用户与这款应用之间的平均每次对话约有 26 个回合。

  对康奈尔而言,小冰也为推进下一代搜索服务指明了方向。传统的网络搜索会反馈一个网页,给用户提供所需的搜索结果,然而,这个更加完美的对话机器人应用可能会通过语音这种简单的回答方式给用户提供他们所需的答案。

  当然,微软智能聊天应用在中国市场的成功并不一定表明其也能在美国市场取得成功。例如,微软在美国市场推出的首款英语聊天机器人“Tay”,在与用户的聊天试验中表现非常糟糕,并最终彻底失败。如今,小冰距离最初亮相已有两年的时间了,然而,这款智能聊天机器人却仍不具备同等的英语聊天能力,而且近期可能也不会得到大幅改进。不过,微软高管声称,小冰背后的基础架构却表明该公司在此方面有着大量的机会。

  “我们想让它成为一个生态系统”

  康奈尔表示,“这是一个现代化的时代——用户不需要成为演讲和理解语言方面的专家。只要使用一款工具,用我们的工具打造自己的智能聊天设备,并将其放到相应的场景之中——可能在‘Slack’应用上,也可能在‘Facebook Messenger’应用上,我们还希望是在 Skype 或 Windows 之上,所有的这一切都依赖用户自己的选择。”

  不过,开发者也越来越担心,有关智能聊天机器人的标准之争也将激烈展开,为此,微软也非同寻常地开展了外交活动。今年 6 月,微软在旧金山组织了一次会议,倡导智能聊天应用制造商之间开展更多的合作。微软高级工程师程莉莉(Lili Cheng)帮助组织了此次为期两天的会议,她表示,“我们对智能聊天设备的可互操作性非常感兴趣,我们希望这是一个生态系统。今后极有可能的情况是,我们需要找到各方合作面临的问题和挑战,并齐心协力加以解决。”

  通过主导智能聊天设备为主题的会议,微软希望,在向智能聊天机器设备转型的过程中,能够以此来巩固自身的核心地位。如果微软取得成功的话,那么它将在移动领域拥有全新的开端。微软技术所支持的智能聊天机器设备能够从内部展现世界最具人气的消息应用的各种情况,从而让微软在这个全新的领域获得立足的坚实基础。

  战略

  当然,微软单独在尝试打造下一代计算的限定性平台——如果人机对话需要那样的平台。事实上,各家大科技公司以及大量的初创企业都创建了自己的人工智能部门,而且也都取得了令人印象深刻的结果。但是,值得指出的是,将各个公司的人工智能业务进行比较,还是非常困难的,甚至是不可能的。像谷歌、Facebook 以及亚马逊等公司仍在研发一些未发布的人工智能业务。相关公司的高管在被问及用户什么标准来区分人工智能或者是他们的人工智能有什么显著特点等问题时,他们的回答总是含糊其辞。例如,谷歌首席执行官桑达·皮查伊(Sundar Pichai)只是简单地表示,“很长一段时间以来,该公司一直在研发人工智能。”

  风投公司 Andreessen Horowitz 的未来主义人物本尼迪克特·埃文斯(Benedict Evans)近期通过博客称,人工智能的未来仍然非常模糊。埃文斯在博客中表示,“这一领域迅速发展,以致于很难弄清最强的领导者到底在哪儿,哪些产品会成为主流,以及各个产品的主要区别到底是在哪儿,目前也都很难说清楚。尽管与这些技能相关的主要计算机科学已经问世,而且也是开放源学科,但是,真正的执行却遇到了不少问题,因此,事实上,这些技能仍然没有真正地转化为产品。”

  负责公司应用与服务团队的微软高管陆奇(Qi Lu)表示,就微软的竞争优势而言,他感到非常满意。陆奇也是一位计算机科学博士,名下已经拥有 20 多项专利。我从与他同行的对话中了解到,他也备受同行们的尊敬。在交流了一段时间之后,我终于发现其中的原因了——他是一个非常具有才智的人。我们会见时,他穿着凉鞋,配着袜子,身着短裤和T恤,T恤衫上写着一句话——“做伟大的事情”。

  陆奇开始总结第一波移动互联网带来的不利局面。他称,来自移动设备的网络流量比值一直没有超过台式设备,这反映了用户对移动互联网的一种失落感。陆奇表示,“我们知道网络并非真正地是在手机上有效。”从很大程度上来说,用户似乎不愿意下载应用。西雅图的居民可能会被要求下载某一款应用,目的只是为了要检查一下他们多次乘坐的渡轮的票价情况——当然,应用会有更好的模式。陆奇又表示,“我们的行业一直没有发现一个能够展示移动和云计算完整价值的体验平台。从根本上而言,应用并非正确的模式。”

  应用只是以代替基于 HTML 的网络的交互界面而崛起,因为应用是我们此时能够做得好好的方式。你可能无法通过语音的方式将你从互联网上获得的内容输入到手机当中,于是,开发者打造了成熟的隐藏式产品,从而让你通过巨大的图形按钮来与手机进行互动。这种按钮仍然是完成诸多任务的最有效途径。但是,由于自然语言处理技术的进步,如今你们也真正能够通过语音方式将从互联网上获得的内容输入到手机之中。陆奇声称,下一代“体验平台”就将从那里起步,就通过人机对话开始。这将更加自然地与人类的一切行为方式相融合。而且,如果用户做对的话,那他们就可以充分利用各种按钮。陆奇还称,“我们已经看到用户在全方位地将语言当作一种基本方式来改善这种体验,而且还以更加成熟的方式使用图形互动功能。”

  陆奇还表示,对企业而言,要想在这些领域取胜的话,还需要五大“关键要素”。第一大要素就是“对话场景”——在这里,用户可以进行大量的对话和文本消息进行交流。在这方面,微软拥有 Office、Outlook、Skype 以及 Cortana 等。第二个要素就是人工智能“大脑”——这是一种非常成熟的大脑模式,微软声称其自己的人工智能措施可以追溯到 20 年之前。第三个要素就是要能利用社交图谱——人们在互联网上的活动往往涉及他们的好友和同事。并非巧合的是,在我会见了陆奇后的几天,微软宣布该公司将斥资 262 亿美元收购 LinkedIn 及 LinkedIn 的 4.33 亿注册用户。第四个要素就是能够操作人工智能业务的平台。微软拥有 Windows 和一系列类似设备,特别是 Xbox。最后一大要素就是渴望在你平台上打造应用以及愿意为购买优先权而向你付费的开发者网络。激发开发者在此方面的兴趣也一直是今年三月份微软 Build 开发者大会的主要目标。

  单从其中的某一个要素来看,微软也面临着强劲的竞争对手。事实上,Facebook 就拥有更加强大的人机对话场景,而且还具有自主研发的大量消息应用,同时该公司还拥有最大的社交图谱。谷歌的“大脑”或许更加智能,而且谷歌还能够接触到数亿部 Android 设备。不过,就总体情况而言,微软似乎要乐观得多。对此,陆奇表示,“把所有的要素加起来,我认为,我们完全拥有主导未来的实力。”

  “大脑”

  微软全力支持人工智能早在两年前的年度就已经开始了。在当时召开的 Code Conference 大会上,刚刚担任微软首席执行官三个月的纳德拉登台演讲,阐述了微软的未来远景。纳德拉在演讲结束之际,展示了 Skype 的一些功能。随后,另外两名微软员工也登台演讲,一位讲英语,一位讲德语,而 Skype 则实时翻译他们的演讲内容,从而让他们无障碍地与听众互动。这样的展示给业界留下了深刻的印象——就在当年底,纳德拉宣布这将成为一件工作产品。

  在返回微软总部之后,纳德拉就对 Skype 研发团队下达了命令,要求尽快将此产品推向市场。负责微软研究业务的企业副总裁彼得·李(Peter Lee)表示,“对我而言,这的确是一个大意外。萨蒂亚的确是用这个 Skype Translator 把我套牢了。”最初,研发团队一直存在两大担忧。其一是,微软研究团队历史上一直没有将产品推向市场的任务,研究人员担心,他们会因此而突然没有什么自由来追寻科学上的突破与进展。其二是,在展示时,Skype Translator 表现不太好。微软公司的语言模式一直是使用大量正式的演讲内容来测试——例如来自联合国的演讲内容等。但是,Skype 需要用来翻译的这种双轨式交流却大不相同。当然,Skype 在翻译时还存在更多的“不流畅”局面——特别是当发言者说错某个词时,或者重复某句话时。另外还会出现“编程混乱”的情况——当发言者在一个句子中使用多种语言时。此外,当人们相互对话出现嘈杂之音时,Skype Translator 在翻译时就显得非常困难。

  彼得·李还表示,“从根本上看,一切仍无济于事。我们需要做的就是重新对各种模式进行训练。”但是,李的团队似乎受到了纳德拉的鼓舞,于当年 12 月就推出了预览版的产品。第二年,这款产品就广泛的投放到市场,供用户免费使用。彼得·李一度将纳德拉称为“激进人士”,他声称,此项目最终还是非常令人振奋。李表示,“试想一下,当你认为所有的一切都毫无作用的时候,你可能会士气低落,而且感到恐惧,但是,你不得不让人们相信这个产品。当你努力这样做的时候,你就会看到令人振奋的新事物随之而来。”

  这种说法感觉上并不夸张。微软如今能够将八种不同语言之间的相互对话(相当于 56 组对话)翻译出来,其背后的技术影响力已经超越了翻译本身。你想听听一个具有令人难以置信的作用的智能聊天设备说话吗?微软正在测试记录商业会议内容并能够实时整理内容文稿的软件。也就是说,同样的软件也能够记录两人之间的采访声音内容,并整理出相关的文稿,或许,这将成为任何记者都非常向往的技术产品。

  李表示,“无法向你们描述,当我们最初研发时发现 Skype Translator 的一切工作都无济于事的,我们是何等悲伤。但如今,我们正在攀登高峰,我们正在发展这些演讲和翻译模型,特别演讲模型——他们好得出奇。”

  “Clippy 的复仇”(编注:此理念源自《湾区日报》上一篇不错的概述聊天应用发展前景以及以聊天应用为平台的创业观点的文章)

  与此同时,微软还将大量的人工智能资源注入公司旗下的一些重大产品之中,例如 Windows 和 Office 等。人工智能的一大潜力就是,它能够预测用户的需求——这也是 Google Now 的主要创意。Google Now 能够在用户打开手机时向用户提供交通、天气、化育赛事的比分等信息。

  微软正在努力将类似的人工智能整合到台式产品之中。负责 Cortana 研发的马库斯·阿什(Marcus Ash)向我展示了一款模仿版的 Windows,此系统能够在基于云的界面上绘制出我可能想要知道的东西。当阿什接触启动菜单之后,Cortana 就显示出一系列建议行动:对你有意义的姓名、你近期使用过的文档、建议翻译的普通法语单词等。在用户的许可之下,Cortana 将整合用户联系人、网络搜索历史以及应用使用情况等相关的数据信息,并给出相应的建议。

  而且这还会随着每天的时间而变化——例如,应用开发者能够预测这些应用是在上午还是在晚餐时间发挥作用。对此,阿什表示,“这种利用人机对话、以及在用户许可下利用与用户相关信息来让用户更加有效开展行动的创意,感觉就像是用户被控制了一样,然而这恰恰就是我们真正为之高兴的东西。大量的用户体验工作日趋简化,而且取消了各种限制,并能够真正地向人们展示智力的力量。”

  阿什最喜欢的一大事例就是所谓的“承诺”。在得到你的许可之后,Outlook 就可以记录你的老板要求你在周末之前给她送什么东西等之类的事实——而且,如果你未能及时做到的话,它还会自动提醒你。阿什表示,“我的生活非常忙乱,我总是健忘——特别是忘记处理电子邮件。”最近,他就忘记给他们自己的老板提出的要求进行回复,但幸好,Cortana 及时通知他处理了这件事。

  当我会见微软负责 Office 营销业务的企业副总裁科克·科尼格斯鲍尔(Kirk Koenigsbauer)时,我看到更多类似的情况。他向我展示了各种智能让 Office 更加便于操作的方法。2014 年 9 月,微软推出了 Delve,这是一款内置在 Office 365 中的便捷工具,有点类似于 Fitbit 的功能。这款应用能够分析用户花费在电子邮件上面的时长,以及开会的时长,而且还能够在用户的日历上突出显示用户从事更加复杂更有意义工作的时间和加班时长,甚至是完成工作的速度。这款应用将建议用户与一段时间一直没有电子邮件往来的同事们进行联络。此外,这款应用甚至还会向用户显示同事以及自己回复电子邮件的时间。

  如果用户组建群用户共同使用谷歌应用,就像硅谷许多公司那样,那么,浏览 Delve 时可能就会有意外的发现。你没有必要再像一个数字书呆子那样寻找这类有用的信息。如果你是一个经理,那么 Delve 就能够提供你看一眼你过去一周花在每位员工身上的时间有多长。这种智能不一定像能够预期用户需求的那种人工智能那样好,但是,它也能够起到它应有的作用,通过比较,而且还会让谷歌应用看上去就像是一个可以忽略的东西。

  经过六个月的搜寻杀手级智能聊天设备之后,我仍然对这一概念持有非常乐观的态度。这种智能设备所能进行的交互量非常大。不过,我一直对我们能够在 Facebook Messenger 和 Telegram 等平台上看到诸多内容感到失望:每次我总感觉到这可能是使用互联网的最慢方式了。如今,围绕智能聊天应用和人工智能的讨论仍然受到业界打造可盈利新平台的愿望所驱使,而不是这些服务到底能在多大程度上满足消费者的需求。

  一些公司目前为止针对这一问题的答复一直是,他们已经在研发满足消费者需求的应用。Facebook 首席技术官迈克·斯科洛普夫(Mike Schroepfer)表示,“与诸多先进的技术一样,人们认为这种智能技术如今已经出现。事实上,还有许多的技术和工作需要研发。我认为,日复一日,年复一年,我们肯定能够在这些方面取得进步。”

  在造访了微软之后,我就想知道,我会不会一直按照错误的方式考虑这一问题。基于聊天的交互界面一般都是单调沉闷的,但是,支撑它们的机器学习技术以及用户已经在使用的工具的确是非常强大。如果微软能够将 Delve 之类的智能融合到更加广泛的服务之中,那么完全有理由说,该公司已经能够提供全球最具生产力的产品组合了。尽管微软努力打造支持智能聊天机器人所需大平台的愿望还没有真正地成为现实,但是,这种愿望却蕴含着巨大的价值。或许,在早期阶段,智能聊天机器人的公开表现还让人感到非常失望,但是,细究一下幕后的情况,人们还是会发现,这些智能聊天机器人感觉上会有一些魔力。

正文到此结束
Loading...