转载

会话经济(三)——语音和多模块计算的新时代

会话经济(三)——语音和多模块计算的新时代

编者按:随着语音技术的不断发展,语音软件应用也逐渐地进入人们的日常生活中。Greylock的 Sarah Guo 写了一系列文章来分析会话经济。在第一篇文章《 会话经济(一):聊天机器人为什么这么火? 》中展望了新的会话经济取代app经济的可能性,并在这个大背景下从经济、文化及生态体系等方面解释了聊天机器人热的原因。在第二篇文章《会话经济(二):为什么移动应用仍为主》中,从五个角度分析了在会话经济时代,移动应用仍是主流的主要原因。本文是《会话经济》系列的第三篇文章,将为大家介绍语音应用程序的发展历程及其将面临的挑战。

“嗨,siri,预测一下音频界面的未来。”如果siri能更聪明,那么它就会回答“2017年是一个转折点”

环境计算——广泛意义上来说是计算方法的前景,而不仅仅是指你一天之内打开你的手机200次。环境计算是一种与现实世界进行持续不断的、多模块的、增强计算互动的计算方法。你家中的音频设备和你的耳机就是环境计算迈出的第一步,而语音又是环境计算的重中之重,语音空间也发展得让人越来越难以置信。CES消费展给人的感觉仿佛是一张在最恰当的时间捕捉整体景观的快照。

有意思的部分来了

2017年是语音系统成为主流“操作系统”的一年,因为我们获得了足够好的语音识别模块。随着支持语音识别的硬件被大量投入市场,公司间的生态系统也(包括亚马逊、Google、苹果、微软以及中国的百度)开始致力于建立一个巨大的语音平台,以便更好地抢占市场。

人们开始创造那些令人着迷的新式硬件计算节点以及新式语音应用,语音将会减少我们输入数据所需的精力,而且残疾人可以使用类似应用。这些应用可以产出更加强大的预测程序,并简化移动设备端上的工作流程。这些系统仅仅受限于使用者的智力水平,并且其依靠设计弥补了智能应用中的弱点。

在技术、设计、平台和安全性等方面要应对的挑战

一声巨响,语音登场

亚马逊Alexa整个企业的定位和部署正在从一个新鲜的玩意转变为操作平台,它拥有7,000多个功能并且卖出了500万个硬件单元。而自Alphabet发布了Google Home以及私人助理手机Pixel后,私人助手的战斗已经彻底上升为商业巨人之间多种产品的斗争。语音识别在过去的一年半中已经成为了智能手机、可穿戴设备、家庭电器、汽车甚至是你的床垫的标准功能。

进入AirPods时代

在去年,美国人在无线耳机上花的钱要远超有线耳机。苹果公司将它的耳机端口固定为35毫米,并生产出了他们真正的无线AirPods(之前的悬念!)。从随身听时代开始,音频一直是我们日常生活中的重要部分。2015年,一个美国人平均一天会听3.5小时的音乐,千禧一代听的时长则更长。我们注重音频设备的功能、声音——从现场传回的声音,以及他们的风格。我们把耳机作为抵挡我们所处环境中的强烈刺激的第一道防线。如果我忘带了耳机,我可能会手足无措。耳机是我的潮流搭配,是我调整情绪或专注点的工具,是我用于接电话的工具,是用于抵挡婴儿哭声的盾牌,是我手中高举给别人看的“不善社交”的旗帜。

其实,语音控制的一些功能在2016年已经成为了主流。在2016年中期,Android搜索的任务的20%是由语音完成的,Siri每周也能收到20亿次语音控制请求。看起来技术的不断改进可以使得技术应用得到跳跃式的变化,正如2008年应用程序商店发生的重大改变,也正如现在音频正在发生的改变一样。

如果你有AirPods,你的iPhone也在附近,你完全不需要触碰你的iPhone,仅仅通过周围的空气就可以控制你的手机。你甚至可以跳过按两下线控的步骤以及“嘿,Siri”这个问候界面。仅仅这一个功能就显著增加了我每天使用Siri的次数。AirPods本身就是极其伟大的硬件了,我每天都会使用它们。我热爱它们,它们把Siri语音控制变成了一个新颖的绝佳体验,而且外界对AirPods和Siri的热评数目也开始不断上涨。

苹果产品转型战略

不幸的是,你使用的Siri查询结果往往是另一种意义上的网页搜索结果罢了。Siri在可靠性、性能、智能等一系列重要领域的表现都远远落后于Google研发的Google助理以及Alexa。Siri除了苹果自身的音乐服务之外,只适用于少有的几个第三方应用程序。

一个人一天戴几个小时的耳机,轻量化的无线耳机使用的时间可能会更长,或者换句话说,我们醒着的时候大部分时间都戴着耳机——特别是当这些耳机可以在我们体验耳机外的世界的同时连接我们的应用程序,所有的这些都已经是很大的突破了。

技术使用

去年,在技术前沿领域,包括微软和百度在内的几家公司向外宣布他们已经打破了人类语音识别的障碍,并能通过深度学习技术进一步保证正确理解人类的意思。同时,他们在远场和高噪音环境中的突破也令人印象深刻,它允许人类隔着房间通过喊出命令对手机进行控制,或在办公室这种安静的环境下轻声向自己的AirPods下指令。重要的是,像Echo这类的产品似乎已经克服了“延迟障碍”的难题,它可以在短时间内对人类下的指令进行回应,这使得Echo的忠实用户也可以参与产品的改进与测试。

然而大多数的技术进步都始于大公司的研究室,像Pullstring这样的全功能创作和运行平台,以及亚马逊Lex提供的平台支持工具都降低了创建会话所需要的投资;而像高通这样的组件制造商甚至将主动降噪之类的标准功能添加到了公司研发的蓝牙芯片当中。

新的计算节点

从今年的情况看来,听力设备仿佛无处不在,这种情况的出现是由于:一些主要的玩家群体以及企业家践行机会主义对家庭信息技术进行扩展和更新,从而推动了整体的发展(前文阅读:我的伙伴John上周发的帖子有提到)。苹果公司制造的iPhone7无插孔耳机代表了真正的无线配件的研究方向,无论我们认为这是苹果的一次勇敢尝试还是傲慢,我们都要承认他们凭借了这个AirPods的设计转移了市场。Alexa也逐渐地从完美执行消费者指令的扬声器转型成为一个语音控制平台。在此之后,一些迅速增长的新型硬件公司以及包括福特宝马在内的成熟大型公司都开始推动开发试验并越来越注重消费者意识。当然,新型硬件制造商也想分一杯羹:比如可以精确控制我们音频环境的Nuheara和Here One耳机,瞄准了宝贝鱼(BabelFish)的Waverly团队;再比如可以回溯并能让你听清一切的Kapture耳机、保障司机驾驶安全的Maven自动驾驶仪以及其他以探索音频作用为中心的资金充足的其他音频项目。

测试版很容易做出来但是真正制作出一款硬件是很困难的。拥有任意类型的可以处理大量数据的大型硬件设备和网络连接将会是创业公司的重要立足点,当你想以后随时可以进行进一步的研究时,这两项就显得更为重要了。硬件制造公司要想成功,面前的路还有很长,即使你一开始赢得了别人的青睐,但是如果你的公司对现有的研究没有什么快速的进展,那么这个市场将会毫不留情地把你抛下。

尽管竞争是那样的残酷,我依然对一些令人印象深刻的原型机或者产品感到非常兴奋。

很多的设备和应用都受益于简单的语音命令,但也正因为如此,这些设备和应用缺少了以语言为中心的全功能设计。用苹果电视进行幻灯片演示时,你只需要说“下一张”而不需要点击鼠标。那么我想问的是,我们离使用Snap Spectacle时,说一声“Snap”就可以录像还有多长的路要走呢?

与这些简化的应用程序相比,应用语音为节点的家庭机器人就有着很大的发展潜力。从桌面助手Jibo,到Mayfield的BB8式Kuri机器人,再到百度公司刚刚发布的DuerOS动力鱼,这些家庭机器人的设计目的是为了帮助家庭成员照相、娱乐、与外界进行接触以及保持成员间的和谐关系——比如根据商品清单进行订饭或者购买杂货。研究人员还在寻找语音助手应用于老年人的解决方案,大部分的尝试都仅仅是初步尝试投放或尚在研究过程当中。2017年这些语音助手能否找到一个合适的市场,对于企业而言是一个很大的考验。

一些公司还在研究商用机器人用来与用户进行互动。举个例子,SoftBank研究的类人机器人Pepper将有可能投放到你周围的商店中。令人惊讶的是,配备了电击枪以及声音识别、脸部识别等功能的机器人已经被部署于安保行业。这类机器人的商业案例要比家庭用机器人简单的多——它们逐渐替换掉人类的职位,或提高商店为客户服务的能力以及维护社会安定。

本地语音应用程序

软件研发人员也开始尝试在移动设备上更多地使用音频和语音应用。

我期待中国能够在设计语音和消息应用上带来一些好消息。但也许由于有些语言输入不便,或是移动台式机的飞速发展,亦或是不同国家的环境不同,语音输入在很长的一段时间内都不被某些国家的人们所接受,但它在中国却得到了长足的发展。百度的语音键盘就是以语音为基础的最好的例子。我们之前认为Snapchat的语音识别功能太有趣了,但是中国在2012年就以微信为载体发布了这个功能。而中国的网红Papi酱(类似脱口秀)在她的视频里也用处理过的声音赢得了许许多多的粉丝。

像Oben这类的公司正在将翻译和语音合成提升到一个新的水平,之后你就可以用你的声音说一种其他的语言或者玩游戏了。而与Roger类似的研发团队如今在“即按即说”这一技术上已经有所突破。由于苹果公司推出的免进程本地应用的出现,播客也成为了被人忽略的事物。但在Android的生态系统中,CastBox类似的新兴程序正不断地登上台面,而且在Bumpers背后的那些才华横溢的研究人员们也使得你在手机上创作与分享音频文件变得更加简单。Talkitt也开始尝试去帮助那些语言方面有障碍的人。在B2B方面,Cogitoand的BeyondVerbal对不同的使用情况进行了语音分析吗,比如了解医疗过程当中病人的情绪变化。Nuance长期以来一直为医疗系统提供基本的转录程序来生成医疗表格,但说实话,他们要走的路还很长。Gong和Clover公司将会分析你手机里有关销售代表的通话记录。

数据提取而非数据输入

如果你去问一个白领最讨厌自己工作中的什么内容,最为普遍的答案一定是数据输入。随着商业技术的发展,我们在现代的文书工作——或者说是软件工作——上已经无意中花费了数百万个小时的劳动力。但是如果我们可以记录我们的对话并通过工具加以理解(也就是提取当中的结构化数据),那么所有的这些没用的填表流程我们就都可以省略掉了,这将解放被填表所困扰的很多人。

从更基础的层面来讲,改善移动设备上的文本输入将会增加我们日常使用的应用程序。从客观角度来讲,即使是对于那些最“移动”的一代人来说,在移动设备上进行打字也是很不尽如人意的一件事。UC Santa Cruz的一项研究表明,我们每分钟在移动设备上打的字要比在电脑上慢2.7倍;而比起说话,打字要慢上6.4倍。

这种速度上的差异还要加上屏幕小、各种输入法以及用户不能集中注意力等问题,而这些都使得用户尽量避免将自己的业务放在这些移动设备上。那么我们可以改变(或消除)记笔记这件事吗?我们真的想吗?如果我们每个人每时每刻都有一个私人的、高质量的笔记,这个笔记并不只是记录我们想写的内容而是将其理解并记录下来,而你所需要的仅仅是订阅一个软件,那么我举双手赞成。尤其是在我们需要集中获取一些消息或展示给我们的谈话对象看的情况下。

作为走向未来的领头羊之一,由Jenny Wang、Will Hang、Guy Blanc 和 Kevin Yang组成的优秀团队去年在Greylock Hackfest上发表了他们的一项雄心勃勃的研究,他们称其为GreyLockscreen。这个项目使用了保持在线的环境收音装置、自然语言理解装置以及可以与用户的智能手机进行深度链接并进行对动作和内容进行预测的装置。举个例子,如果你把你的手机放在桌子上,并跟你的朋友说:“Jenny,我饿了,我们去吃点儿东西吧。”而这时,你的手机就会显示出搜索好的吃饭的地方。研究人员正在研究与“环境文件检索”相关的产品。

面临的挑战

自然语音理解和音频处理

音频和消息机器人一样,它们的发展都受限于现如今同样的技术问题,而人们对音频的要求也不仅仅只是准确的转录。尽管近一段时间,研究人员在语言理解和语音合成方面取得了不小的进展,但想要达成令人满意的语音体验以及相关的新型研究却依旧任重而道远。

为了在最大程度上简化这一概念,我从我之前的博文(阐述自然语音理解的技术挑战问题)中复述了一部分内容,即深度学习在感知方面——好比说识别一个词或者识别一个图像的巨大成功。事实上,自然语言理解是一个很困难的问题,开始的时候,这一项技术看起来与人工智能有些许的类似,它们都不是去感知事物,而是去认知事物。Facebook等大型公司的实验室正在努力研究相关的事情,包括事件思考、事件关注以及事件记录。举个例子,想要回答一个问题,你必须要基于事实进行计算,生成所需列表,进行参考(两者指向同一事物),并理解所需时间、属性延续、问题的大小和所处位置等一系列问题,才能正确地回答一个问题。Facebook现在已经开始着手解决扩充有限的数据库这一问题,但我们还有很长的路要走。

像Ozlo这样的小公司也开始研究这些问题,并将可以解决的领域缩小到事物或场所上。但是,即使在给定的范围内,它们也需要给出复杂的决定。那么什么样的评论才是有效的呢?即使我们可以完成Facebook帮我们完成的思考,但我们也仅仅只是理解了知识的表面。自然语言模块的数据将由定义和用户生成来决定,既然如此,那么事物的本身到底是什么呢?

就音频本身而言,还有很多的事情要远比转录重要的多,其实也就是那些未解决的问题。比如重音、不同的环境、用户识别或富有情感的语言如何转为文字等问题。比如说,你在使用Google助手和Siri的时候,你的声音会被一个叫做“串联语音合成”的模块切割成零散的部分,再由那个让人心烦的女配音播放出来。说实话这种方法是很费力不讨好的,不光听起来很嘈杂,而且缺乏感情色彩和重点。不过好消息是,最近的深层机器学习和强化学习取得了长足的进步,Google的DeepMind就开始根据WaveNet上得出的结果对音频之中的原始波形进行建模了。

未触及的用户体验领域

我们的技术还远远达不到我们的要求,所以我们要用精妙的设计来弥补这个问题。时至今日,当语音设备不能理解你所说的话时,你可能会很愤怒,而且这种情况并不少见。好好想想吧,你冲你的Alexa嚷了多少次?你的语音助手今天说了多少次“对不起,我找不到问题的答案”?

对于输入量无限大的语音输入来说,语音交互的设计现在依然处于早期设计阶段。理论上用户能够说的话是无限多的,而且其中有些话可能会有负面影响,这样他们自然而然地把自己的性格带到了语音识别系统当中,那么在接下来的几年里,语音系统可能就无法对很多问题给出正确的解答了。不过,虽然我们现在无法解决自然语言理解的问题,但是我们依旧可以提高系统的可用性,这样我们在未来就可以看到更新颖的语音输入模块了。比如支持用户自由操控、提升灵活性和本身的效率、提前防范并处理错误甚至使用可共享的设计,这些都对语音输入的进步有帮助。当语音助手支持个性化的用户服务时,我们就可以教会我们的语音助手一些特定的快捷指令、名称、默认属性以及热词,这样整个程序就会变得更完善。

屏幕会有密集的相关信息,多模块语音+屏幕体验将会是短期内很多问题的最正确的解决方案(详情参见Echo的传言)

必要的声音分析原型机,如Sayspringand 声音实验室已经研究出来的声音分析原型机。

计算能力和电池寿命

Siri收到的最常见的投诉就是:速度太慢了,连不上苹果公司服务器,而且无法实现离线工作。但是事实上,目前所有主流语音助手(包括亚马逊、苹果、Google)都无法实现在本地运算——他们所有的运算能力都位于公司的云端。想要对这种情况进行一定的改变其实并不是很容易,因为响应语音查询需要依据机器学习进行极其复杂的运算,而这种运算的计算量大得难以想象。

保持在线和数据连通性是很耗费电量的一种功能。所以我们看到了大多数的语音控制器和无线产品都需要通过按按钮而非语音才能进行激活,比如便携款的Echo Tap,再比如DMBD4和苹果W1。

隐私和身份安全验证

偶然的一次机会,我发现听命于我的音频设备已经有十多个了,苹果电视、三星电视、Xbox、Google home、Echo、两个Dots以及我的iPhone和AirPods。而现在我对可以用自己语音激活的设备的安全性产生不信任;同样的,我对自己的浏览记录也感到很困扰。然而,未来隐私论坛对这些设备进行的分类是值得我们深思的,它们规定所有的公司只允许在你激活设备的时候记录你的声音。

如果不像Alexa一样用热键记录音频,那么整个世界将会发生翻天覆地的变化。刚开始时可能显得无关紧要。那么试想一下,假如Google记录了你的问题,并在90秒前进行查询,为的是收集更多的信息从而给你一个更好的答案,你会允许这样的情况发生么?

人类对于声音记录设备的恐惧与摄像机给我们的恐惧相类似——虽然摄像头仅仅能指出这是你的家,而非从内部辨认这是你的家。即使我们已经习惯了类似的这些声音和视频记录设备,但这些设备也是不安全的。因为这些设备可能会被政府利用,用于实现对个人的监控。我们是否能使自己不受Echo后门程序的侵害呢?如果不能,那这又意味着什么呢?你会对陌生人、朋友或者同事都可以窃听到你发出的指令这样的事情感到害怕吗?或者你会不会把这些后门程序用于偷窥别人的隐私呢?

最后,我们想要通过语音端口访问很多关键服务,那我们就必须能够对其身份进行验证。更重要的是,假如我想要通过虚拟助理Erica访问我的美国银行账户,那么它如何辨认则是我本人发出的指令。传统的认证在语音设备上就像一个笑话,所以有些人指出生物语音识别才是认证是否是本人的最佳办法。但是不幸的是,生物语音识别作为单一解决方案已经无法进行下去,就好比图像处理软件的出现使得人的照片不再完全可信(说实话,社交媒体上的照片总是比我真人看上去要好看的多),而音频处理软件以及其他的综合技术使得生物语音识别已经不再可信。虽然现如今有很多的州际法令来管理声音识别,但是远程的识别执行起来却会很困难。

所有的这些问题又一次推动了现在的行为认证、语音认证以及基于风险的身份认证的发展。

如果我在我家这样一个地理区域内,我的Echo使用的是和我智能手机同样的无线网络,我的声音是一个亚马逊生物语音识别系统中登记在册的一个语音文件,接着我成功通过了Okta的二代身份验证,那么我这次的认证安全系数要远远超过你单纯在网络上用用户名和密码进行登录。

展望未来

现在,我们似乎正竭尽全力在开发一些毫无作用且非常不完善的语音应用程序或语音设备,但是,所有的这些都将促使语音助手在不远的将来出现在你生活的每个角落。我们的语音助手能做什么,完完全全取决于它的人工智能水平以及我们在这个问题上的创造性构想。这一时期的崭新的计算节点以及新的互动方式都为未来的发展提供了很大的机会。

对于会话服务来说,文化和科技的阻碍远超以前,但是在人类的想象力迸出的火花之中,潜意识沟通和快速运算界面是其中最能带给人类希望的。基于自然语言的理解和对话将会是下一个十年之中现代机器学习的重点研究方向。

你在围绕声音做一些很奇妙的东西吗?我洗耳恭听!

翻译来自:虫洞翻翻  译者ID:南骧

原文  http://36kr.com/p/5062157.html
正文到此结束
Loading...