转载

从语音技术获《MIT》十大进步技术奖,看其市场与未来

  近期,美国权威杂志《麻省理工评论》将语音接口列为 2016 年十大突破技术,其中包括了免疫工程、精确编辑植物基因、DNA 商店、太阳能电池工厂、特斯拉自动驾驶、可回收火箭,及空中取电、知识分享机器人、slack 通信软件等,而百度硅谷最新一代的 Deep Speech2 语音技术位列其中,这也是唯一一家中国公司入选,而这反映了百度对该领域的建树,同时也说明了百度所在的中国市场对于语音需求的微妙趋势,那么语音技术现在到底有多大价值?以及百度的 Deep Speech2 技术到底发展到何种程度?

一,为什么中国市场正更为渴望语音技术?

  此次《麻省理工评论》谈到中国是发展语音接口的理想市场,如果仔细分析就会发现,国外用户使用微型触屏来输入英文时,并不会有太多问题,因为所见即所得,整套流程十分顺利,但是汉字输入却极为麻烦,主要的麻烦有三个。

  1)汉语拼音重码率高,导致需要选择拼音的问题,一般用户都使用 9 宫格操作,因此输入相关的拼音后会出现多种拼法,诸如"shu"和"qiu","gou"和"hou",需要用户进行极为麻烦的判断,这是第一个问题。

  2)汉字本身重码率高,导致结果过多的问题,由于一个拼音会对应好多个字,因此即使当用户选择完具体的拼音后,依然需要在繁琐的文字中寻找自己想要的字或者词,有时候自己所需要输入的字或者词汇都被隐藏到了输入法的第二页甚至第三页,用户需要进入第二页或者第三页寻找,非常繁琐。

  3)汉字本身重码率高,导致长文输入的问题,英语用户输入文字非常流畅,输入“词语+空格”就已经是想要表达的内容,但是汉字的话如果将拼音堆积在一起,机器就无法完整识别用户想要的内容,因此汉字的输入通常是按照词语割裂来输入,再加上各种标点符号,整个输入过程极为繁琐,通常为“拼音+选择汉字+拼音+选择汉字+标点......”,必须不停来回切换。

  因此,表面上看中国人的输入似乎已经习惯,但实际上还有着极为巨大的可以改进的空间,微信的语音发送就是汉字输入繁琐的佐证,用户有着很多需要缩短时间的场景, 因此只有语音技术则可以提高用户输入效率,而中国则是发展语音接口最为理想市场。

二,百度 Deep Speech2 语音技术的实力

  百度之所以能够成为唯一一家中国公司入选《麻省理工评论》,根本原因还是在于其技术实力的原因。早在 2014 年底,百度首席科学家吴恩达及其团队就发布了第一代深度语音识别系统 Deep Speech,该系统使用了端对端的深度学习技术,并且经过公开测试其在噪音环境下的出错率要比谷歌、微软以及苹果的语音系统低 10% 以上。

  汉语的语音处理技术有着两大难点。

  1)字符数据量极为庞大,英文字母只是在 26 个字母中进行组合,并且元音辅音等发音规则基本都很清晰,识别字母较为容易,但是汉语则有着 8 万个字符,同音字这么多,要根据某个字的发音来判断具体是哪一个字,所需要关联的数据远超英文。

  2)多义词的问题,中国文字之所以叫象形字,就是因为其一个词都可能有着无限意义的延生,而同一句话中,一个词语的声调高低都有可能改变到整句话的意思,这需要被识别出来。

  而百度的 Deep Speech 的技术处理则是。

  1)常用词汇预处理,百度通过收集常用词,筛选出常用词汇,减少预处理环节,这其实就是百度搜索引擎本来的优势,搜索引擎中那些用户搜索的词汇都能是常用词构成,这些海量的词汇大数据构成了百度语音技术的基石。

  2)深度神经网络输出,深度学习要想成功,取决于规模庞大的基于 GPU 的深度学习基础设施。通过使用批处理技术将 DNNs 部署在 GPUs 上,Deep Speech2 的语音识别表现出了极高的训练效率,目前该系统支持超过 26 万亿次浮点运算,可在几天内完成深度语言的集中训练。

  百度的大数据以及相关技术的积累,为语音技术提供了极好的燃料以及设备,此外百度的语音技术也是百度当前投入的重点,并且百度语音其实还取得了其成绩,在今年的中国电子学会科学技术奖项评选中,百度翻译也同时获得了进步奖,而百度翻译技术是翻译技术+语音技术的结合。

三,技术以外还需商业场景支撑

  光有技术不行,重要的是需要拥有使用技术的场景,尤其是商业场景更为重要。因此我们看到了百度有着一个更为清晰的商业图谱,第一是要发展前沿技术,第二是为所发展的前沿技术提供可以支撑的商业环境。

  1)O2O 商业场景

  在百度系的手机百度、百度地图、百度糯米这样的关键矩阵产品中都有着语音技术的植入,用户通过语音对话就能够直接找到所对应的 O2O 服务,从路线查询、附近咖啡厅搜索、餐馆预订、电影票预订、酒店预订等等有着一体化的服务。尤其是手机百度 APP 的语音搜索功能,其功能放在底部栏中最为显眼的中间位置,正在不断培养用户的语音搜索习惯,而习惯于语音搜索的用户,在百度 O2O 模式的推动下,也会不断将利用语音搜索请求服务,最后成为“语音+服务”习惯。

  2)智能物联网场景

  百度也在对其他前沿物联网领域进行布局,例如成立的无人车事业部,并且在去年 12 月路测成功,无人车目前也是谷歌、苹果、特斯拉等巨头所追逐的项目,有着极大的商业价值,而无人车市场与语音技术的结合则是必然趋势。另外百度在物联网、智能家居方面也有布局,当未来智能化的场景越多,也就意味人类需要学习的人机交互技术也越来越多,要记忆各种繁琐的操作,因此也急需一个能够统一的标准化的将学习成本降至为零的交互模式,而语音技术则是统合这些场景的最佳工具。

  结语:如果回过头去看移动互联网的爆发,它并没有改变任何事物的本质,他唯一的改变就是提高了效率,缩短了人与服务、人与信息的这两大路径,因此再来看语音技术,其实也在做着同样的事情。而作为美国权威杂志的《麻省理工评论》,此次将语音技术地位第一次抬到如此之高的地位,或许侧面说明了语音技术的春天即将到来。

  作者微信公众号:shouxifayanzhe

正文到此结束
Loading...