转载

捷通华声武卫东：从语音到全方位人工智能，AI技术的融合发展之路

钛媒体旗下的钛坦白微信课第27期，也是“AI已来”系列分享第1期，请来了6位语音识别、自然语言处理领域的钛客进行分享。本文根据 捷通华声总经理武卫东 的分享整理。

武卫东毕业于清华大学，20余年人工智能行业经验。高级工程师。“灵云科技源自清华”战略品牌发起者之一，灵云全方位人工智能开放平台缔造者之一。通过与电信运营商、系统集成商、生产厂商的战略合作，成功推动人工智能技术在金融、电信、交通、能源等领域的产业化应用。

以下是武卫东在钛坦白的分享：

大家晚上好，非常有幸在钛坦白跟大家分享《从语音到全方位人工智能，AI技术的融合发展之路》。

人工智能源于何处，缘何爆发

人工智能技术经历了半个多世纪的发展，现在通过计算方法能够赋予机器一些类似人的感知功能，像人有口眼耳手，这是我们的感官功能。我们还有大脑，这是我们的思维认知功能，那么机器人是不是可以具备这些拟人化的功能呢？

像人的嘴是用来说话的，耳朵是用来听声音的，这就催生了像语音合成、语音识别这样的语音技术。图像识别就像人观察外界事物的眼睛，手是用来拿东西和写字的，这就催生了OCR、手写识别技术等这样的一些图像识别技术。在众多感知功能方面，人工智能技术还涉及到很多功能，包括人脸识别、声纹识别、指纹识别等等。经过十几年的发展，我们看到 人工智能技术中最难的实际上是与认知相关的一些技术 。人的认知，即人的大脑，是个非常复杂的结构，可以说到今天，我们自己也没有研究清楚我们自己的大脑。

近几年来，神经网络尤其是深度学习，提升了感知计算的一些模型方法，相关感知方面的技术取得了比较大的进步。实际上，神经网络的一些算法研究，早在二三十年前就开始了。我记得原来在学校的时候，我们有很多的研究人员就从事在图像模式识别方面的一些研究，但是由于当时的算法能力以及设备能力有限，很难去在复杂结构和深层次结构上提升算法模型。现在的GPU技术使得过去复杂的算法模型能够通过有效的训练，提升训练速率，并能够通过算法和大数据的加工，实现更加普适性和实用性的一些模型，供我们做一些智能化的应用。

我们看到现在的语音识别技术，能够达到百分之九十几，接近于人的甚至在某些方面超过人的准确率。通过深度学习，语音识别已经实现了一些突破。尤其是随着互联网和移动互联网的发展，现在交互终端、智能终端，给我们在研究方面提供了大量的、真实的场景数据，有了这些大的数据，使用神经网络算法，通过训练，可以让语音识别技术更加实用化。

从业20年，谈谈语音技术发展

在语音方面，实际上真正最早能够形成实用化的语音技术是从语音合成开始的，也就是我们说的TTS技术。一些大型的场馆会议，像奥运会、世博会，包括一些公共场所，像高铁站、机场听到的广播声，很多实际上都是通过语音合成技术合成出来的。另外，我们推出了可以唱歌的TTS技术，歌唱TTS实际上就是在标准的语音合成基础上，结合现在一些应用场景，比如说一些娱乐机器人、教育机器人、玩具等等，在应用场景当中，我们做的更加娱乐化的TTS技术。

现在大家都在探索和研究一个新方向——情感TTS。因为不管怎么样的一个算法，达到完全像人一样的自然、有情感、富有喜怒哀乐情绪的TTS技术，还是有很多的研究工作要做。当前TTS作为一种信息的交流、信息的播报是完全可以达到实用化的程度。经过这十几年的时间，捷通华声在TTS方面，国内市场占有率超过了50%。

我再说说语音识别，昨天钱博士（《从全球格局、最新技术到开源工具，一文告诉你语音识别发展现状》），我们清华的一个师弟特别提到了语音识别技术的发展。现在实际上就是说在语音识别方面国内也有一些从事语音识别技术应用和研究的企业，但是从语音识别目前发展的现状看，普通话在一个自然的场景中识别率达到96%，97%，其实已经不是什么太高的目标。

但实际上96%、97%并不是一个真实应用场景下的指标，只是在技术层面达到的高度，在实用化方面，要达到这样一个高度，我感觉恐怕国外语音公司也不敢这么说，我们国内的一些人有时候在这方面会更多的注入一些商业化宣传。

大家知道，语音识别是从2001年、2002年就进入了中国市场，但当时的语音识别，主要是基于命令词条的识别。经过十几年的发展，语音识别技术进入到自由说的状态，当人自然说话、自然表达时，能够准确识别，这推动语音识别进入到实现应用的阶段。

比如说在手机端用输入法这样的一些app或者是工具，对着手机尤其是现在的手机，都支持多麦克风，在近讲模式下，如果你的普通话说得比较好，比如说像我这样讲话，98%、99%的识别率也是可能的。但是如果说话带着很重的方言，要在识别上达到这个高度不是太容易，至少我现在没有看到哪家在方言普通话或者普适性人群上面达到这样一个高度。

当然，这里边还包括不同的输入设备，比如说在电话端，8K的窄带数据识别率如果能达到97%，那真的是效果非常好了，现在大家的水平基本上在80%上下。在一些特殊领域里边，通过一些垂直领域的优化，模型的优化，能达到85%，这已经是一个很好的水平。

在很多智能家居、家电、机器人等智能终端场景下，有很多环境噪音，语音识别如果不解决这些数据信号、声学信号的抗噪问题，语音识别的应用会受很大的制约。所以现在从事语音的厂家，在麦克风阵列这方面也都开始做自己的研究，推出了两麦、四麦甚至六麦的抗噪模块，来解决实际应用场景下的噪音干扰问题。

捷通华声武卫东：从语音到全方位人工智能，AI技术的融合发展之路

四麦降噪模块

上面这个四麦降噪模块，已经在一些机器人里边，包括一些服务机器人、儿童教育娱乐机器人中使用，其中包括线阵和圆阵，重点是解决麦克风在远讲、定向、回声消除，还有语音增强等实际应用情况。当然，语音识别还包括方言、多语种识别，以及中英文混合等情况，这些问题我们也在不断的研究、实践。

开始时我们提到，在认知功能方面，尤其是像语义理解（NLU），这方面有一些国内企业在做，捷通在这方面也做了大量的工作，有很多的实践和应用。例如，在智能终端方面，我们做了对话，包括意图理解，以满足智能终端在语义理解和语音识别共同使用过程中的一些“理解”用户指令的要求。另外，在一些行业的智能客服的系统里边，我们也采用了支持多轮对话、同音字智能纠错、上下文语义分析、相关问题联想等功能的语义理解技术，能够达到更好的用户体验和准确率。当然，语义理解方面要研究的东西还很多。

语音服务物联网，让智能设备“能说会听、能思考会判断”

随着移动互联网、云计算、大数据的发展，人工智能技术在物联网领域有了越来越多的需求，或者说已经成为一种不可或缺的支撑技术。

比如在智能机器人方面，我们通过智能客服系统，来实现语音交互、知识库构建、语义理解，尤其是前端在噪音环境下，通过麦克风阵列实现远讲、抗噪、定向等等功能。在智能机器人领域，我们做了很多行业应用，比如说在税务大厅提供咨询的税务机器人，华夏银行的大堂经理机器人，还有一些图书馆、购物中心的专业服务机器人，当然也包括现在大家看到的很多家用的儿童教育机器人、娱乐机器人、陪伴机器人，通过应用智能客服系统，这些机器人进入了各个行业，未来将会进入到我们生活的方方面面。

在智能家居方面，比如说电视，我们搜电影时，遥控器按键输入慢，总是让人很头疼。我们将语音技术应用到电视遥控器上，比如小米电视、乐视、广电盒子，通过语音的交互，实现电视内容的快速搜索，甚至购物、社区服务等。另外，对于智能家居，整合了语音交互的麦克风阵列是一个非常好的工具，我们可以远距离随意控制灯光、调节空调等，通过引入人工智能技术，让家居生活更舒适。

智能汽车尤其是现在大家看到的无人驾驶、辅助驾驶系统，也是人工智能的一个很好应用。但是我个人对于无人驾驶汽车未来的走向，至少目前看，三五年内我感觉很难真正走向实用化，因为交通控制，包括很多交通规则，都会限制无人车在这方面的发展。但是我相信，通过引入智能化的一些技术，可以在辅助驾驶，包括像一些车载领域发挥很好的作用。

例如，语音交互技术在智能车载上的应用，这里边包括语音识别的抗噪模型训练、硬件的降噪，以及像唤醒、声源定向、智能纠错等技术层面的要求。另外，汽车现在实际上已经是人们出行的一个必备手段了，现在北京的交通大家都知道，车内设备的语音控制实际上可以有效提高驾车的安全性。同时，通过汽车这样一个移动设备，可以给我们提供导航、餐馆、订酒店、订机票、天气、股票等信息的语音查询，甚至成为我们的移动办公场所。

在这里也提一下，我们在汽车交互方式方面的经验或感觉。可能东西方人对于汽车的操控习惯不同，比如说在捷通华声初成立的时候就做了手写识别技术，在欧美的一些高端车比如像法拉利、奥迪、宝马，还有日韩系的像尼桑、现代等等车里边用到了我们的手写技术。我们过去也不太理解，为什么老外觉得手写还可以用，后来发现，大家可能在一些操作习惯上有些不同，我们中国人可能更善于讲，老外可能更善于做一些实际的操控性的，所以语音交互在车机里边是我们关注的一个热点，但是手写他们也会用，而且用的量也不少。不管是用语音的交互还是手写的交互，其实都是通过人工智能的交互手段，来提升人们的驾车体验，提升驾车的安全性和舒适性。

融合能力、融合应用、融合服务是AI技术发展趋势

灵云平台（AIcloud.com）是捷通华声早在2011年就推出的全球首个全方位人工智能开放平台，在当时我们就定立了这么样一个目标：要实现语音、手写、拍照、手势甚至将来可以使用脑波来进行智能化的一些手段来进行人机交互。

经过几年的建设，灵云平台已经构建了集合十项核心技术的全方位人工智能开放平台。其中包括智能语音方面的，语音合成、语音识别技术；图像交互方面，OCR、手写识别；生物特征识别方面的人脸识别、声纹识别和指纹识别；智能语义方面，包括语义理解、机器翻译、数据挖掘等共10项技术。方案，包括全智能客户服务、多维生物特征识别身份认证服务平台等深入行业的解决方案，构建了包括公有云服务、全智能能力平台和全智能解决方案组成的产品生态体系。

捷通华声武卫东：从语音到全方位人工智能，AI技术的融合发展之路

灵云构建的B2B2C商业模式，深入金融、电信、能源、交通、政务、公检法等各个行业，提供全方位的人工智能能力和解决方案。灵云支持云+端能力，也就是说既可以用我们云端的能力，也可以用我们本地的能力，让广大的开发者和企业合作伙伴能方便地调用各种应用能力。

在这些应用当中，我特意介绍一下我们在维语和汉语的翻译，因为在语音方面，我们除了中文普通话，还做了少数民族语言，同时构建了十几种国外的包括英文、法文、德文的语音交互能力。维汉友谊桥这个翻译APP，目前在新疆少数民族地区，已经有数百万用户在使用，大大方便了我们汉族干部和少数民族间的交流，大家可以下载体验下。还有一个也是现在有几百万用户在使用的出国翻译官，这个APP也是用了灵云上边的各种能力，不管去哪个国家，有了这样一个应用就可以方便的和当地人进行交流，给大家的出行和旅游提供便利。

我们一直强调，现在AI技术的应用实际上已经不是单一能力的应用。为什么讲AI的融合发展，实际上这是现在很多应用场景需要的。在智能终端交互方面，比如说现在我们做的机器人，它其中就用到了语音识别、语音合成、语义理解、人脸识别、甚至声纹识别；在终端应用的场景里边，包括在家电，现在我们给家电厂商实际上也在提供一些除了语音交互之外的能力，大家提出来一些比如说像声纹识别、人脸识别等需求，包括在家庭的陪伴机器人、服务机器人方面，包括儿童陪伴机器人这块，也提出了一些比如说类似图像的识别、人脸的识别，包括视频监控等等这方面需求。这些需求，实际上就是人工智能的融合应用。在捷通的灵云平台上，如果用了我们这个平台的话，这些能力都可以很方便的实现调用，因为灵云平台是一个开放平台，我们的平台能力，都能够在开发者社区上方便地调用。

在智能解决方案方面，我们推出了全智能客户服务和灵云身份认证平台。我们推出的灵云全智能客户服务是一种客服新模式，它包括了实体机器人、网络版在线智能客服、电话客服机器人、智能语音导航等智能客服产品，以及智能语音分析、电话外呼机器人等呼叫中心行业解决方案，为用户提供随时随地、随手可及的智能客户服务，同时也大幅降低了企业的客服成本，提升了客户服务效率和质量。

在身份认证方面，随着我们人脸、声纹、OCR技术的发展，我们推出了人证合一综合“人脸识别+声纹识别+指纹识别，OCR证照识别”的灵云身份认证服务平台，这个系统已在人行的征信系统里得到应用。现在单一生物特征识别技术，比如说人脸技术，包括所有的人工智能技术，大家很难说做到100%。

通过多项技术的融合，我们可以把识别的的出错概率集合到一个很小的数字集合上，比如说我们通过人脸、声纹、指纹可能有1%、2%这样的错误率，三种技术融合，再加OCR，人证合一，可以把这个错误率降到万分之一，甚至更小。这就是我们推出多维生物特征识别安全身份认证平台，也是AI技术融合应用的意义。

我们给一些政府部门包括公检法的会议系统做了一些智能解决方案。一方面通过语音识别实现会议转写，解放了笔录人员，降低速记员的一些劳动强度；在整个会议系统里边，实现电子签到，利用我们现在手写笔迹技术；通过人脸识别、身份证识别，确保参会者的身份；通过语音交互，我们可以轻松的来控制投影设备、灯光设备、包括大屏幕的一些切换；另外，通过语音识别和OCR的组合，可以把会议内容实时结构化转写，并且通过OCR把一些会议文件，自动扫描录入，全面、快速记录会议内容；还有，通过实时翻译并语音播报，把会议内容同步声音直播，这些场景在我们在一些政府办公厅已经实现了应用。此外，像我们遇到的一些比如说公检法的办公人员，他们可能每天要阅读大量的文件，很费眼睛，所以我们的语音合成就很受欢迎，他们可以边听边校，工作也变得更加有趣，更加轻松。

还有一个很有趣的是什么呢？比如说现在我们给银行做大厅服务机器人的时候，一方面通过语音交互来咨询服务，用智能客服系统来传递用户需要的服务内容。在机器人上边，还实现了人脸识别、声纹识别。对于一些VIP客户，刚刚到了银行大厅，他可以通过人脸识别确认身份，能够更好的对这些VIP客户提供服务，这样的话让VIP客户能够到银行以后感觉到一种新的感受。我们做这些能力，其实就是希望能够让这些设备更加智能化，有更多的功能来服务好用户。

另外捷通在十几年的发展当中，也在不断总结，我们的定位实际上就是做一个人工智能能力和解决方案的供应商。我们有数千家的合作伙伴，包括我们在灵云平台上服务了四亿多用户，我们也希望能够实现一个准确定位，构建一个产业的生态。这方面和我们的合作伙伴共同探索一些服务运营模式，捷通是绝对不会去做和合作伙伴争地盘的事情，这是我们的一个明确定位，我们就把我们的人工智能的技术、产品、服务做好。灵云的愿景，就是让机器“能说会听、能写会看、能辨音会认人、能思考会判断”。我们希望能够汇聚大家的力量，共同分享人工智能产业机遇。

人工智能是长跑，企业的使命是将技术产业化

最后想跟大家分享一些思考。现在大家可能谈到人工智能的时候，往往就会想到语音识别，实际上现在语音识别还有很多很多的工作和路要走，我非常认同昨天钱博士提出的一些观点，我感觉就是说人工智能本身是一个长跑，这是一个没有终点的长跑，真的需要一些韧性，我们现在很多的技术不是说不好，是没有很好的去用，或者用的不好。另外，可能大家对这些技术的期望值有点过高。

实际上，不管是在国外还是国内，在一些基础性的研究，尤其是一些方法理论性的研究，主要还是来自于大学，这也就是为什么捷通华声和清华大学建立“灵云科技源自清华”深度合作的原因。我们在清华大学建了灵云人工智能研究中心，我们有十几位教授，把他们几十年来的研究，积淀的一些东西与产业结合，把这些技术成果应用起来。但是基础研究的工作，企业去做恐怕不是太容易，我们还是应该把这些基础研究的工作交给我们这些教授们，专家学者们去做。

那么企业应该做的是什么呢？我们应该做的是一些应用型的研究，包括一些产业化的研究，企业应该结合产业，把我们现在能够实现的一些人工智能技术很好地转化到应用当中去，这是我们企业的使命。

人工智能技术的应用市场很广阔，但是我从业二十几年后的感受是，从人工智能技术本身来讲，不是非常适合于创业团队拿这个技术去创业。因为这是烧钱的事，这是烧钱的行当，我想资本界也应该能够看到这一点，这不是个黄金坑，大家跳下去不那么容易上来。捷通做人工智能，其实也是经历了十几年的历程。（本文首发钛媒体，根据捷通华声总经理武卫东在钛坦白上的分享整理）

………………………………………………

钛坦白第27期，也是“AI已来”系列第一期，六位钛客的精彩分享已经结束，干货会陆续发布： http://www.tmtpost.com/tag/1508094