转载

智能聊天机器人这么火，为啥国人把它用到了客户服务上？

近来，“智能聊天机器人”的概念在国外越来越火热。即便此前遭遇了点小挫折：微软推出一款名为“Tay”的推特线上聊天机器人，将其设定为一名19岁的美国少女，并表示Tay能够通过对话学习真实人类的说话方式，不断完善自己，以更好地与人类交流。但就在Tay上线仅仅16小时之后，微软就不得不将其紧急下线处理，甚至向公众道歉，因为这款聊天机器人开始频繁爆出粗口，其中不乏种族歧视、侮辱女性以及污秽不堪的词句。

就在微软刚下线自己的Tay后，社交巨头Facebook对外宣称将发布自己的语音聊天机器人，并将在Messenger软件中加入此类技术。至上周5月8日，Facebook Messenger即迎来可拨打911电话的即时聊天机器人。

细心的人发现，两年前，微软还曾发布过一款名为“小冰”的人工智能伴侣虚拟机器人，并进入微博、微信、米聊等第三方平台，通过与用户的不断聊天进行积累学习。据称，“小冰”集合了中国近7亿网民多年来积累的、全部公开的文献记录，借助微软在大数据、自然语义分析、机器学习和深度神经网络方面的技术积累，通过精炼的几千万条真实而有趣的语料库（此后每天净增0.7%），理解对话的语境与语义，从而实现超越简单人机问答的自然交互。

包括苹果的Siri、亚马逊的Alexa，美国几大科技巨头在智能聊天机器人方面已经开始暗中较劲——即便目前还看不出这些“回答磕磕绊绊、甚至文不对题”的智能聊天机器人会给人类的生活带来多大变革。人工智能专家、美国康奈尔大学的计算机科学教授巴特·赛尔曼（Bart Selman）博士曾认为，微软Tay遭遇的爆出口事件凸显了人工智能领域目前所面临的一大弱点：真正的语言能力。

不过放在重实用、爱赚钱的中国，仍不妨碍企业给“半成品”的智能聊天机器人找到一个发挥所长的工作领域：客服。客服行业的特殊性在于，其面对的对话场景并不是像苹果Siri、微软小冰那样的任意聊天模式，客服分为不同领域，来寻求客服服务的用户均是抱着特定的目的和话语体系，这使得智能聊天更容易精准定制。

比如百度的虚拟个人助理“度秘”，内嵌在百度产品中，可以通过语音互动完成搜索、订餐、订电影票等O2O服务。而阿里系的产品客服需求更加庞大，其中越来越多的比例已经被智能客服分担。同时，语音自动转接、情感识别与关键词识别等技术已经投入到智能客服当中。

就连网易，去年也开始组建人工智能团队，推出一个叫“网易七鱼”的全智能云客服产品，简单讲，类似电商、金融等不同领域的客服管理部门通过SDK安装七鱼后，即可接入有针对性的对话数据，通过智能机器人答复用户的常见、重复性问题，从而节省人力，实现人机协作。

在此有必要普及一下有关智能客服机器人所经历的四代技术：

第一代：客服机器人为“问答机器人”，基于单个关键词的精确匹配

这一代机器人很简单，简单到几乎没有什么技术可言，甚至称不上智能。客户问的“问题”停留在单个词汇，而不是复杂句式。比如，在微信公众号平台回复一些关键字词，获取某篇文章或活动入口。

问答机器人的原型最早出现在电话客服上，称为IVR（交互语音应答系统）。例如打电话给银行客服，其可以通过语音提示用户选择所需服务的序号，进而一层层深入了解客户想问什么问题，最后给出一个自动化的语音回答。第一代问答机器人使用单个词汇的完全匹配，在使用场景中受限很多。

第二代：客服机器人可以支持多个词匹配，并具有模糊查询能力

第二代客服机器人比上一代机器人有了进步，但匹配规仍然相对死板的，只能应用于一些简单场景中。例如图书馆查询系统中的书名、作者名，游戏中查询的角色、装备、副本信息等，都是相对明确的。这些内容有一个很大的特点——用户问法简单、明确，没有太大变化，在后方支撑这个系统的是一个关键词列表。不过，当应用于业务相对复杂的场景时，第二代客服机器人就会显示出它的局限：需要维护非常庞大的关键词列表，而且表达同一意义的会有若干不同的关键词，这就会影响到最终匹配的精度和结果。

第三代：智能客服机器人在关键词匹配的基础上引入了自然语言处理（NLP）技术

比较大的变化在于，机器人处理的已经不仅仅是词，可以进一步处理句子：首先输入信息，然后对数据进行清洗和预处理的工作，把一些杂乱和无效的信息排除。接着进入自然语言处理的流程：通过分词、词性标注、文法、句法、识别关键词等技术，把句子切开，给每个词加一个权重，根据权重的综合算法来匹配知识库中哪个答案可以最准确回答用户问题。

第三代机器人的智能体现在，当用户问一个问题时，机器人支持一定问法上的变化。比如，知识库设定的一个条目是“我要退货”，当客户说“我想退货”时，第三代机器人同样可以理解用户意思。只是，第三代机器人语义判断能力有限，匹配精度还没有特别高，需要运营知识库弥补这些局限。运营知识库就是运营问法，不再是关键词，数量上会大量减少，维护方式也变得简单。这就是自然语言处理技术所起的作用，机器人与用户的沟通，更接近于人与人的交流，用户可以用一个完整的句子提问，不再是一个个单个的关键词。

第四代：以神经网络为基础，应用了最新的“深度学习”、“模式识别”等技术

与第三代机器人相比，因为有了深度学习的技术，第四代智能客服机器人完全可以打破人工配置的规则，有更好的自主学习能力和语义理解能力，可以处理更加口语化的问法。

人工智能领域的很多技术，在很大程度上受到了生物学、医学、认知神经科学发展的启发。 “深度学习”即是来自于相关领域的实验。

1958年，诺贝尔医学奖得主David Hubel和 Torsten Wiesel通过一系列关于“视觉系统的信息处理”的试验发现，视觉信号的处理是分层次的，图像被一层一层抽象，最终被识别。此发现过去约40年，1995年前后，Bruno Olshausen和David Field两位学者试图用计算机的方法研究视觉问题，他们通过稀疏编码算法训练机器，让其自主提取视觉信号中的特征。

计算机算法自主学习后输出的结果与David Hubel和 Torsten Wiesel两位科学家生物学试验的结果惊人的相似：视觉特征的提取，都是从最基本的物体边缘开始的，更高级的特征，均可以由一些基本的特征组合而成。

这就是对“深度学习”的一种通俗的理解，即通过算法，让机器自主的学习，提取特征；并训练机器形成更深层次的特征。输入的信号被一层层的特征抽象、表达；随着层次的深入，这种表达在不断的变换；不断的迭代抽象，信号便被刻画得更加准确。

对于深度学习来说，其特点就如名称一样，需要堆叠更多的特征层次。层数越多，输入的数据量越大，学习能力越强，特征描述越准确。简单讲，深度学习和人的学习类似，其模型、或称算法，就是告诉机器一个学习的方法。而机器能学到什么，依赖于训练的输入，也就好比是人类的教材。至于机器能学到什么水平，则依赖于训练迭代的层数，这就好比学习的用功程度。

国内在智能客服机器人领域的创业者众多，同质化竞争激烈，附加功能大多包括多渠道（电话、网页、微博、微信、手机APP等客服渠道）接入、移动工作平台、数据报表、工单系统等，在技术上多数采用“第三代智能客服机器人”。只有阿里“小蜜”、网易七鱼、京东JIMI等少数大公司级别产品采用了第四代深度学习智能客服机器人，并呈现出积极探索的态势。未来的技术突破仍有赖于巨头公司。

此前拿围棋技术来调戏人类世界冠军的谷歌人工智能AlphaGo同样是采用“深度学习”的技术。科技界似乎总有这么一个听起来有点自嘲、但暗含业内人骄傲的传统：一开始开发的或许只是能简单的“小玩意”，后来却能成长为一门正经的大生意、或者应用广泛的新技术。

同时，在这个领域，我们也能看到中美科技公司对于人工智能应用的区别：技术同样领先时，中国公司更看重通过人工智能技术来推动用户体验、促发业务繁荣，所谓尽可能地做成生意。而美国公司却在一个看似无用的领域“玩”到了极致。

但谁又能说得准，类似《三体》里面所讲的“技术爆炸”会发生在哪一个小环节呢？

*文章为作者独立观点，不代表虎嗅网立场

本文由足亦授权虎嗅网发表，并经虎嗅网编辑。转载此文章须经作者同意，并请附上出处(虎嗅网)及本页链接。原文链接http://www.huxiu.com/article/148498/1.html

关注微信公众号虎嗅网（huxiu_com），定时推送，福利互动精彩多

原文 http://www.huxiu.com/article/148498/1.html

正文到此结束