在人工智能如此火热的今天，为什么聊天机器人就做不好？

AI中国网 https: //www.cnaiplus.com

摘要：聊天机器人的困境到底是什么？在当前的技术条件和市场环境下，聊天机器人制造商如何突破？这个问题可以通过使用新技术和开辟新赛道来解决吗？

在近些年，聊天机器人的得到了快速发展，更受到人们广泛关注，但是随着陆续爆出侵犯用户隐私的问题，再加上聊天机器人并没有达到人们预期的效果，让整个行业走进了低谷。

困境

一、聊天机器人太傻了

作为一个聊天机器人的从业者，办公桌上和家里有各式各样的聊天机器人产品。和很多用户的体验一样，对于刚得到的产品，最初的感觉是新鲜的兴奋，但是体验了机能之后，剩下的是失望，随后，它可能会被放在角落里，或者只是作为扬声器播放音乐。

这就跟聊天机器人厂商的初衷背道而驰了。一边是厂商希望用户长久留存在产品上，一边是用户对产品的日均使用时间快速下降。那么为什么会出现这种情况？为什么大多数用户对于聊天机器人的满意度很低？

从人类的天性中，可以一窥端倪。天主教教义对人类的恶性分为七种。举例来说，人类是懒惰的，总是希望以最少的代价获取最大的利益。而由于技术的限制，和聊天机器人的对话经常会使得沟通成本增加。比如，语音识别率在实际场景中不可能达到 100%，也就造成了在嘈杂环境中唤醒聊天机器人，许多时候是一个很不舒服的体验。相比而言，人类的耳朵对于「鸡尾酒会效应」却游刃有余。又比如，想让聊天机器人完成一项功能（订机票、查天气或播放一首特定风格的音乐），有时候必须通过非常明确的语言，进行多次沟通。相比而言，古代皇帝想做一件事情的时候，甚至不需要用到语言，只需一个眼神，太监就马上能意会到皇帝的目的。这里提到的还只是纯交互部分的问题，如果再出现网络延迟、敏感词和敏感话题、甚至还有一些稀奇古怪的 bug，让聊天机器人答非所问，就会让人更加不满。

作为从业人员，我在使用这些产品的时候还是很宽容的，由于知道聊天机器人的软肋，就会尽可能的跟聊天机器人心平气和的对话。一次不行，我再试一次，这个指令不管用，我再换一种问法。但对于普通用户，可不会买账。我们看下如图 1 这个用户，冷不丁的半夜被聊天机器人的怪笑吓个半死。英文翻译过来的意思就是「躺在床上正要睡着了，突然某某某音箱中的虚拟助手向我发出很大声让人毛骨悚然的笑声... 今晚我要被杀了」。这个时候，如果是我的话，除了把它从楼上扔下去摔个粉碎之外，好像也没有什么平复心情的办法了。

再举一个例子，在分析用户使用数据的时候可以发现，排名靠前的功能主要有闲聊、问天气、播放音乐等。刚接触这个行业的时候，我曾认为，既然是被高频触发的功能，就证明这些是用户的「刚需」。只要对刚需功能做好优化，用户留存度和满意度自然会大幅提升。后来才慢慢体会到，有些时候，并不是用户真的最喜欢问天气和播放音乐，而是其他的功能体验感实在是差强人意，比较成熟的也就剩下天气和音乐了。这就牵扯到「七宗罪」中的又一个「罪」：贪婪。用户总是想得到更多，所以在刚拿到聊天机器人产品的时候，自然而然的会不断试探其边界，所以交互的内容也会天马行空，五花八门。但如果用户得到的都是负面反馈，随着期望的降低，问答范围也会缩小到一些成熟和稳定的功能上。就好像是新婚之夜，满怀期待掀开新娘的面纱，却发现等待着的是如花。

二、为什么要做聊天机器人

既然聊天机器人效果都做的不好，那为什么还有大量的公司一窝蜂涌入到这个市场？头部厂商不惜重金做补贴，甚至能做到人民币两位数的售价。尤其像儿童教育聊天机器人，虽然已成为血海市场，仍然还有很多公司前赴后继进入到这个赛道。

这还要从我们所处的时代说起。我是 80 后，很幸运经历了近 40 年技术爆发的 4 个时代，分别是 PC 时代、互联网时代、移动互联网时代和人工智能时代。而我们现在所处的人工智能时代，也正是 AI 技术发展历史上的第三次浪潮。

每一个时代都有其对应的入口级产品。在 80 到 90 年代，个人电脑是最主要的入口，其特点是「运算力改变生活」，个人电脑和 Windows 操作系统，成就了 IBM 和微软两个硬件和软件的巨头。我至今还记得当时用一台 486 电脑和 14 寸的球面显示器，玩仙剑奇侠传的场景。而在随后到来的互联网时代，核心特点是「连接颠覆一切」，人们可以通过网络随时随地进行信息搜索和信息交互，同时也造就了谷歌这样一个伟大的公司。第三个时代是移动互联网时代，移动技术带来了两大变革，一是数据利用效率的提升，导致服务发生了变化，人们可以随时随地享受例如叫车、点餐等即时服务，二是交互方式的改变，智能手机（主要是触屏手机）成为了入口级设备，这个时代中最具有代表性的公司就是苹果，iPhone 也成为了颠覆性的产品。

当人们跨越到人工智能时代，微软又提出对话即平台（Conversation As A Platform）的理念，并称之为一种交互方式的「回归」。之所以称之为「回归」，是因为从远古时代起，语言是人类最自然的交互方式。人们通过语言来打招呼、八卦、协同狩猎，也就拉近了群体中人与人之间的距离。以色列历史学家尤瓦尔?赫拉利的《人类简史》甚至把「八卦」提到了非常重要的位置，是人与动物、人与其他史前人类的关键区别。以前由于技术的限制，人们不得不通过键盘和鼠标与机器进行「对话」，而现在我们具备了「对话即平台」的条件，可以很好的实现这种最自然的交互方式，完成各种服务。因此，在人工智能时代，语音交互产品也自然而然成为了入口级产品，而聊天机器人就是一个最典型的体现。

因此，为了抢占这一「入口」，无论是技术巨头还是创业大军，都加入到了本就不宽的赛道中来，就如「千树万树梨花开」一样，出现了大量的聊天机器人产品。同时在 B 端和 G 端市场，为了显得自己的高大上，很多大企业和政府机构也都纷纷推出自己的智能问答系统。然而，好奇害死猫，「入口」害死人。现在的聊天机器人已经变成了血海市场，哀鸿遍野。技术的低门槛，产品的同质化，再加上头部厂商的补贴策略，大公司长期亏损，中小型公司的生存更为艰难。尤其是 18 年开始的「资本寒冬」，很多的聊天机器人公司要么关门，要么转型，这个我们暂时按下不表，后面还有更多讨论。

三、聊天机器人是什么

聊天机器人从字面上来讲，就是会聊天的机器人。但「会聊天」涵盖的范围太广了。人们总是希望给事物打上标签，给出定义。因此，对于聊天机器人而言，我们给出几类角度不同的分类。

首先，从用途和使用场景上看，聊天机器人可以简单分为功能类和娱乐类。所谓功能类，一般是为了解决某个特定的问题，比如说个人助理、音乐播放、儿童故事、网上购物等。而娱乐类，大多是为了陪伴用户闲聊。微软小娜（Cortana）和微软小冰，分别是功能类和娱乐类的典型代表。

其次，从生态系统上看，聊天机器人可以分为产品、框架和平台三类。我们在市场上所看到的，以及日常所使用的都称之为「产品」，包括纯软件形态和软硬件结合的品类，例如微软小冰，亚马逊 Echo、iPhone 上的 Siri，公子小白、小米音箱等。除此之外，为了加速实际产品的研发，很多公司专门对外提供聊天机器人框架（Framework），以 SDK 或者 SAAS 服务的形态，供需求方来构建特定场景和领域的聊天机器人。典型代表包括支持 Echo 的 Amazon Alexa，微软的 Luis with Bot 等。另外，一些纯软件形态的聊天机器人，需要承载其应用的「平台」（Platform），比如说微信、Facebook 等。这样就构成了整个聊天机器人的生态体系。

最后，从交互方式上看，聊天机器人可以分为主动交互型和被动交互型两种，其中，被动交互型又包括闲聊型、任务型和问答型三类。我们接触到的绝大多数产品属于被动交互，即由用户发起对话，机器理解对话并作出相应的回应。主动交互可以更好的体现机器人和用户之间的对等关系，即由机器人主动发起，通过共享或推荐用户感兴趣的热点信息，和人类进行互动，但目前更多的是作为对传统交互方式的一种补充，并未得到大规模广泛应用。从被动交互的三种类型来看，闲聊型主要是进行客观话题讨论，或者用户对聊天机器人进行一些情感表达，微软小冰就具有很强的闲聊属性。而任务型是为了满足一个特定的任务或者目标，比如说利用 Siri 可以设定闹钟、预定餐馆等。对于问答型聊天机器人，需要解决用户对于事实型（Factoid）问答（如 what、which、who、where 和 when）问题的回复，以及非事实型问答（如 how 和 why）的回复。

用户在和聊天机器人交互的过程中，会夹杂各式各样的意图。举一个简单的例子，以下是一段对话：

Q: 你知道阿楠的电话号码么？

A: 知道

Q: 那你能告诉我他的号码么？

A: 可以

我们可以看到，这其实是一段无意义的废话。用户的意图是想要阿楠的电话号码（任务型对话），而聊天机器人的回复完全属于闲聊型对话。

从70年前的原子弹到50年前的粒子对撞机，以及20年前的基因编辑技术，技术在这一百年间飞跃性地发展着。而在人工智能如此火热的今天，为什么聊天机器人就做不好？

作者：邵浩

AI中国网 https: //www.cnaiplus.com

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com