AI中国网 https: //www.cnaiplus.com
摘要:聊天机器人的困境到底是什么?在当前的技术条件和市场环境下,聊天机器人制造商如何突破?这个问题可以通过使用新技术和开辟新赛道来解决吗?
在近些年,聊天机器人的得到了快速发展,更受到人们广泛关注,但是随着陆续爆出侵犯用户隐私的问题,再加上聊天机器人并没有达到人们预期的效果,让整个行业走进了低谷。
困境
一、聊天机器人太傻了
作为一个聊天机器人的从业者,办公桌上和家里有各式各样的聊天机器人产品。 和很多用户的体验一样,对于刚得到的产品,最初的感觉是新鲜的兴奋,但是体验了机能之后,剩下的是失望,随后,它可能会被放在角落里,或者只是作为扬声器播放音乐。
这就跟聊天机器人厂商的初衷背道而驰了。一边是厂商希望用户长久留存在产品上,一边是用户对产品的日均使用时间快速下降。那么为什么会出现这种情况?为什么大多数用户对于聊天机器人的满意度很低?
从人类的天性中,可以一窥端倪。天主教教义对人类的恶性分为七种。举例来说,人类是懒惰的,总是希望以最少的代价获取最大的利益。而由于技术的限制,和聊天机器人的对话经常会使得沟通成本增加。比如,语音识别率在实际场景中不可能达到 100%,也就造成了在嘈杂环境中唤醒聊天机器人,许多时候是一个很不舒服的体验。相比而言,人类的耳朵对于「鸡尾酒会效应」却游刃有余。又比如,想让聊天机器人完成一项功能(订机票、查天气或播放一首特定风格的音乐),有时候必须通过非常明确的语言,进行多次沟通。相比而言,古代皇帝想做一件事情的时候,甚至不需要用到语言,只需一个眼神,太监就马上能意会到皇帝的目的。这里提到的还只是纯交互部分的问题,如果再出现网络延迟、敏感词和敏感话题、甚至还有一些稀奇古怪的 bug,让聊天机器人答非所问,就会让人更加不满。
作为从业人员,我在使用这些产品的时候还是很宽容的,由于知道聊天机器人的软肋,就会尽可能的跟聊天机器人心平气和的对话。一次不行,我再试一次,这个指令不管用,我再换一种问法。但对于普通用户,可不会买账。我们看下如图 1 这个用户,冷不丁的半夜被聊天机器人的怪笑吓个半死。英文翻译过来的意思就是「躺在床上正要睡着了,突然某某某音箱中的虚拟助手向我发出很大声让人毛骨悚然的笑声... 今晚我要被杀了」。这个时候,如果是我的话,除了把它从楼上扔下去摔个粉碎之外,好像也没有什么平复心情的办法了。
再举一个例子,在分析用户使用数据的时候可以发现,排名靠前的功能主要有闲聊、问天气、播放音乐等。刚接触这个行业的时候,我曾认为,既然是被高频触发的功能,就证明这些是用户的「刚需」。只要对刚需功能做好优化,用户留存度和满意度自然会大幅提升。后来才慢慢体会到,有些时候,并不是用户真的最喜欢问天气和播放音乐,而是其他的功能体验感实在是差强人意,比较成熟的也就剩下天气和音乐了。这就牵扯到「七宗罪」中的又一个「罪」:贪婪。用户总是想得到更多,所以在刚拿到聊天机器人产品的时候,自然而然的会不断试探其边界,所以交互的内容也会天马行空,五花八门。但如果用户得到的都是负面反馈,随着期望的降低,问答范围也会缩小到一些成熟和稳定的功能上。就好像是新婚之夜,满怀期待掀开新娘的面纱,却发现等待着的是如花。
二、为什么要做聊天机器人
既然聊天机器人效果都做的不好,那为什么还有大量的公司一窝蜂涌入到这个市场?头部厂商不惜重金做补贴,甚至能做到人民币两位数的售价。尤其像儿童教育聊天机器人,虽然已成为血海市场,仍然还有很多公司前赴后继进入到这个赛道。
这还要从我们所处的时代说起。我是 80 后,很幸运经历了近 40 年技术爆发的 4 个时代,分别是 PC 时代、互联网时代、移动互联网时代和人工智能时代。而我们现在所处的人工智能时代,也正是 AI 技术发展历史上的第三次浪潮。
每一个时代都有其对应的入口级产品。在 80 到 90 年代,个人电脑是最主要的入口,其特点是「运算力改变生活」,个人电脑和 Windows 操作系统,成就了 IBM 和微软两个硬件和软件的巨头。我至今还记得当时用一台 486 电脑和 14 寸的球面显示器,玩仙剑奇侠传的场景。而在随后到来的互联网时代,核心特点是「连接颠覆一切」,人们可以通过网络随时随地进行信息搜索和信息交互,同时也造就了谷歌这样一个伟大的公司。第三个时代是移动互联网时代,移动技术带来了两大变革,一是数据利用效率的提升,导致服务发生了变化,人们可以随时随地享受例如叫车、点餐等即时服务,二是交互方式的改变,智能手机(主要是触屏手机)成为了入口级设备,这个时代中最具有代表性的公司就是苹果,iPhone 也成为了颠覆性的产品。
当人们跨越到人工智能时代,微软又提出对话即平台(Conversation As A Platform)的理念,并称之为一种交互方式的「回归」。之所以称之为「回归」,是因为从远古时代起,语言是人类最自然的交互方式。人们通过语言来打招呼、八卦、协同狩猎,也就拉近了群体中人与人之间的距离。以色列历史学家尤瓦尔?赫拉利的《人类简史》甚至把「八卦」提到了非常重要的位置,是人与动物、人与其他史前人类的关键区别。以前由于技术的限制,人们不得不通过键盘和鼠标与机器进行「对话」,而现在我们具备了「对话即平台」的条件,可以很好的实现这种最自然的交互方式,完成各种服务。因此,在人工智能时代,语音交互产品也自然而然成为了入口级产品,而聊天机器人就是一个最典型的体现。
因此,为了抢占这一「入口」,无论是技术巨头还是创业大军,都加入到了本就不宽的赛道中来,就如「千树万树梨花开」一样,出现了大量的聊天机器人产品。同时在 B 端和 G 端市场,为了显得自己的高大上,很多大企业和政府机构也都纷纷推出自己的智能问答系统。然而,好奇害死猫,「入口」害死人。现在的聊天机器人已经变成了血海市场,哀鸿遍野。技术的低门槛,产品的同质化,再加上头部厂商的补贴策略,大公司长期亏损,中小型公司的生存更为艰难。尤其是 18 年开始的「资本寒冬」,很多的聊天机器人公司要么关门,要么转型,这个我们暂时按下不表,后面还有更多讨论。
三、聊天机器人是什么
聊天机器人从字面上来讲,就是会聊天的机器人。但「会聊天」涵盖的范围太广了。人们总是希望给事物打上标签,给出定义。因此,对于聊天机器人而言,我们给出几类角度不同的分类。
首先,从用途和使用场景上看,聊天机器人可以简单分为功能类和娱乐类。所谓功能类,一般是为了解决某个特定的问题,比如说个人助理、音乐播放、儿童故事、网上购物等。而娱乐类,大多是为了陪伴用户闲聊。微软小娜(Cortana)和微软小冰,分别是功能类和娱乐类的典型代表。
其次,从生态系统上看,聊天机器人可以分为产品、框架和平台三类。我们在市场上所看到的,以及日常所使用的都称之为「产品」,包括纯软件形态和软硬件结合的品类,例如微软小冰,亚马逊 Echo、iPhone 上的 Siri,公子小白、小米音箱等。除此之外,为了加速实际产品的研发,很多公司专门对外提供聊天机器人框架(Framework),以 SDK 或者 SAAS 服务的形态,供需求方来构建特定场景和领域的聊天机器人。典型代表包括支持 Echo 的 Amazon Alexa,微软的 Luis with Bot 等。另外,一些纯软件形态的聊天机器人,需要承载其应用的「平台」(Platform),比如说微信、Facebook 等。这样就构成了整个聊天机器人的生态体系。
最后,从交互方式上看,聊天机器人可以分为主动交互型和被动交互型两种,其中,被动交互型又包括闲聊型、任务型和问答型三类。我们接触到的绝大多数产品属于被动交互,即由用户发起对话,机器理解对话并作出相应的回应。主动交互可以更好的体现机器人和用户之间的对等关系,即由机器人主动发起,通过共享或推荐用户感兴趣的热点信息,和人类进行互动,但目前更多的是作为对传统交互方式的一种补充,并未得到大规模广泛应用。从被动交互的三种类型来看,闲聊型主要是进行客观话题讨论,或者用户对聊天机器人进行一些情感表达,微软小冰就具有很强的闲聊属性。而任务型是为了满足一个特定的任务或者目标,比如说利用 Siri 可以设定闹钟、预定餐馆等。对于问答型聊天机器人,需要解决用户对于事实型(Factoid)问答(如 what、which、who、where 和 when)问题的回复,以及非事实型问答(如 how 和 why)的回复。
用户在和聊天机器人交互的过程中,会夹杂各式各样的意图。举一个简单的例子,以下是一段对话:
Q: 你知道阿楠的电话号码么?
A: 知道
Q: 那你能告诉我他的号码么?
A: 可以
我们可以看到,这其实是一段无意义的废话。用户的意图是想要阿楠的电话号码(任务型对话),而聊天机器人的回复完全属于闲聊型对话。
从70年前的原子弹到50年前的粒子对撞机,以及20年前的基因编辑技术,技术在这一百年间飞跃性地发展着。而在人工智能如此火热的今天,为什么聊天机器人就做不好?
作者:邵浩
AI中国网 https: //www.cnaiplus.com
本文网址: