如何评测语音技能的智能程度——人格特质

“若产品能够在人格层面与用户建立关联,则能够更好地促进使用过程中产生积极正面的情绪,形成愉悦的记忆,继而促进用户的使用意愿、包容度和信任。”

——唐纳德·诺曼

这位认知心理学领袖,工业设计学科先知、交互体验图腾级别的人物,强调一切设计都应该有趣、令人愉悦。要从人的思维和感官层面来考虑,他的4册《设计心理学》、《情感化设计》等著作至今都是设计专业必读书目,同时也是我们公司设计师以及产品经理的必修课,为我们打造智能语音助手指引了方向。

前三篇文章,依次拆解了【意图理解】、【服务提供】、【交互流畅】三个维度,如果这些维度的各个评测指标全部达标,即是一款水平线以上的智能语音助手,但是距离“令人愉悦和兴奋”还少了一个维度,即——人格化。

影视作品的诸多机器人形象往往都深受大家喜爱,瓦力,机器猫,大白……它们都拥有一个鲜明生动的“人设”,与它们的互动充满了期待与想象空间。

但是如果没有了人格化的表现,那么往往会非常尴尬。此处可以拿人做一下类比。

好,下面有请,NBA两届最佳防守球员,在NBA两只球队获得总冠军并2次捧起FMVP奖杯,前段时间又在2020年捧起全明星赛AMVP的当红炸子鸡——Kawhi Leonard发表自己的获奖感言。

算了,这个哥们无论是开心还是难过,都是一个样子。

就算是发表获奖感言,也没有什么表现力,所以我们都不记得他说了什么。

要知道,这哥们职业毕竟是个打篮球的,核心考量点是能否帮助球队赢球。也就是说,性能十分优秀,但是人格上并不讨喜。

这个搁在当下的很多智能音箱上,也是一个情况。大厂制造,资源齐备,各个性能表现都十分优秀,同一个时期的产品,硬件配置,技能,语音交互表现差不太多。

自然语言交互出现之后,人类可以按照自己的习惯需求去使用工具,同时在对话式交互的过程中,为智能语音产品打造一个恰到好处的“人格化表现”,同样也是一个非常重要的命题。

这个维度,重点考量智能助手在人格化程度上的表现。

【人格特质】(1)情绪丰富度

喜怒哀乐悲恐惊,考察智能助手的情绪丰富度。

现在的语音助手大多是一个工具型产品,并基于此,努力附加人格化。

高德语音导航这个工具的使用体验无疑是做得令人愉悦的,与它们的互动充满了乐趣。

床前明月光,我是郭德纲,前方直行,前边路口有丈母娘

友情提醒:副驾驶坐的如果不是原配,建议您上桥右拐赶紧跑,出点儿事我们可不管

前方有急转弯,它急你别急,请把驾驶模式从偶像派切换到实力派

前方有违章摄像,赶着照相就别在这了,忒贵!


我是罗永浩,你镇定一下,我们要出发了;

前方有急转弯,你听明白了吗?是急转弯,可能是东半球最急的急转弯;

你已超速!你家里知道你这样开车吗?

导航结束了,快下车吧,咱们又不是没下回了,啊,听话;

而在实际的业务中,用户在与助手互动的过程中,我们很难做出类似的设计。

原因如下:

用户在选择高德地图语音包的那一刻,就已经管理好了预期。而用户首次使用我们的助手,并没有一个预期管理。有些地方玩梗,不懂的用户会莫名奇妙,甚至会产生对某类群体的冒犯。所以只能选择面对大众的那种商务范,或者是客服范最为安全。

客服范儿、商务范儿,意味着职业化,恐怕只能有存在积极情绪,很难有消极反馈,往往只存在任务完成时候的喜和乐。

网速卡顿了,助手要不要怒?查询速度比较慢,要不要跟用户一起吐槽?如何吐槽?天气下雨影响出行,要不要跟用户一起吐槽?如何吐槽?用户的提出的无理要求,敢使用什么程度的调侃?

你要知道职业范的人,最好不要有消极情绪,也不要随意调侃,甚至是自黑。

一旦选择了职业范,往往设计就比较局限了,安全的做法就是只能保留积极情绪。

中规中矩是安全的,但是似乎少了一些人物的弧光。

高德的处理方案,当用户熟悉了以后,让用户做选择,自己管理自己的预期,也许是一种解法。

【人格特质】(2)情绪表现力

前者说的是情感的丰富度,此处考察的是,在表达情绪时的表现力、感染力。

假设情绪方向是喜怒哀乐悲恐惊的话,如何表现,什么力度才是合适?

笔者能列举的计算机表现方式:文字、表情、语音、音效、图像、光效、甚至是机器人的肢体动作。这些方式,叠加的越多,其表现力越丰富。

一个人表达愤怒的时候,应该是,怒目圆睁,中气十足,嗓门嘹亮,手舞足蹈,带着某种BGM,口吐芬芳……拿计算机类比人类,尽可能多的添加表现吧。

内容方面非常考验对文字的敏感度,这事确实是需要一点天赋。

演员亦是,作家亦是,产品设计亦是……

要能证明自己可以做出好的情绪表现力,关键场合才能给用户带来深刻印象。

【人格特质】(3)人设一致性

人设一旦定义,其行为习惯、音色、语速、语言内容表达一定要保证符合一致性。

孙悟空和猪八戒、和珅和纪晓岚、乐嘉和孟非、罗永浩和郭德纲、奇葩说的几位导师,他们都是有着独立人格的个体,具备非常鲜明的人设。

在面临问题时候的表现,其价值观,语言表达方式,逻辑顺序,所处利益立场一定要基于此前的人设表现,合理化,虽然每个人都是一个复杂的个体,但是大体也是在一定的范围值内波动。如此的人设,才可以立得起来。

放到智能语音助手的逻辑上,音色和语速往往上基于同一个声音模型设置的,此处是较容易保证一致的,而难点是在于语言内容层面的呈现。

当人类提出一个当前智能助手无法满足的需求的时候,助手应当如何回应?

很抱歉!暂时不支持这项服务,我可以帮你做点其他的……

唉嘿,这个人家目前还做不到耶,不过人家会努力学习哒,争取早日为主人服务

这个能力我不会,老娘才卖不到200块,别成天想着要这要那的。

这就是属于不同的人格表达出来的话术,如果频繁切换,就会出现人设不一致的情况,在塑造角色个性上是失败的。

早年春晚蔡明和郭达的小品《趣话机器人》,可以切换各种各样的模式,但模式一乱,就非常糟糕了,看过这个小品的同学应该有印象(暴露年龄系列)。

【人格特质】(4)情商/共情表现

情商和共情能力属于高阶能力,根据用户的描述,响应对应内容。

“共情”是人们把自己真实的心灵感受,主动投射到自己所看到的事物上的一种心理现象。

简单来说,“共情”就是一种感受,站在别人的角度上去思考问题,是必备的沟通能力之一。

相信玩过《恋与制作人》的同学会更有感触。

人类的共情行为,先感受和观察,然后做出回应。

搁在计算机这边也是同理。

如何成功识别用户的情绪状态?

各类元器件负责收集,各类技术负责解析。

就目前的视觉识别分析,音轨分析,文字理解,甚至是脑波信号采集,是可以做到情绪以及对应程度的分析的。

把你的用户,当成你的另一半对待即可。

用户开心雀跃,助手如何做共情反馈?

用户悲伤失落,助手如何做共情反馈?

用户焦虑苦恼,助手如何做共情反馈?

……

共情能力,属于典型的被动技能,考验天赋,有共情能力且情商高的不用教,没有的话也教不会。属于典型的提要求容易,而实际业务中做起来也挺难总结什么方法论,选团队里面最具备天赋的人处理共情决策工作,相信在某些场景,一定会带来不一样的体验。

用户少有情绪波动的时候,而当用户发生剧烈的情绪波动(狂喜、大怒、悲伤)的时候,如果助手能够表现出一些感同身受,并且与其发生同等频率的情绪共振,你自然可以赢得对方的心。

共情表现这一个点,其实无形之中考量了前面各个维度的能力。

【人格特质】(5)用户印象

产品能够管理好用户的心理预期,并成功塑造一个形象。

通俗来说,助手在用户心中是一个怎样的品牌印象。

在过往,品牌的塑造需要产品,运营,市场,商务、品牌、渠道等各个部门花费大量的精力的去曝光和维持。

而如今,对话式交互则拥有更多的机会,人格化表现更为容易。

目前来看,市面上出货最多的当属智能音箱了,用户与这些智能音箱的互动相较于传统的硬件产品发生了质的改变,因为语音对话这种拟人化的交互形式,更容易附着人格,继而去传递品牌印象。助手出现在其他的智能硬件上,也仅仅是时间问题。

在实际的使用过程中,偶尔因为音箱的一些俏皮话让自己笑出声来,这种使用过程中产生积极正面的情绪,形成愉悦的记忆,继而促进用户的使用意愿,提升包容度和信任。

笔者的公司也为团队买了很多的智能音箱,笔者团队过往也体验很多产品,如:腾讯叮当、小度在家、小爱同学、天猫精灵、猎豹小豹、海尔小优、(Rokid)若琪、喜马拉雅的小雅、亚马逊的ECHO、狗尾草的琥珀等等。

各种音箱的定位不一样,大厂的往往大而全,小厂则具备一些独特感,比如家电控制、音乐/视频内容提供、导购电商、情感陪护类等等。

诸多音箱中,人格特质的表现塑造的大同小异,大多数音箱的表现还是功能性,商务、服务范儿的状态,体验过了,不过尔尔,难留深刻印象。

能给我带来比较多欢乐的,印象比较深刻的还是小爱同学。

事先声明:笔者非米粉,也无任何利益关系,而是真心觉得做得好,就值得表扬!

《参与感》早就明确了大基调,如今小爱同学的表现则是一种延续。

公平公正的说,各个音箱在满足基本的一句话明确需求的时候,大家的表现几乎是一致的,而小爱在一些非业务场合的情况下,各种花式怼人,吐槽,讲段子,自黑,这一点,大家在抖音,B站搜索,会发现很多UGC的内容,而这类往往又可以给产品带来二次品牌传播,增加品牌印象。

这中间的差别是:满足需求的时候,大家都是一致,而在其他的场景下,小爱的人格化表现实在是太有优势。

相比市面上大多数音箱都是毫无个性塑造,努力塑造出一种商务范儿,小爱同学把自己塑造成一个情感丰富的逗比形象,这种讨喜的人设,往往在未来拥有更多的容错性,用户的宽容度极高。

相比一个无趣的佣人或客服,笔者更希望一个拥有傲娇情绪,更贴近普罗大众,甚至有些毛病的小可爱。

当遇见难处/表现不佳的时候,小可爱可以撒娇,耍赖,卖萌,抖机灵等方式回应,用轻松的方式避免尴尬,用户觉得你过往就是这个样子,既然回复很讨喜,也就罢了。

而你一开始就商务范儿,客服范儿,谦良恭俭让并努力表现出自己职业化和靠谱,一旦出现那么几次不靠谱的时候,巨大的落差,会让用户认为你是人工智障。

既然各家音箱的正常业务(点歌,控制其他硬件等)表现都差不太多,我为什么不选一个给我带来各种快乐的助手呢?

小爱的这种人设选择,给笔者留下了非常良好的印象!

如果我们做的产品,当用户体验一段时间后,还留不下什么印象,那是一件非常失败的事情。

与其更好,不如不同!

阶段性结尾

其实在写这个维度,笔者有点尴尬,因为寥寥几句就能够定义明白。但在定义了是什么(what)之后,笔者努力为大家带来一些思考。

  • 情绪要丰富,如何处理及应用消极情绪呢?

  • 情绪表现力要强,如何把握min到max之间的分寸?

  • 如何做人设选择,反馈如何保证一致性?

  • 要有情商/共情表现,如何识别,如何反馈?

  • 如何给用户留下印象,塑造品牌?

在【人格特质】这一块维度上,是需要一些天赋的。正如,即使是大多数人即使是拿着最优秀的剧本也无法在镜头前做出如同papi酱那种表现力的效果。

【人格特质】的5个指标均是相互关联而又独立存在的,提要求容易,而实际业务中做起来也挺难总结什么方法论。

在塑造AI的性格上,特别依赖经验,情商,娱乐精神,懂心理学,阅读广泛,文艺范,感情细腻,对文字敏感……而这些东西,需要积累,需要天赋。

  • 网络不好的时候,其他助手反馈网络繁忙,无法成功加载固然没什么错,而处理成哎呀呀,网络好像出了点问题是不是更讨喜一些?

  • 年轻的用户可接受度较高,在浏览奢侈品的时候,随口一句这个东西不错,缺点就是有点贵呢,敢不敢贱贱地讲个笑话,默默表达贵怎么成了产品的缺点,难道不是你的缺点吗?

  • 当用户太长地时间没启动,开机欢迎语是欢迎回来,还是可以当初买人家的时候小甜甜,如今就牛夫人了,你大概有463个小时没有跟人家讲话了呢,来看看我最近学习了多少新本事

  • 有些用户闲来无事的时候,调侃小X同学啊,谁是世界上最美丽的女人?。除了回复那种烂俗的当然是主人你呀能不能回复,女人……又来了(同时打开硬件的前置摄像头)自己看吧。

  • 当闹钟叫醒用户的时候,内容可以是循环闹铃或者是复读机语音播报,还是可以用各种调侃的方式刺激用户起床(早中晚内容不一致,工作日和休息日的内容不一致)。

  • 很多人自控能力比较差,往往做某件事情的时候,需要人督促和引导,体脂秤肯定可以同步数据给AI,可不可以类似健身教练一样,或者是毒舌闺蜜一样用各种话术套路去做提醒,帮助人履行计划。

类似的场景真的可以想太多太多。

很多情况下,要不要这么做是一种选择。

而当决定这么做的时候,做得到不到位是一种能力。

在【人格特质】这一维度的提升依靠语言表现力,文字敏感度,是文科生的主战场。

除了《Her》以外,也给大家推荐一部电影,《黑镜:马上回来》,看完再回味本篇文章,相信你会有更多的思考。

以上,关于第四大维度的诸多考量点,就此介绍完毕。

至此,四大维度也依次介绍完毕。

谢谢你看到了这里,希望能给大家的工作带来一些帮助和思考。