如何评测语音技能的智能程度—

“若产品能够在人格层面与用户建立关联，则能够更好地促进使用过程中产生积极正面的情绪，形成愉悦的记忆，继而促进用户的使用意愿、包容度和信任。”

——唐纳德·诺曼

这位认知心理学领袖，工业设计学科先知、交互体验图腾级别的人物，强调一切设计都应该有趣、令人愉悦。要从人的思维和感官层面来考虑，他的4册《设计心理学》、《情感化设计》等著作至今都是设计专业必读书目，同时也是我们公司设计师以及产品经理的必修课，为我们打造智能语音助手指引了方向。

前三篇文章，依次拆解了【意图理解】、【服务提供】、【交互流畅】三个维度，如果这些维度的各个评测指标全部达标，即是一款水平线以上的智能语音助手，但是距离“令人愉悦和兴奋”还少了一个维度，即——人格化。

影视作品的诸多机器人形象往往都深受大家喜爱，瓦力，机器猫，大白……它们都拥有一个鲜明生动的“人设”，与它们的互动充满了期待与想象空间。

但是如果没有了人格化的表现，那么往往会非常尴尬。此处可以拿人做一下类比。

好，下面有请，NBA两届最佳防守球员，在NBA两只球队获得总冠军并2次捧起FMVP奖杯，前段时间又在2020年捧起全明星赛AMVP的当红炸子鸡——Kawhi Leonard发表自己的获奖感言。

算了，这个哥们无论是开心还是难过，都是一个样子。

就算是发表获奖感言，也没有什么表现力，所以我们都不记得他说了什么。

要知道，这哥们职业毕竟是个打篮球的，核心考量点是能否帮助球队赢球。也就是说，性能十分优秀，但是人格上并不讨喜。

这个搁在当下的很多智能音箱上，也是一个情况。大厂制造，资源齐备，各个性能表现都十分优秀，同一个时期的产品，硬件配置，技能，语音交互表现差不太多。

自然语言交互出现之后，人类可以按照自己的习惯需求去使用工具，同时在对话式交互的过程中，为智能语音产品打造一个恰到好处的“人格化表现”，同样也是一个非常重要的命题。

这个维度，重点考量智能助手在人格化程度上的表现。

【人格特质】（1）情绪丰富度

喜怒哀乐悲恐惊，考察智能助手的情绪丰富度。

现在的语音助手大多是一个工具型产品，并基于此，努力附加人格化。

高德语音导航这个工具的使用体验无疑是做得令人愉悦的，与它们的互动充满了乐趣。

床前明月光，我是郭德纲，前方直行，前边路口有丈母娘

友情提醒：副驾驶坐的如果不是原配，建议您上桥右拐赶紧跑，出点儿事我们可不管

前方有急转弯，它急你别急，请把驾驶模式从偶像派切换到实力派

前方有违章摄像，赶着照相就别在这了，忒贵！

我是罗永浩，你镇定一下，我们要出发了；

前方有急转弯，你听明白了吗？是急转弯，可能是东半球最急的急转弯；

你已超速！你家里知道你这样开车吗？

导航结束了，快下车吧，咱们又不是没下回了，啊，听话；

而在实际的业务中，用户在与助手互动的过程中，我们很难做出类似的设计。

原因如下：

用户在选择高德地图语音包的那一刻，就已经管理好了预期。而用户首次使用我们的助手，并没有一个预期管理。有些地方玩梗，不懂的用户会莫名奇妙，甚至会产生对某类群体的冒犯。所以只能选择面对大众的那种商务范，或者是客服范最为安全。

客服范儿、商务范儿，意味着职业化，恐怕只能有存在积极情绪，很难有消极反馈，往往只存在任务完成时候的喜和乐。

网速卡顿了，助手要不要怒？查询速度比较慢，要不要跟用户一起吐槽？如何吐槽？天气下雨影响出行，要不要跟用户一起吐槽？如何吐槽？用户的提出的无理要求，敢使用什么程度的调侃？

你要知道职业范的人，最好不要有消极情绪，也不要随意调侃，甚至是自黑。

一旦选择了职业范，往往设计就比较局限了，安全的做法就是只能保留积极情绪。

中规中矩是安全的，但是似乎少了一些人物的弧光。

高德的处理方案，当用户熟悉了以后，让用户做选择，自己管理自己的预期，也许是一种解法。

【人格特质】（2）情绪表现力

前者说的是情感的丰富度，此处考察的是，在表达情绪时的表现力、感染力。

假设情绪方向是喜怒哀乐悲恐惊的话，如何表现，什么力度才是合适？

笔者能列举的计算机表现方式：文字、表情、语音、音效、图像、光效、甚至是机器人的肢体动作。这些方式，叠加的越多，其表现力越丰富。

一个人表达愤怒的时候，应该是，怒目圆睁，中气十足，嗓门嘹亮，手舞足蹈，带着某种BGM，口吐芬芳……拿计算机类比人类，尽可能多的添加表现吧。

内容方面非常考验对文字的敏感度，这事确实是需要一点天赋。

演员亦是，作家亦是，产品设计亦是……

要能证明自己可以做出好的情绪表现力，关键场合才能给用户带来深刻印象。

【人格特质】（3）人设一致性

人设一旦定义，其行为习惯、音色、语速、语言内容表达一定要保证符合一致性。

孙悟空和猪八戒、和珅和纪晓岚、乐嘉和孟非、罗永浩和郭德纲、奇葩说的几位导师，他们都是有着独立人格的个体，具备非常鲜明的人设。

在面临问题时候的表现，其价值观，语言表达方式，逻辑顺序，所处利益立场一定要基于此前的人设表现，合理化，虽然每个人都是一个复杂的个体，但是大体也是在一定的范围值内波动。如此的人设，才可以立得起来。

放到智能语音助手的逻辑上，音色和语速往往上基于同一个声音模型设置的，此处是较容易保证一致的，而难点是在于语言内容层面的呈现。

当人类提出一个当前智能助手无法满足的需求的时候，助手应当如何回应？

很抱歉！暂时不支持这项服务，我可以帮你做点其他的……

唉嘿，这个人家目前还做不到耶，不过人家会努力学习哒，争取早日为主人服务

这个能力我不会，老娘才卖不到200块，别成天想着要这要那的。

这就是属于不同的人格表达出来的话术，如果频繁切换，就会出现人设不一致的情况，在塑造角色个性上是失败的。

早年春晚蔡明和郭达的小品《趣话机器人》，可以切换各种各样的模式，但模式一乱，就非常糟糕了，看过这个小品的同学应该有印象（暴露年龄系列）。

【人格特质】（4）情商/共情表现

情商和共情能力属于高阶能力，根据用户的描述，响应对应内容。

“共情”是人们把自己真实的心灵感受，主动投射到自己所看到的事物上的一种心理现象。

简单来说，“共情”就是一种感受，站在别人的角度上去思考问题，是必备的沟通能力之一。

相信玩过《恋与制作人》的同学会更有感触。

人类的共情行为，先感受和观察，然后做出回应。

搁在计算机这边也是同理。

如何成功识别用户的情绪状态？

各类元器件负责收集，各类技术负责解析。

就目前的视觉识别分析，音轨分析，文字理解，甚至是脑波信号采集，是可以做到情绪以及对应程度的分析的。

把你的用户，当成你的另一半对待即可。

用户开心雀跃，助手如何做共情反馈？

用户悲伤失落，助手如何做共情反馈？

用户焦虑苦恼，助手如何做共情反馈？

……

共情能力，属于典型的被动技能，考验天赋，有共情能力且情商高的不用教，没有的话也教不会。属于典型的提要求容易，而实际业务中做起来也挺难总结什么方法论，选团队里面最具备天赋的人处理共情决策工作，相信在某些场景，一定会带来不一样的体验。

用户少有情绪波动的时候，而当用户发生剧烈的情绪波动（狂喜、大怒、悲伤）的时候，如果助手能够表现出一些感同身受，并且与其发生同等频率的情绪共振，你自然可以赢得对方的心。

共情表现这一个点，其实无形之中考量了前面各个维度的能力。

【人格特质】（5）用户印象

产品能够管理好用户的心理预期，并成功塑造一个形象。

通俗来说，助手在用户心中是一个怎样的品牌印象。

在过往，品牌的塑造需要产品，运营，市场，商务、品牌、渠道等各个部门花费大量的精力的去曝光和维持。

而如今，对话式交互则拥有更多的机会，人格化表现更为容易。

目前来看，市面上出货最多的当属智能音箱了，用户与这些智能音箱的互动相较于传统的硬件产品发生了质的改变，因为语音对话这种拟人化的交互形式，更容易附着人格，继而去传递品牌印象。助手出现在其他的智能硬件上，也仅仅是时间问题。

在实际的使用过程中，偶尔因为音箱的一些俏皮话让自己笑出声来，这种使用过程中产生积极正面的情绪，形成愉悦的记忆，继而促进用户的使用意愿，提升包容度和信任。

笔者的公司也为团队买了很多的智能音箱，笔者团队过往也体验很多产品，如：腾讯叮当、小度在家、小爱同学、天猫精灵、猎豹小豹、海尔小优、(Rokid)若琪、喜马拉雅的小雅、亚马逊的ECHO、狗尾草的琥珀等等。

各种音箱的定位不一样，大厂的往往大而全，小厂则具备一些独特感，比如家电控制、音乐/视频内容提供、导购电商、情感陪护类等等。

诸多音箱中，人格特质的表现塑造的大同小异，大多数音箱的表现还是功能性，商务、服务范儿的状态，体验过了，不过尔尔，难留深刻印象。

能给我带来比较多欢乐的，印象比较深刻的还是小爱同学。

事先声明：笔者非米粉，也无任何利益关系，而是真心觉得做得好，就值得表扬！

《参与感》早就明确了大基调，如今小爱同学的表现则是一种延续。

公平公正的说，各个音箱在满足基本的一句话明确需求的时候，大家的表现几乎是一致的，而小爱在一些非业务场合的情况下，各种花式怼人，吐槽，讲段子，自黑，这一点，大家在抖音，B站搜索，会发现很多UGC的内容，而这类往往又可以给产品带来二次品牌传播，增加品牌印象。

这中间的差别是：满足需求的时候，大家都是一致，而在其他的场景下，小爱的人格化表现实在是太有优势。

相比市面上大多数音箱都是毫无个性塑造，努力塑造出一种商务范儿，小爱同学把自己塑造成一个情感丰富的逗比形象，这种讨喜的人设，往往在未来拥有更多的容错性，用户的宽容度极高。

相比一个无趣的佣人或客服，笔者更希望一个拥有傲娇情绪，更贴近普罗大众，甚至有些毛病的小可爱。

当遇见难处/表现不佳的时候，小可爱可以撒娇，耍赖，卖萌，抖机灵等方式回应，用轻松的方式避免尴尬，用户觉得你过往就是这个样子，既然回复很讨喜，也就罢了。

而你一开始就商务范儿，客服范儿，谦良恭俭让并努力表现出自己职业化和靠谱，一旦出现那么几次不靠谱的时候，巨大的落差，会让用户认为你是人工智障。

既然各家音箱的正常业务（点歌，控制其他硬件等）表现都差不太多，我为什么不选一个给我带来各种快乐的助手呢？

小爱的这种人设选择，给笔者留下了非常良好的印象！

如果我们做的产品，当用户体验一段时间后，还留不下什么印象，那是一件非常失败的事情。

与其更好，不如不同！

阶段性结尾

其实在写这个维度，笔者有点尴尬，因为寥寥几句就能够定义明白。但在定义了是什么（what）之后，笔者努力为大家带来一些思考。

情绪要丰富，如何处理及应用消极情绪呢？
情绪表现力要强，如何把握min到max之间的分寸？
如何做人设选择，反馈如何保证一致性？
要有情商/共情表现，如何识别，如何反馈？
如何给用户留下印象，塑造品牌？

在【人格特质】这一块维度上，是需要一些天赋的。正如，即使是大多数人即使是拿着最优秀的剧本也无法在镜头前做出如同papi酱那种表现力的效果。

【人格特质】的5个指标均是相互关联而又独立存在的，提要求容易，而实际业务中做起来也挺难总结什么方法论。

在塑造AI的性格上，特别依赖经验，情商，娱乐精神，懂心理学，阅读广泛，文艺范，感情细腻，对文字敏感……而这些东西，需要积累，需要天赋。

网络不好的时候，其他助手反馈网络繁忙，无法成功加载固然没什么错，而处理成哎呀呀，网络好像出了点问题是不是更讨喜一些？
年轻的用户可接受度较高，在浏览奢侈品的时候，随口一句这个东西不错，缺点就是有点贵呢，敢不敢贱贱地讲个笑话，默默表达贵怎么成了产品的缺点，难道不是你的缺点吗？
当用户太长地时间没启动，开机欢迎语是欢迎回来，还是可以当初买人家的时候小甜甜，如今就牛夫人了，你大概有463个小时没有跟人家讲话了呢，来看看我最近学习了多少新本事
有些用户闲来无事的时候，调侃小X同学啊，谁是世界上最美丽的女人？。除了回复那种烂俗的当然是主人你呀能不能回复，女人……又来了（同时打开硬件的前置摄像头）自己看吧。
当闹钟叫醒用户的时候，内容可以是循环闹铃或者是复读机语音播报，还是可以用各种调侃的方式刺激用户起床（早中晚内容不一致，工作日和休息日的内容不一致）。
很多人自控能力比较差，往往做某件事情的时候，需要人督促和引导，体脂秤肯定可以同步数据给AI，可不可以类似健身教练一样，或者是毒舌闺蜜一样用各种话术套路去做提醒，帮助人履行计划。

类似的场景真的可以想太多太多。

很多情况下，要不要这么做是一种选择。

而当决定这么做的时候，做得到不到位是一种能力。

在【人格特质】这一维度的提升依靠语言表现力，文字敏感度，是文科生的主战场。

除了《Her》以外，也给大家推荐一部电影，《黑镜：马上回来》，看完再回味本篇文章，相信你会有更多的思考。

以上，关于第四大维度的诸多考量点，就此介绍完毕。

至此，四大维度也依次介绍完毕。

谢谢你看到了这里，希望能给大家的工作带来一些帮助和思考。