AI产品经理需要了解的语音交互评价指标

AI产品经理需要了解的语音交互评价指标_人工智能_机器人

本文主要从5大方面具体介绍了现在行业内对语音交互系统的常见评价指标,分别是语音识别、自然语言处理、语音合成、对话系统和整体用户数据指标。enjoy~


最近,在饭团“AI产品经理大本营”里,有团员提问:  如何制定针对自然语言语音交互系统的评价体系?有没有通用的标准?例如在车载环境中,站在用户角度,从客观,主观角度的评价指标?

上周,我在专属微信群内抛出了这个问题,当晚,胡含、我偏笑、艳龙等朋友就分享了不少干货心得;最近几天,在飞艳同学的协助整理下,我又补充了一些信息,最终形成这篇文章,以飨大家。

一、语音识别ASR

 语音识别(Automatic Speech Recognition),一般简称ASR,是将声音转化为文字的过程,相当于人类的耳朵。

 1、识别率

 纯引擎的识别率 ,以及  不同信噪比状态下的识别率 (信噪比模拟不同车速、车窗、空调状态等),还有  在线/离线识别 的区别。

实际工作中,一般识别率的直接指标是“  WER (词错误率,Word Error Rate)”

定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。

公式为:

AI产品经理需要了解的语音交互评价指标_人工智能_机器人

3点说明:

  1. WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。

  2. 因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。

  3. 站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SER(句错误率,Sentence Error Rate)”,即“     句子识别错误的个数/总的句子个数    ”。不过据说在实际工作中,一般句错误率是字错误率的2~3倍,所以可能就不怎么看了。

2、  语音唤醒相关的指标

先需要介绍下语音唤醒(Voice Trigger,VT)的相关信息。

 (1)语音唤醒的需求背景

近场识别时,比如使用语音输入法时,用户可以按住手机上siri的语音按钮,直接说话(结束之后松开);近场情况下信噪比(Signal to Noise Ratio, SNR)比较高,信号清晰,简单算法也能做到有效可靠。

但是在远场识别时,比如在智能音箱场景,用户不能用手接触设备,需要进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“Hey Siri”,Google的“OK Google”,亚马逊Echo的“Alexa”等。

 (2)语音唤醒的含义

简单来说是“喊名字,引起听者(AI)的注意”。如果语音唤醒判断结果是正确的唤醒(激活)词,那后续的语音就应该被识别;否则,不进行识别。

 (3)语音唤醒的相关指标

以上a、b、d相对更重要。

 (4)其他

涉及AEC(语音自适应回声消除,Automatic Echo Cancellation)的,还要考察  WER相对改善情况

二、自然语言处理NLP

自然语言处理(Natural Language Processing),一般简称NLP,通俗理解就是“让计算机能够理解和生成人类语言”。

 1、准确率、召回率

附上之前文章《  AI产品经理需要了解的数据标注工作入门 》中,分享过的一段解释:

举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则

再补充一个图来解释:

AI产品经理需要了解的语音交互评价指标_人工智能_机器人

 2、F1值(精准率和召回率的调和平均数)

模型调优后追求F1值提升,准确率召回率单独下降在一个小区间内,整体F1值的增量也是分区间看(F1值在60%内,与60%以上肯定是不一样的,90%以上可能只追求1%的提升)。

P是精准率,R是召回率,Fa是在F1基础上做了赋权处理:Fa=(a^2+1)PR/(a^2P+R)

三、语音合成TTS

 语音合成(Text-To-Speech),一般简称TTS,是将文字转化为声音(朗读出来),类比于人类的嘴巴。 大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。

 主观测试(自然度),以MOS为主:

  1. MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。

  2. ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,看哪个好。

 客观测试:

  1. 对声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。

  2.   对工程上的测试:    实时率(合成耗时/语音时长),流式分首包、尾包,非流式不考察首包;首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。

四、对话系统

对话系统(Dialogue System),简单可以理解为Siri或各种Chatbot所能支持的聊天对话体验。

1、用户任务达成率(表征产品功能是否有用以及功能覆盖度)

(1)比如智能客服,如果这个Session最终是以接入人工为结束的,那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。

(2)分专项或分意图的统计就更多了,不展开了。

2、对话交互效率

比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等(可能和打断,One-shot等功能相关);具体定义,各个产品自己决定。

3、根据对话系统的类型分类,有些区别。

 (1)闲聊型

 (2)任务型

 (3)问答型

整体来说,行业一般PR宣传时,会更多的提CPS。其他指标看起来可能相对太琐碎或不够高大上,但是,实际工作中,可能CPS更多是面向闲聊型对话系统,而其他的场景,可能更应该从“效果”出发。比如,如果小孩子哭了,机器人能够“哭声安慰”,没必要对话那么多轮次,反而应该越少越好。

4、语料自然度和人性化的程度

目前对于这类问题,一般是使用  人工评估 的方式进行。这里的语料,通常不是单个句子,而是分为  单轮的问答对  多轮的一个session 。一般来讲,评分范围是  1~5分

另外,为了消除主观偏差,采用  多人标注、去掉极端值 的方式,是当前普遍的做法。

五、整体用户数据指标

常规互联网产品,都会有整体的用户指标;AI产品,一般也会有这个角度的考量。

1、  DAU (Daily Active User,日活跃用户数,简称“日活”)

在特殊场景会有变化,比如在车载场景,会统计“DAU占比(占车机DAU的比例)”。

2、  被使用的意图丰富度 (使用率>X%的意图个数)。

3、可尝试通过用户语音的情绪信息和语义的情绪分类评估  满意度

尤其对于生气的情绪检测,这些对话样本是可以挑选出来分析的。比如,有公司会统计语音中有多少是骂人的,以此大概了解用户情绪。还比如,在同花顺手机客户端中,拉到最底下,有个一站式问答功能,用户对它说“怎么登录不上去”和说“怎么老是登录不上去”,返回结果是不一样的——后者,系统检测到负面情绪,会提示转接人工。

结语

本篇分享,介绍了现在行业内对语音交互系统的常见评价指标,一方面,是提供给各位AI产品经理以最接地气的相关信息;另一方面,也是希望大家基于这些指标,打造出更好的产品体验效果。

46
178
0
2

相关资讯

  1. 1、她26岁演女特工成名,剧中痴恋胡歌,29岁美如少女却是单身?1288
  2. 2、《海底小纵队》曝“小纵队召集令”预告2881
  3. 3、9月出奇迹,三对情侣被偶遇,赵丽颖最低调,唐艺昕景甜各有特点4487
  4. 4、《天涯明月刀》的3位新娘,一个比一个惨,你最心疼谁?4624
  5. 5、《秘密访客》五一掉队,究竟是什么问题?4177
  6. 6、一大波新片即将来袭:马东锡二刷存在感,孔孝真欧尼携惊悚片回归4402
  7. 7、同样是怀孕拍戏,刘涛吊威亚惹人疼,而她却掺遭狂批成烂片之王3650
  8. 8、《老男孩》入围上影节“逆袭版”预告来势凶猛204
  9. 9、《胡桃夹子与四个王国》:一部拍给孩子们的美育片52
  10. 10、撑起中国票房的五个男人:沈腾倒数,吴京第三,第一至今无人超越1629
全部评论(0)
我也有话说
0
收藏
点赞
顶部