如何评测语音助手的智能程度(5):指标权重设计

访客4年前黑客文章1210

这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。

如何评测语音助手的智能程度(5):指标权重设计

知己知彼,百战不殆,调研评测其他公司的产品是从业者的日常操作,那么当一个产品放到我们手里的时候,到底看什么呢?看哪些方面呢?专业性不到位的同学怕是无法下手。

而往往具备专业视角的人则游刃有余,他们知道考虑哪些点,结构清晰,主次分明,用解构的方式去理解一款产品,这才是AI从业者专业化思考的表现。

如何评测语音助手的智能程度(5):指标权重设计

如何定义权重

哪位同学问了,这四大维度,什么是重点呢?答案是:基于需求自定义。

定义权重高低,两个维度考量,一个是行业需求,一个是硬件载体。

行业需求(出行、教育、医疗、金融、电商、旅游、餐饮、 *** 等)

硬件载体(音箱、耳机、手表、车机、机器人等)

AI智能助手,往往都会解决某个行业领域的特定业务需求。AI智能助手,往往都存在于一个或多个硬件载体上,与人类进行交互行为。跟买房子、 *** 员工所考虑的标准非常多一样,你在意什么,就给对应维度,对应指标以高权重。

比如:某产品的定位是用来听歌的,【意图理解】各个模块做得非常好,但是由于版权原因,无法播放,这个对用户而言就非常糟糕,因为满足不了听歌的需求。

再比如:某助手的定位是线下生活服务,比如订外卖或者是电影票,这类往往不具备版权垄断特质,但由于业务流程的复杂,有太多叠加查询条件,自然对【意图理解】有很高的权重要求。

再比如:某个玩具/手办具备语音交互功能,用户非常在意玩具/手办的语音交互是否匹配角色气质,故而对这类用户而言,【人格特质】就是高权重。

大维度自定义权重,同理,每个维度上的指标也基于需求自定义。

如何评测语音助手的智能程度(5):指标权重设计

指标的选择和量化

做清单真的是一件非常麻烦和费脑力的事情,这份清单花了笔者太多的时间,有太多的问题值得讨论。

为什么是4个维度,而不是5个或者是3个?

各维度是否穷尽了“智能化”评测的角度?

每个维度的指标是不是做到了穷举?

每个维度的指标是不是平行、独立关系?

每个指标的用词的和定义是否精准无歧义且易于理解?

基于什么依据设置每个维度的重点和加分项?

特别是在保留哪些指标,合并哪些指标之间,笔者做了很多权衡。

哪位同学说了,你遗漏了一个指标:语音识别表现,这个指标,与其说是遗漏,不如说是笔者的选择。

笔者所知道的,目前更好的ASR识别率是97%,且这已经是非常成熟的技术。ASR和TTS在未来属于AI领域水电煤一样的基础服务,就跟选腾讯云还是阿里云一样,花钱选技术买服务就能搞定,差距不会太大,故而不值得纳入评测范畴。

故而这类语音识别的基础表现,就直接归到【交互流畅】维度“服务稳定性”指标上了。

ASR这项技术未来差距一定会被抹平,而如果做到了方言(音轨)转普通话(音轨)然后转文本那就是另外一个话题了,方言转普通话和任何一种语言转普通话才是同一逻辑。那笔者可能会归纳到【意图理解】维度上。

这就是笔者选择指标,以及归类的逻辑。上面的这些问题考虑,笔者已经尽自己所能去做到MECE了。

笔者力求全面,但并非每一个都需要用到,各位同学也可以基于自己的需求,自由添加、删除和修改分类

例如:如果是一个智能耳机或者语义翻译棒,那么“反馈样式丰富性”上,就不必要纳入评测范围了。

但选择本身就是一个难题,这件事情非常考验认知,我举个例子:苹果手机前面几代产品,玻璃屏幕特别不耐摔,这在诺基亚的评测维度里面,是无法出厂的。后来的故事,我们都知道了,这个故事各位细品。

指标的量化标准,这对大家也不是一个难题。拿测试集去验证,最终统计各个指标的表现,然后再横向比较竞品就好。

商业比得是相对位置,而不是绝对指标,即,我不需要考满分,我只要在这个科目上,领先与其他竞品一段距离就好,然后就可以宣称,这是当前市面上“某某指标”表现更好的产品。

产品的上限和下限

除去调研和评测其他AI助手,这份清单的还可以用于立项做产品定位,以及当checklist评价产品表现。

相关文章

从0到1做产品,究竟对PM的要求有什么不同

从0到1做产品,究竟对PM的要求有什么不同

产品设计的从0到1,是产品经理思维的落地。那么从0到1做产品,究竟对PM的要求有什么不同? 前两天和一位刚转过来的同事一起开会,几个人一起共同讨论下一阶段主打产品的价值主张,这位同事说之前在别的部门...

关于表单中的二次确认设计思考

关于表单中的二次确认设计思考

表单常存在于流程之中,用户通过填写表单提交先关信息,从而完成相关的任务,如注册、申请等。本次主要分享在表单提交时,表单提交时的二次确认场景。 为什么会有二次确认? 表单往往汇聚了各种输入项,信息量较...

不知道怎么留住用户?我总结了13个挽留弹窗技巧

不知道怎么留住用户?我总结了13个挽留弹窗技巧

挽留弹窗是防备用户流失、促进商品与内容转化的最后一道‘防地’,能通过提醒用户来增加用户留存的目标。文章分享了13个挽留弹窗的设计能力,使你可以或许基于实际应用场景去展开弹窗设计。 先问你一个小问题:...

“内容+娱乐”,直播电商逐渐清晰化的未来

“内容+娱乐”,直播电商逐渐清晰化的未来

编辑导读:在直播电商炙手可热的同时,品牌商也需要对这种营销方法的恒久代价和将来成长走向展开思考。本文作者从直播电商鼓起的源头出发,对直播电商的近况和将来展开了阐明接头,一起来看看。 直播电商成长到下...

法律科技的节与劫:搞事太贵,无视又废

法律科技的节与劫:搞事太贵,无视又废

编辑导语:在已往的几年中,法令行业经验了庞大的变革,法令人见证了以法令互联网、法令大数据、法令人工智能等技能为代表的法令科技的鼓起。法令科技的快速成长也催生了大量的致力于“技能驱动法令”的创新企业。看...

竞品分析:QQ音乐VS网易云音乐,未来谁更受喜爱?

竞品分析:QQ音乐VS网易云音乐,未来谁更受喜爱?

编辑导读:QQ音乐和网易云音乐是今朝利用最广的音乐软件之一,背靠大厂的它们在各个成果和模块“厮杀”得藕断丝连。本文以两者为例,从四个角度举办深入阐明,但愿对你有辅佐。 QQ音乐、网易云音乐、百度音乐...