语音交互:聊聊语音识别-ASR

访客3年前黑客工具511

编辑导语:语音识别已经走进了各人的日常糊口中,我们的手机、汽车、智能音箱均能对我们的语音举办识别。那么什么是语音识别呢?它又能应用于那边?该如何对其举办测试与运营维护呢?本文作者为我们举办了具体地先容。

语音交互:聊聊语音识别-ASR

此刻人机语音交互已经成为我们日常糊口的一部门,语音交互更自然,大大的提高了效率。上一篇文章我们聊了语音叫醒,这次我们继承聊聊语音交互的要害步调之一——语音识别。

一、什么是语音识别

文字绝对算是人类最伟大的发现之一,正是因为有了文字,人类的文明成就才得以延续。

可是文字只是记录 *** ,人类一直都是依靠声音举办交换。所以人脑是可以直接处理惩罚音频信息的,就像你每次听到别人和你措辞的时候,你就会很自然地领略,不消先把内容转酿成文字再领略。

而呆板今朝只能做到先把音频转酿成文字,再凭据字面意思领略。

微信可能输入法的语音转文字相信各人都用过,这就是语音识此外典范应用,就是把我们说的音频转换成文字内容。

语音识别技能(Automatic Speech Recognition)是一种将人的语音转换为文本的技能。

观念领略起来很简朴,但整个进程还长短常巨大的。正是由于巨大,对算力的耗损较量大,一般我们都将语音识别模子放在云端去处理惩罚。

这也就是我们常见的,不联网无法利用的原因,虽然也有在当地识此外案列,像输入法就有当地语音识此外包。

二、语音识此外应用

语音识此外应用很是遍及,常见的有语音交互、语音输入。跟着技能的逐渐成熟和5G的普及,将来的应用范畴只会更大。

语音识别技能的应用往往凭据应用场景举办分别,会有私人场景、车载场景、儿童场景、家庭场景等,差异场景的产物形态会有所差异,可是底层的技能都是一样的。

1. 私人场景

私人场景常见的是手机助手、语音输入法等,主要依赖于我们常用的设备—手机。

假如你的手机内置手机助手,你可以利便快捷的实现设定闹钟,打开应用等,大大的提高了效率。语音输入法也有很是明明的优势,相较于键盘输入,提高了输入的效率,每分钟可以输入300字阁下。

2. 车载场景

车载场景的语音助手是将来的趋势,此刻国产电动车根基上都有语音助手,可以高效的实现对车内一些设施的节制,好比调低座椅、打开空调、播放音乐等。

开车是需要高度会合留意力的工作,眼睛和手会被占用,这个时候利用语音交互往往会有更好的结果。

3. 儿童场景

语音识别在儿童场景的应用也许多,因为儿童对付新鲜事物的接管本领很高,可以或许接管此刻技能的不成熟。常见的儿童进修软件中的跟读成果,识别孩子发音是否精确,这就应用的是语音识别本领。

尚有一些可以语音交互的玩具,也有ASR识此外部门。

4. 家庭场景

家庭场景最常见的就是智能音箱和智能电视了,我们通过智能音箱,可以语音节制家内里的所有电器的开关和状态;通过语音节制电视切换节目,搜索我们想要寓目标内容。

三、语音识别详解

整个从语音识此外进程,先从当地获取音频,然后传到云端,最后识别出文本,就是一个声学信号转换成文本信息的进程。整个识此外进程如下图:

语音交互:聊聊语音识别-ASR

1. VAD技能

在开始语音识别之前,有时需要把首尾端的静音切除,低落对后续步调造成滋扰,这个切除静音的炒作一般称为VAD。

这个步调一般是在当地完成的,这部门需要用到信号处理惩罚的一些技能。

VAD(Voice Activity Detection):也叫语音激活检测,可能静音抑制。其目标是检测当前语音信号中是否包括话音信号存在,即对输入信号举办判定,将话音信号与各类配景噪声信号区分出来,别离对两种信号回收差异的处理惩罚要领。

算法方面,VAD算法主要用了2-3个模子来对语音建模,而且分成噪声类、语音类尚有静音类。今朝大大都照旧基于信噪比的算法,也有一些基于深度进修(DNN)的模子。

一般在产物设计的时候,会牢靠一个VAD截断的时间,但面临差异的应用场景,大概会要求这个时间是可以自界说的,主要是用来节制多长时间没有声音举办截断。

好比小孩子措辞会较量慢,经常会留尾音,那么我们就需要针对儿童场景,配置较量长的VAD截断时间;而成人就可以相对短一点,一般会配置在400ms-1000ms之间。

2. 当地上传(压缩)

人的声音信息首先要颠末麦克风整列收集和处理惩罚,然后再把处理惩罚好的音频文件传到云端,整个语音识别模子才开始事情。

相关文章

能打的产品经理,如何保证项目如期上线

能打的产品经理,如何保证项目如期上线

有一些产品经理,不管发生什么问题,总能够按时上线版本,偶尔一个插入任务甚至能安排隔日发布,这种产品经理是有着超高能力水准的。这篇文章带来一套方法,希望能让你也能成为需求如期上线的产品经理。 在某一个...

中台实质:数字化转型的深入变革

中台实质:数字化转型的深入变革

本质上来讲,中台就是和互联网思维一样是一种企业转型思维和要领论,具备共享、机动、复用僻静台化等要害特点。 01 当我们在谈论中台的时候,到底在谈论什么? 在互联网行业,从阿里提出中台今后,很多公司慢...

想提升公众号粉丝活跃度?“精准营销”了解一下

想提升公众号粉丝活跃度?“精准营销”了解一下

公家号运营者最头疼的问题就是粉丝活泼度低、推文成了掉粉“利器”,粉丝的销售转化微乎其微;面临这一系列问题,精准人群分构成了办理问题的最佳方案,那么详细要怎么做呢?笔者将为各人具体解答。 公家号流量红...

产品体验报告 | 微信读书,社交与阅读的可持续发展

产品体验报告 | 微信读书,社交与阅读的可持续发展

跟着阅读渠道主流化和阅读时间碎片化,数字阅读市场局限逐年上升。相较于其他念书软件基于阅读乐趣而发生社交,微信念书则依托于微信干系链的社交干系,再延伸至阅读,吸引了一大批用户。本文旨在通过对微信念书举办...

2020年,为什么建议你尝试做B端新媒体运营?

2020年,为什么建议你尝试做B端新媒体运营?

近几年来,B端市场吸引了巨头和大量成本入场,而B端新媒体运营也蕴含着不小的成长潜力,颇受存眷。而笔者就来聊聊入行做B端新媒体运营的几点观点。 跟着互联网流量红利朋分殆尽,C端市场迎来了沉默沉静期,裂...

如何利用KANO模型,判断需求的属性归类?

如何利用KANO模型,判断需求的属性归类?

编辑导读:产物司理事情中,面临多方需求,该如何对需求的优先级举办排序?本文作者从自身事情实践出发,分享了操作模子KANO模子举办需求属性归类的要领,并对进程中需要留意的问题展开了梳理阐明,与各人分享。...