乐竞体育APP

乐竞体育:壹鸽AI技术小贴士-语音识别前端处理介绍

  • 产品详情

  万物互联时代,语音识别被视为人机交互的新入口,人与机器人之间通过自然语言交互已成为可能,本周壹鸽科技站将在技术的角度上,为大家介绍语音识别前端处理。

  前端语音处理,利用信号处理的方法对说话人的语音进行检测、降噪等预处理,以便得到最适合语音识别引擎处理的语音,其主要功能包括端点检测VAD、流式语音智能断句和噪音消除。

  语音端点检测是对输入的音频流进行分析,确定客户说话的起点和终止点的处理过程。一旦检测到客户开始说话,语音开始流向识别引擎,直到检测到客户说话结束。这种方式能够使得识别引擎在客户说话的同时开始进行识别,做到最大限度的即时处理。

  1、基于语音信号的特征,用能量,过零率,熵(entropy),音高(pitch)等参数以及它们的衍生参数,来判断信号流中的语音/非语音信号。

  2、在信号流中检测到语音信号后,判断此处是否是语句的开始或结束点。在商用语音系统中,由于信号多变的背景和自然对话模式而更容易使得句中有停顿(非语音),特别是在爆发声母前总会有无声间隙。因此,这种开始/结束的判定尤为重要。

  减少识别器的数据处理量。可以大量减少信号传输量及识别器的运算负载,对于语音对话的实时识别有重要作用。

  拒绝非语音的信号。对非语音信号的识别不仅是一种资源浪费,而且有可能改变对话的状态,造成对用户的困扰。

  在需要打断(barge-in)功能的系统中,语音的起始点是必须的。在端点检测找到语音的起始点时,系统将停止提示音的播放。完成打断功能。

  而打断功能又直接依赖端点检测,端点检测对打断功能的影响发生在判断语音/非语音的过程出现错误时,表现在过于敏感的端点检测产生的语音信号的误警将产生错误的打断。

  例如,提示音被很强的背景噪音或其它人的讲话打断,是因为端点检测错误的将这些信号作为有效语音信号造成的。反之,如果端点检测漏过了事实上的语音部分,而没有检测到语音,系统会表现出没有反应。

  在用户讲话时还在播放提示音,端点检测对识别系统的识别效果影响也很大。语音信号的起始点和结束点判断有误,有可能影响整个信号的完整性。在语句的开头或结尾漏掉一些有用的数据。当这种情况发生时,很可能对识别的准确度有特别大影响,不完全的信息会使识别率降低。

  默认的系统相关参数有很好的适用性,而在有需要的现实环境中,可以通过系统调节来适应通话环境,改善端点检测的效果。

  对信道有自适应能力:在对话开始后能很快适应当前的信道特征,使得端点检测的准确度有进一步提高。

  独特的识别服务器的反馈和非语音持续时间双重结束点判定功能,有效的改善了语音结束点的判定,特别是对较长的语句效果更加突出。

  基于可靠的端点检测技术和智能反馈,智能打断功能不仅应该在一般的环境下工作出色,而且能有效的拒绝环境噪声,非语音的高强噪声(呼吸,关门等)环境中其它人的声音。

  现有的语音处理方案是先用语音活动检测模块对语音进行断句,再将断开的语音进行自动语音识别。但是,在电话语音交互场景中,VAD面临着两个难题:

  漏检反应的是原本是语音但是没有检测出来,而虚检率反应的是不是语音信号而被检测成语音信号的概率。相对而言漏检是不可接受的,而虚检可以通过后端的ASR和NLP算法进一步过滤,但是虚检会带来系统资源利用率上升,以及造成响应不及时。

  另外就是对说话人的要求较高,中间不能有停顿,如果句间停顿时长设置的太短,容易造成截断;句间停顿时长设置太长,又会造成响应不及时。

  流式语音智能断句模块是主要由语音识别模块、信息流聚合模块、动态窗口设定模块、断句识别模块构成。其中:信息流聚合模块用于对带有时序的语音识别结果进行优化处理,并整合经过优化处理后的带有时序的语音识别结果,以形成语音识别结果序列;动态窗口设定模块用于从语音识别结果序列中选择指定范围的文本,进而将指定范围的文本用于断句分析;



上一篇:格力电器:格力智能家居在智能家居系统、智能家居网络、智能语音交互、智能场景方案、

下一篇:招聘应聘都看这里——科技部“国聘行动”找企业创业园3企业招人