乐竞体育APP

乐竞体育:华镇电子嵌入式语音识别系统Wanson ASR Chip10

  • 产品详情

  Wanson ASR Chip1.0 是专门为微小芯片上而开发的嵌入式语音识别引擎。 随着语音识别系统的识别准确率和识别速度的提高以及在特定环境下对硬件条件的要求越来越低,将基于微小芯片的语音识别技术嵌入消费类电子产品中越来越成为现实。随着消费类电子产品性能变得越来越混杂功能越来越强劲,语音识 别科技就可以使消费者可以更方便、更直观地使用这些产品。并且,在使用这些 产品的时候不会伴随着一系列的按键和提示音,而是实现消费者和产品间的直接对话。嵌入式语音识别在消费类电子产品市场应用上大约分成三类:手提设备,游戏/ 玩具以及汽车。手提设备中,智能电话Smartphone的发展驱动着这类市场的蓬 勃兴起。在Smartphone中,语音拨号已经成为一个普遍功能,几乎每一家手机 芯片供应商都想要提供内嵌语音拨号功能的手机。但是直到最近,这些嵌入式语 音识别都只能限于话者相关,小词汇量的。

  我们已经开发出能安装在智能手机Smartphone上的连续语音及短语语音识别软 件,可以为用户提供语音拨号和声音命令控制等功能。同时,我们正在开发基于 更小封装、微小芯片上的话者独立,可变词汇量的语音识别软件。这些软件可以 作用在智能手机Smartphone,CDMA/2.5G/3.5G 芯片,智能玩具以及汽车的导航 系统上。我们开发的嵌入式语音识别软件使用了改进的Hidden Markov Model(HMM)声学模型,同时基于移动设备上的有限CPU 资源和存储空间,我们开发出 了快速的语音参数提取方法和高效识别搜索算法。该语音识别软件兼顾到识别速 度和识别准确率的平衡,能运用于一系列从语音命令控制,语音人名拨号到语音 翻译,语言学习的实际应用中。 将嵌入式语音识别软件应用到消费类电子产品中并投入市场有两个主导因素:花 费成本和投入市场的时间。我们所开发的语音识别软件(基于Smartphone 的以 及基于微小芯片上的)提供了优异的性能,跟多家芯片和手机制造商接口的标准 界面以及一系列开发工具兼容,使得我们的OEM 伙伴能快速地推出他们的新产品。

  Wanson ASR Chip1.0 是一套功能强大,具有全部开发工具的语音识别系统,使 开发者可以方便而快速地开发出一系列不同的应用。Wanson ASR Chip1.0 提供 的特性包括有:

  该语音识别软件附带了一系图形化界面的软件开发包,使厂商可以很快在现有 的产品上增加语音识别功能;

  上图示为Wanson ASR Chip1.0 的系统框图。如图所示,由系统所构筑的语音识 别应用程序和四部分相结合。对语音识别而言,将接收到的语音文件包通过录音 接口传给语音识别引擎。该引擎在执行语音识别任务时,根据系统指令从资源文 件中调用所需要的语言模型,声学模型,字典等资源。当语音识别任务完成后, 系统将识别出来的结果放在系统队列中,供下级设备读取。

  Wanson ASR Chip1.0 是模块式的系统体系,单处理器处理所有模块程序的运行。 下图示出系统在运行时主要硬件元素的工作流程。

  前端模块主要包括语音信号处理和参数提取,将原始的语音文件转换成语音识别需要的语音参数序列。在某些特定的情况下,前端模块还需要进行噪声处理和声 道归一化处理以提高系统的鲁棒性(Robust ability)。前端语音信号处理和参数 提取需要大量的数值计算,CPU 的运算能力以及RAM 的速度会对响应速度有很大影响。

  后端模块是语音识别的核心部分,完成从语音到文本的转换。该部分包括:语法生成、调入声学和语言模型以及发音字典、路径搜索等。该部分需要大量的概率和数值计算,并且需要多次访问和调用声学模型和发音字典等资源文件。一般情 况下,声学模型和字典等资源将预先调入ROM 和闪存(Flash Memory)。 影响语音识别响应速度的因素主要有:CPU 性能,Memory 的存取速度以及CPU 是否过载等等。对于CPU 的运算能力,一般而言,在不同的系统配置下,需要 做到实时识别并且不影响其他任务执行所需要的最低配置为6MIPS (取决于识 别词汇量大小和硬件配置等)。

  语音合成部分完成从文本到音的转换,主要是将语音识别输出的文本转换成语音播报给用户。在某些特定的情况下,例如在开车的时候,用户可以方便的听到识别结果而不需要去看。

  对于嵌入式的语音识别系统,RAM 和ROM 的大小需求是由应用系统的功能设 计所决定的。同时,不同的RAM 和ROM 大小又影响着识别的准确率和响应速 度。一般情况下,较大的RAM 和ROM 存储空间和快速的RAM和ROM 速度更 有利于识别速度和识别准确率的提高。更多的情况下,在实际应用中,考虑到性 能价格比,一般会选择适当的RAM 和ROM 尺寸以达到速度和识别率的平衡。 如下表所示:

  Wanson ASR Chip1.0 嵌入式语音识别系统提供了一系列独到的功能和特性,以 适应不同的开发厂商的需求。

  独特的口音的处理技术用户不用说播音员般标准的普通话,全国各地带有口音的用户亦可以毫无问题得顺畅使用该系统;

  高识别率在一定的硬件环境下,一次性载入词汇量达到1000 中文词条时,平均准确率达 到95%以上,并且实时识别;

  动态词汇库适用在不同的硬件条件下,词汇集合可以从零到1000 词条,采用系统软件开发 包,可以方便创建新的词汇以适用于不同的应用(例如:命令控制集,地址簿, 人名等等)。



上一篇:3天写出程序到4亿用户:听讯飞输入法设计者讲语音识别未来

下一篇:格力电器:格力智能家居在智能家居系统、智能家居网络、智能语音交互、智能场景方案、