- 产品特性
目前,基于YQ5969的语音识别芯片原理实现的语音识别与控制系统,
具有体积小、成本低、便于携带等优点。
该语音识别芯片原理基于以下几个基本模块所构成:
语音识别芯片原理
该语音识别芯片原理模块的主要任务是从输入语音信号中提取声学特征,
对环境噪声、通话信道、说话人声道特征等进行归一化和补偿,
尽量降低参数分量之间的耦合,对数据进行压缩,得到声学建模和匹配的特征。
语音识别芯片原理发音词典包含系统所能处理的词汇集及其音素序列,
通过训练好的模型对语音进行解码,获得最可能的词序列,
发音词典实际提供了声学模型建模单元与语言模型建模单元间的关联映射。
该语音识别芯片原理是使用隐马尔可夫模型来刻画一个音素内部子状态变化,
来解决特征序列到多个语音基本单元之间对应关系的问题。而在训练的时候,
我们需要使用
Baum-Welch 算法[23]
学习隐马尔可夫模型参数,
进行似然估计 (Maximum
Likelihood Estimation, MLE)。
Baum-Welch 算法是EM
(Expectation-Maximization) 算法的一种特例,
利用前后项概率信息迭地依次进行计算条件期望的
E 步骤和条件期望的
M 步骤。
YQ5969语音识别芯片原理主要是刻画人类语言表达的方式习惯,
着重描述了词与词在排列结构上的内在联系。在语音识别解码的过程中,
在词内转移参发声词典、词间转移参语言模型,好的语言模型不仅能够提高解码效率,
还能在一定程度上提高识别率。
该语音识别芯片原理的语言模型分为规则模型和统计模型两类,
统计语言模型用概率统计的方法来刻画语言单位内在的统计规律,
其设计简单实用而且取得了很好的效果,
已经被广泛用于语音识别、机器翻译、情感识别等领域。
当前词的概率只与前N-1 个词相关。于是词序列 w1, . .
. , wm 的概率
P(w1, . . . , wm)
为了得到公式中的每一个词在给定上文下的概率,
语音识别芯片原理需要一定数量的该语言文本来估算。
可以直接使用包含上文的词对在全部上文词对中的比例来计算该概率,即
对于在文本中未出现的词对,我们需要使用平滑方法来进行近似,
如
Good-Turing估计或
Kneser-Ney 平滑等。
语音识别芯片原理解码器是语音识别系统的核心之一,
利用先进的加权有限状态转换(WFST)技术,将声学模型、发音词典、
语言模型进行有效整合,并以最有效的方式,对输入的语音信号特征进行搜索和匹配,
到统计意义下最匹配的词串作为识别结果。
语音识别芯片原理特征的稳定性、模型的精度和覆盖能力、解码的效率和质量,
是影响语音识别系统的核心技术。
人麦信息团队,对这些领域有超过20年的研究经验和技术积累,
具有国际{yl}的核心技术和整合能力,是语音识别芯片原理的核心竞争力所在。
人麦信息的语音识别技术有如下几大特色:
语音识别芯片原理基于大规模训练数据,
拥有上千小时的语音数据和TB量级文本数据,作为声学和语言建模语料。
语音识别芯片原理成熟的特征处理、声学和语言建模方法,
包括抗噪特征抽取,最小音素错误(MPE/fMPE)区分度训练,说话人自适应训练(SAT),
基于深层经网络(DNN)的声学建模方法,基于Map-Reduce的海量数据统计语言建模方法的深度整合,
使语音识别芯片原理的模型精度达到国际{lx1}水平。
语音识别芯片原理深度优化的快速解码算法,
采用基于WFST动静态结合的Viterbi解码技术,
针对大规模连续语音的识别任务,在词汇量达到数十万、
语言模型达到数十GB量级的巨大搜索空间到对应说话语音的句子匹配,
在准确性和实时性上都达到国际{lx1}水平。
人麦信息的语音识别芯片原理为了实现好的识别效果,
采用了复杂度非常高的算法,也使用了大量的资源文件。
因此人麦信息的语音识别芯片原理的性能指标是受软件和硬件多方面因素影响的。
下面将对影响语音识别芯片原理性能的因素进行一些分析和说明。
1.测试 CPU 运算能力:因为语音识别芯片原理内部进行了大量的逻辑和数学运算,
运行语音识别的 CPU 运算能力(简单可以用 CPU 的主频来表示)
会极大的影响识别系统的性能表现。CPU
主频越高识别系统的性能越高;
2.内存:语音识别芯片原理在的过程中,使用了大量的内存进行中间数据的存贮,
并且内存中的数据进行了非常频繁的操作和计算,因此内存的可用大小和存取速度
对识别系统的性能也有显著的影响,如果内存容量低于要求的大小,
语音识别芯片原理不能表现出性能;
内存的存取速度越快,识别系统的性能也会越好。
http:///
肖先生 微信:dao91123