摘 要 本文探讨了离散马尔可夫模型的基本原理及在孤立词识别中的应用,并且实现了一个文本有关的孤立词识别系统,其正确识别率达到96.3%。
关键词 隐马尔可夫模型 Mel频率倒谱系数 矢量量化 语音识别
1 引言
目前,隐马尔可夫模型技术是语音信号处理中的主流技术,孤立词识别是语音识别的一个重要分支,可以有效地应用于电话查询、电话银行业务等领域,有很高的实用价值。离散HMM在训练及识别时计算量小,对输入矢量的分布不必作先验假设,因而在对实时性要求较高的场合得到了较多的应用。本文实现的是一个基于离散的HMM的孤立词识别系统。
2 HMM对语音信号的描述及应用
语音信号是通过声源经声道处理产生的,是一种时变的随机信号。我们的语音发音是有限的,所有可以认为声道的状态是有限的。我们将人的声道特性划分为有限个特性平稳的部分或状态,每个状态对声音信号作用产生受该处的声道物理参量决定的短时信号[1]。这样,声道特性的变化用HMM的状态转移概率来描述,某一声道特性产生短时语音信号观察值的概率分布用HMM的状态生成概率表征,则HMM模型就有效地用于描述时变语音信号。
3 系统实现
3.1 特征矢量的形成
语音信号的采样率为8K,采样后的语音信号通过预加重运算、分帧、最后将每帧语音转换成相应的特征矢量,本系统的特征矢量是采用20阶MFCC(mel – frequency cepstral coefficient)系数,即mel倒谱系数,对应于一个短时帧的20阶MFCC系数组成的20维矢量空间的一个特征矢量。
3.2 HMM 结构和状态数的选择
在小词汇表、孤立字词识别时,HMM多采用自左向右无跳转或有跳转模型,本系统采用的是无跳转的自左向右模型结构。在若干的汉字实验中表明,若状态数取6~8是较为合理的选择[3],本系统状态数为6。
3.3 离散HMM的VQ码本形成
采用DHMM ,则需对输入特征矢量进行VQ处理,即用LBG算法对话者的训练,集中所有的训练矢量(帧)训练出VQ码本。这里的关键是VQ码本容量的选值。实验结果表明,当码本容量小于64时,随着码本容量增加,正确识别率仍有提高,当容量大于256时,提高就不明现,故目前常用的容量值取为64、128、256。本系统取为64[4]。
3.4 建立HMM训练
由该VQ码本将训练集中的各个矢量序列量化为观察值符号序列,最后由Baum-Welch算法训练出离散的HMM。当系统中所有话者的VQ码本及离散HMM(记为 )都训练完毕并存储起来之后,该系统的训练任务就完成了。
1)前向、后向概率
前向概率的递推公式为:
调整HMM系统的模型参数,以使得模型产生观察矢量序列的概率不断增加并达到一个极大值点。
3.5 基于DHMM的识别
采用Viterbi算法,系统的原理框图如图1所示:
图1 基于DHMM的孤立词识别系统
4 实验结果及讨论
本系统对14人(2名女生、12名男生)进行训练语音和识别语音采集录制。对“开门”、“上学”、“高数”三个孤立词进行30遍采集,其中20遍用于训练码本,10遍用于测试,通过实验看到,在文本内容不确定时,该系统不是很有效,它只适用于在文本有关的条件下使用。在测试中,三个孤立词识别错误的概率达到3.7%,但若训练数据比较充分,可得到较高的识别率。
本文用实验的方式证明了基于VQ的DHMM可以有效的应用于文本有关的话者识别系统,在训练数据充分时,可以得到很高的识别率。
参考文献
1 Joseph P.Campbell, JR Speaker Recognition: A Tutorial [J]. Procedings of the IEEE, Vol
77,No.9, 1997; 1437-1462
2 汪鹏,刘加.基于离散HMM的非特定人关键词提取语音识别系统. 吉林大学学报(理学版),2003.03期
3 张杰,黄志同.语音识别中隐马尔可夫模型状态数的选取原则及研究.计算机工程与应
用,2000.1
4 杨行峻,迟惠声.语音信号数字处理.北京:电子工业出版社,1995 330~360
5 蔡莲红,黄德智等.现代语音技术基础与应用.北京:清华大学出版社,2003 232~265