九江职业大学信息工程学院 江西九江 332000
摘 要:探讨了发音错误的概念和表现,分析了发音错误检测系统的研究现状。为改进当前研究的不足,介绍了一种基于DNN-HMM的发音错误检测算法,包括系统的框架结构和模型构成。通过实验和研究分析表明,该算法是是合理的、可行的,能够提高系统的综合性能,具有一定的使用和推广价值。
关键词:DNN-HMM;发音错误检测算法;发音网络;语料库
中图分类号:G710 文献标识码:A
引言
近些年来,随着计算机和互联网技术的迅猛发展,使用语音技术构建的计算机辅助语言学习系统,尤其是基于自动语音识别技术的计算机辅助发音训练系统,其应用越来越受到重视。从反馈该系统的使用效果来看,该系统分为发音质量打分和发音错误检测两种类型,前者适用于综合评判学习者的整体发音能力,但针对学习者出现的发音偏误如何纠正,却难以给出指导性反馈[1]。当前,研究者主要关注发音偏误检测,研究该内容的主要目标是,采用高精度的方式检测发音错误,并给出相应的正音反馈,让学者不断纠正,取得更好的学习效果。目前使用的音素级发音偏误检测,尽管能发挥一定作用,但其综合性能仍有待进一步提高,尤其是该系统的正确率有待提升。本文在现有研究成果的基础上,提出一种基于DNN-HMM的发音错误检测算法,以便让系统获得最佳的检测性能。
1.发音错误检测算法研究的现状分析
通过发音错误检测模型的应用,能对学习者的发音错误进行纠正,有利于帮助他们更好学习。目前也有相应的模型得到推广,并发挥一定作用。
1.1发音错误的概念
外国学生在学习汉语时,往往会出现一些常见的、明显的发音错误。导致这些问题发生的主要原因是,发音位置不恰当、发音方法不准确。二语学习者在进行发音训练时,由于母语负迁移的影响,再加上受学习环境,个人的学习方法等多种因素的作用,他们的发音位置往往会倾向于与母语中相似音的发音位置[2]。并且,如果二语中的发音方法在学习者的母语中缺失,学习者往往很难掌握新的发音方法。
1.2发音错误的表现
二语学习者的发音错误是表现在多个方面的,不只是简单的音素插入、删除或者替换,而是与标准发音相比来说,他们在发音中出现的偏离现象。通俗的来说,发音错误往往介于2个音位类型之间,而并不是绝对的音位替换。从发音位置和发音方法不准确的方面入手,发音错误常见表现主要包括高化、低化、前化、后化、长化、短化、央化、圆唇化、展唇化、擦音化、边音化、浊音化、卷舌化[3]。例如,就后化现象来说,常见表现是前鼻音近似后鼻音;就短化现象来说,常见表现是发音者在发音时,p的送气段时长不够;就圆唇化现象来说,常见表现是发音者在发音时,e似乎被发音成了圆唇音;就展唇化现象来说,发音者在发音时,u被发音成了不圆唇音。这些都是学习者在学习过程中,比较常见的错误类型。因此,为帮助二语学习者更好的纠正这些错误,对检测系统进行优化设计是必要的。
1.3发音错误检测算法研究现状
为了在音素层级确定学习者错误发音的位置以及类型,也为改进学习者的发音错误提供更加有效的指导方案,有研究人员使用拓展识别网络,构建了音素级的发音错误检测和诊断模型,并在实际应用中发挥一定作用。事实上,二语学习者在学习过程中,大部分的发音错误也只是与标准发音相比而言,他们会存在少许错误,而并非简单的音素插入、删除和替换。以前采用GMM-HMM声学建模进行检测,能够对学习者的发音错误进行检测和评估,并取得一定成效[4]。然而,就整个计算机辅助发音训练系统的构成来说,音素级发音错误检测仍然是其中的重要组成内容。因此,为更好满足实际需要,对该系统进行优化设计是十分必要的。
1.4本文的研究思路
为改进目前发音错误检测系统的不足,本文尝试设计一种基于DNN-HMM的发音错误检测算法,对原来的系统进行优化设计,从而更好的辅助二语学习者。
2.基于DNN-HMM的发音错误检测算法的系统设计
采用DNN-HMM对发音错误检测系统进行优化设计,提出一种新的设计方案。
2.1发音错误检测算法的框架结构及流程
本研究使用基于DNN-HMM的发音错误检测算法,以达到发音错误自动检测的功能,具体的框架结构如图1所示。
图1 发音错误检测算法的框架结构图
由图1可知,系统框架主要包括发音特征提取器、声学模型、扩展发音网络、发音偏误知识库、决策、诊断信息反馈等。
在该模型的运行过程中,具体的运行流程如下。
系统首先提示学习者要朗读的文本,与此同时,系统根据学习文本产生相应的扩展发音网络,具体的流程如图2所示。
当系统根据学习文本产生相应的扩展发音网络时,将学习者的发音送入发音特征提取器,同时还要提取发音特征。
一旦提取到发音特征之后,接下来进行声学模型匹配。
在完成这些程序的基础上,最后通过对比分析,识别出音素序列和所读句子正确发音序列作出的系统决策。
最后一步是,根据发音偏识知识库,给出学习者发音错误的纠正方法,让学习者根据这些建议和方案,在以后的学习中不断改进,实现提高学习效果,更好掌握发音方法的目的[5]。
2.2DNN-HMM发音错误检测算法的模型
DNN(深度神经网络)拥有较强的信息提取能力和信息分析能力,作为一种网络模型,它主要由语音特征、可见层、隐含层、输出层、深度置信网络等构成。DNN-HMM发音错误检测算法在使用过程中,主要包括无监督预训练和有监督训练两个阶段。
在无监督预训练阶段,主要使用受限Boltzmann机来训练深度置信网络,预训练过程中,由于输入特征是连续变量,为此,前两层使用Gaussian-Bernoulli RBM建模,其他隐含层则使用Bernoulli-Bernoulli RBM建模。预训练好的DBN上面是softmax层,包括单元与三音素状态数一致。
在有监督训练阶段,有必要使用已经训练好的GMM-HMM模型来获得状态类别,同时还要获取各个状态之间的转移概率,这是十分必要的。接下来需要使用该模型对训练数据进行强制对齐,得到语音特征对应的帧级别的状态标注[6]。在这些程序都完成之后,最后一项任务就是,使用反向传播算法,对参数进行优化和改进,以便取得更好的实验效果,为学习者提供更加有益的建议。
2.3扩展发音网络
在实验和研究中,扩展发音网络是不可忽视的组成内容,具体来说,它是对学习者所有可能的发音的一种表示形式,具体结构如图2所示。
图2 扩展发音网络结构图
扩展发音网络结构图包括正确的发音和所有可能出错的发音,并且为了解这些发音变化情况,可以通过查找发音词典的方式获取。本研究中使用的发音词典,是通过标注规则导出的[7]。在这样的词典支持下,系统能自动构建起学习者所学语句的扩展发音网络。以“两块五一斤”为例,具体的扩展发音网络结构如图2所示,该图下方的{}部分,表示的是音素可能的发音错误。
3.基于DNN-HMM的发音错误检测算法的实验流程
对算法进行优化后,为检测系统的性能,评估该算法的效果,对其进行实验研究。
3.1实验语料库
实验过程中,收集大规模的二语语音语料库,为保证数据丰富,资料充足,采用北京语言大学中介语语料库。本次实验研究中,语料取自7位日本女学生的连续语音,每人日常用语大约301句话。同时安排6名语音学专业的研究生,对其进行交叉标注。在出现不一致的情况下,邀请该领域的专家进行判断并标注。
3.2实验语料库特征描述
实验的日常用语是301句,句子总数为1 899句,音素总数是26 431,每句话的平均音素数是14,标注者人数为6,每句话的标注者人数是2人。并且80%的数据用于训练,其余的数据将其用于测试。
此外,为减少错误样本给实验结果带来的不确定性,让模型训练更加充分和有效,只考虑4类主要的发音错误,共计16种。其中,第一类是唇形圆展偏误,包括发圆唇音时唇形有些展化,或发展唇音时嘴唇出现圆化现象。第二类是舌位前后或鼻音前后偏误类型,主要表现为发元音时舌位过于靠前或靠后,前鼻音近似发成后鼻音。第三类是短化偏误类型,主要表现为发送气音时送气时长较短。第四类是舌叶化偏误类型,主要表现为发舌尖后音或舌面前音时,错发成舌叶音。
3.3实验结果的评价指标
实验的检测结果一共分为四种:正确接受(TA)、正确拒绝(TR)、错误接受(FA)和错误拒绝(FR)。在这些数据的基础上,计算出以下三种常见评价指标:
第一、错误接受率(FAR):学习者的错误发音被检测为正确发音的百分比。
第二、错误拒绝率(FRR):学习者的正确发音被检测为错误发音的百分比。
第三、诊断正确率(DA):正确发音被检测为正确,错误发音被检测为错误的百分比。
4.基于DNN-HMM的发音错误检测算法的实验结果
实验完成后,对数据进行分析,评估实验结果。
4.1对比方案
为掌握该算法的效果,实验中运用两种方案进行对比。一种声学模型是常用的声学特征MFCC的检测系统,另一种是基于DNN-HMM的发音错误检测算法。
4.2发音错误趋势检测结果分析
将发音特征(AFs)与MFCC、PLP和fBank三种常用声学特征对发音错误的检测结果进行对比分析。结果表明,基于DNN-HMM的发音错误检测算法拥有更好的检测结果,在错误接受率(FAR)、错误拒绝率(FRR)、诊断正确率(DA)三个评价指标上,都优于常用的声学特征。当发音特征与MFCC特征相结合时,能够取得最佳效果。错误接受率(FAR)为5.%,错误拒绝率(FRR)为30.8%,诊断正确率(DA)为89.8%。因此,该算法是科学的,有价值的。
5.结束语
实验和研究表明,基于DNN-HMM的发音错误检测算法是可行的、有效的,有利于提升系统综合性能。为了使其更好发挥作用,今后可从以下几个方面对该算法进行优化和改进:引入特定的区分性特征或者是专用分类器,用来检测特定发音偏误的类型;加大训练数据规模,更加详细和全面评估该算法的性能,进一步改善声学模型,促进其作用得到更加有效的发挥,模型的功能得到不断优化。
参考文献:
[1]谢雪梅.英语口语测试系统发音错误智能检测技术研究[J].自动化与仪器仪表,2018,(12):58-61.
[2]李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱.一种改进的DNN-HMM的语音识别方法[J].应用声学,2019,38(03):371-377.
[3]高迎明,张劲松,解焱陆.基于DNN的发音偏误趋势检测[J].清华大学学报(自然科学版),2016,56(11):1220-1225.
[4]谭振宇.基于多模态的端到端英语发音错误检测[D].上海:东华大学硕士学位论文,2021:20-22.
[5]安丽丽,吴延年,刘志,刘润生.一种基于检错音网络的发音错误检测新算法[J].电子与信息学报,2012,34(09):2085-2090.
[6]屈乐园,解焱陆,张劲松.基于发音特征的发音偏误趋势检测研究[J].北京大学学报(自然科学版),2017,53(02):239-246.
[7]窦旭霞.基于深层神经网络的英语口语发音错误捕捉方法研究[J].黑龙江工业学院学报(综合版),2020,20(08):124-128.
基金项目:
江西省教育厅科学技术研究项目:《基于深度神经网络的普通话智能评测关键技术研究》,项目编号:GJJ203909。
作者简介:
洪世勇(1976—),女,汉族,湖北黄梅人,本科,九江职业大学信息工程学院副教授,研究方向:计算机应用。