面向大学生心理状态评估的多特征融合语音情感识别[1]

(整期优先)网络出版时间:2023-04-17
/ 2

面向大学生心理状态评估的多特征融合语音情感识别[1]

陆迎迎1 ,王慧2

 南京工业大学浦江学院计算机与通信工程学院  江苏南京  211200

摘要:本文面向大学生心理状态评估的需求,提出了一种基于多特征融合的语音情感识别方法。该方法通过主成分分析方法充分融合语句级的全局特征以及语段级的局部特征,获取对语音信号中情感信息更具判别性的表征。本文方法在柏林语音情感数据库上进行的十折交叉验证实验取得了88.61%的识别率,验证了本文方法的有效性。

关键词:心理状态评估,语音情感识别,特征融合,主成分分析

1 引言

随着社会的快速发展,当前大学生罹患心理疾病比率逐年上升,严重影响大学生的健康成长,已成为社会关注的焦点问题。研究表明,情绪是反应人的心理状态是否健康的重要指标之一[1]。一个心理健康的大学生通常应该是愉快情绪多于负性情绪,乐观开朗,富有朝气,对生活充满希望。由此可见,准确识别和监测大学生的异常情绪状态,有利于预警大学生的异常心理状态甚至心理疾病。人的情绪状态通常可通过语音、表情、动作等行为信号反应出来,其中语音信号是一种日常生活中最为常见的情绪信号。因此,基于语音信号可以准确地分析出人的实时情绪状态。如此,可以设计一系列算法,使机器拥有足够的智能,能够从说话人的语音信号中识别出说话人的情绪状态(如高兴,悲伤,惊吓等)。这便是当前情感计算和人工智能领域作为火热的研究内容之一——语音情感识别[2]。语音情感识别通过检测语音信号中的声学特征参数的变化判断说话人的情绪的起伏,因此能否准确实现语音信号中的情感识别,语音特征的选取是非常重要的一方面。

目前,语音情感识别广泛使用的情感特征主要分为两大类:基于语句的全局统计特征和基于帧的局部时序特征。帧级特征是对样本语句进行分帧,然后逐帧计算特征,而语句级特征实际上是对帧级特征求其统计值而得到的,这些统计值包括最大值、最小值、平均值、标准差、偏度、峰度和分位数等[2]。大量的研究表明,语音情感识别中使用全局特征优于使用局部特征,但是全局特征并不是完美的,它丢失了语音信号的全部的时序信息。文献[2]也指出,全局特征仅仅能够有效地区分高激励情感与低激励情感。因此仅仅使用全局特征而忽略语音信号中的时序特征并不是最优的情感特征。文献[3]提出了分段语音情感识别的方案,实际上即是一种全局特征与局部特征融合的方法。该方法提出了一系列的语音分割方案,然后提取每段语音(局部特征)和整段语音(全局特征)的声学特征并将各局部特征与全局特征串接组成新的情感特征向量用于语音情感识别。

受文献[3]的启发,本文提出了一种基于主成分分析(Principal Component Analysis,PCA)的融合全局特征与局部特征的特征向量构建方法用于语音情感识别。本文所提方法同样将语音信号分割成等长的三段,与文献[3]方法不同的是,我们考虑了语音信号的上下文信息,即仿照语音信号中分帧的方法,我们在语音分割时各语音段之间有重叠部分。最后考虑到串接后的向量维度过大,我们利用主成分分析法进行进一步的特征提取与降维,得到新的情感特征向量用于语音情感识别。

2 特征融合方法

2.1PCA

PCA是一种有效的特征提取和降维的方法,具体来讲,给定训练样本,其中,主成分分析通过求解一个正交投影矩阵提取新的特征:,其中,为样本均值。是通过解如下的优化问题:,其中为样本通过投影后在样本空间中标准基的坐标表示。利用朗格朗日乘数法可以解得求解即是如下特征值的问题的对应于个最大的特征值的解:,其中,为样本的去均值协方差矩阵。

2.2 基于主成分分析的特征融合

本文所提的融合方法主要基于以下三点思想:1.考虑语音信号的局部特征;2.考虑语音信号的上下文信息;3.考虑融合后的冗余信息。对于语音信号的局部特征,参考文献[3]的做法和结论,我们将语音信号以等段长分割成3段,计算各分段语音信号的声学特征表征语音信号的局部特征;考虑到语音信号的上下文信息对于情感的影响,借鉴语音信号处理中分帧的思想,分段过程中以段长为步长对语音信号进行分段,即每两段语音信号之间有段长的重叠部分;以上两点做法构建的特征向量维度明显大于全局特征,且其中肯定包含大量的冗余信息,因此本文引入PCA进行进一步的特征提取与降维,更好的将全局特征和局部特征进行融合。具体来讲,首先,计算整段语音信号的全局特征,记为;其次,将语音信号分割为又交叠的3段,计算各分段语音信号的局部特征,记为;再次,将局部特征依次叠加到后,组成该语音信号的情感特征:;最后,利用PCA进行特征提取。

3 实验

3.1 情感语音库

我们采用柏林情感库[4]进行语音情感识别验证实验。该数据库包括了5名男性和5名女性的情感语句,共分为七种情感:悲伤、愤怒、害怕、厌恶、高兴、厌烦、中性,每种情感有10句录音脚本,每条语句被录制4次,剔除无效样本,最终得到共计535条样本。

3.2 情感特征的选取

本文实验选用了文献[5]中公布的INTERSPEECH09情感特征集,包括16个声学特征参数及其一阶差分。此外,计算这32个参数的12个函数,共计384维特征,可以采用openSMILE软件[6]提取。

3.3 分类器

实验选用支持向量机(Support Vector Machine,SVM)作为分类器。SVM通过核函数将原始的线性不可分的特征集映射到一个高维的特征空间里实现特征集的线性可分。

3.4 实验结果与分析

使用全局特征、全局特征与局部特征融合(文献[3]的方法,记为全局+局部1)和本文所提方法(不使用PCA进行降维,记为全局+局部2;使用PCA进行降维,记为全局+局部2+PCA)分别进行了实验。为了保证实验结果的准确及可靠性,采用十折交叉验证的方案,即将样本平均分为十份,每次使用九份样本训练,一份样本测试,最后计算十次实验的平均识别率作为最终识别结果。

表1给出了使用各种特征的实验结果,可以看到文献[3]和本文所提方法的识别率均明显高于仅仅使用全局特征,由此可以看出局部特征对于语音信号的情感信息是有相当大的区分作用的;而相比文献[3]的方法,本文的方法的识别率(使用PCA和不使用PCA)有了一定的提升,这验证了上下文信息对于语音情感识别也是有一定的影响的;使用PCA对融合后的特征进行进一步的特征提取与降维,识别率能够有一定地提升,可以看出融合后的特征确实存在一定的冗余信息,因此对于融合后的特征进行进一步的处理(特征选择或特征提取)是很有必要的。

表1 实验结果

全局特征

全局+局部1

全局+局部2

全局+局部2+PCA

81.74%

85.22%

87.45%

88.61%

4 小结

本文首先简要的介绍了语音情感识别中常用的两类特征——基于语句的全局特征和基于帧的局部特征,接着给出了一种基于PCA的融合全局特征和局部特征的方法用于语音情感识别,最后利用SVM在柏林情感库下进行了仿真实验。实验结果表明,本文的方法能够较好地融合全局特征和局部特征,基于本文所提方法构建的情感特征能够较好的对情感进行分类,性能优于仅使用全局特征和文献[5]中的融合特征方法。

参考文献

[1]France D J, Shiavi R G, Silverman S, et al. Acoustical properties of speech as indicators of depression and suicidal risk [J]. IEEE Transactions on Biomedical Engineering, 2000, 47(7): 829-837.

[2]El Ayadi M, Kamel M S, Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572-587.

[3] Schuller B, Rigoll G. Timing levels in segment-based speech emotion recognition[C]// Proc. of INTERSPEECH, ICSA, 2006.

[4] Burkhardt F, Paeschke A, Rolfes M, et al. A database of German emotional speech[C]//Proc. of INTERSPEECH, ICSA, 2005.

[5] Schuller B, Steidl S, Batliner A. The INTERSPEECH 2009 emotion challenge[C]//Proc. of INTERSPEECH, ICSA, 2009

[6] Eyben F, Wöllmer M, Schuller B. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//Proc. of ACM Multimedia, 2010.


[1]本文受南京工业大学浦江学院自然科学研究项目“基于语音信号的大学生情绪分析研究”(njpj2021-2-06)资助。、