佳木斯大学 071000
摘要
随着信息时代的到来,智能终端的快速扩张在日常生活中,触摸屏和键盘或鼠标机器类型的传统之间的相互作用和智能终端的信息交互,语音交互的创新技术可以满足需求的快速信息交互与神经网络由于其非线性映射和泛化,和容错特性的结合,两个很好的实时,的基础上精度高的特点,本文设计了一种基于神经网络的语音识别系统,该系统的语音信号首先取样过滤器,和加权信号帧,端点检测的操作,其次,LPCC, MFCC和改进预处理的MFCC值数据提取。最后,通过训练建立神经网络模型,利用训练后的模型完成语音特征识别。
关键词:神经网络;语音信号识别;系统构建
目录
目录
第一章 绪论
第二章 语音识别和Matlab技术介绍
2. 1语音识别的简介
2. 2语音识别的任务分类
2. 2. 1根据识别的对象不同
2. 2. 2根据针对的发音人分类
2. 3语音识别原理
第三章 基于改进算法的语音识别系统构建
3.1语音样本的建立
3.2语音信号特征参数的提取
3.3神经网络模型的建立
第四章 总结
参考文献
第一章 绪论
目前,智能终端与用户之间的人机交互仍然是触摸屏、键盘或鼠标。传统的人机交互已不能满足信息时代快速信息交互的需要。创新的语音交互技术不仅提高了人机交互的效率,而且属于人类使用的交互方式。语音交互的核心技术是语音识别技术。语音识别技术的优劣直接决定了语音交互的可用性。在此基础上,研究了神经网络在语音识别中的应用。
第二章 语音识别和Matlab技术介绍
2. 1语音识别的简介
自上世纪末以来,由于电子信息技术的飞速发展,语音识别技术越来越成熟并被人们广泛使用。语音识别将进入各行各业,成为家电、移动电子等电子产品不可缺少的一部分。与此同时,它将扩展到其他行业,如国内服务和医疗保健。语音识别技术运用了多种物理知识:人工智能、信号分析、模式阅读、概率信息知识、语音和听觉原理。能够使用语音与人交流,并让机器明白他们在说什么,这听起来像是一个奇妙的想法,而语音识别将有助于实现这一点。语音识别技术的工作原理是,机器能够准确地解释语音信号,并将其转换成人们能够理解的文本信息。[4]语音识别有三个步骤:提取特征,然后进行模式匹配,最后输出结果。特征提取和模型训练技术含量最高,模式匹配应遵循一定的技术标准。语音识别的实现过程如下:
图2.1 语音识别的实现
2. 2语音识别的任务分类
2. 2. 1根据识别的对象不同
根据对不同类型语音的识别,一般可分为孤立词(词)识别、连续语音识别、会话语音识别和连接词识别。其中,孤立词识别用于识别已知词,连续词识别可以识别任何长、连续的语音信号,包括一个句子或多个句子。如果要识别连续语音,还需要检测关键字,但不需要逐词检测。你只需要检查已知的单词,看看它们在句子中的位置。
2. 2. 2根据针对的发音人分类
根据语言和语音识别的起源,它可以分为两类,即人类和非特异性识别技术和特定的人识别技术识别一个或多个单独的声音,而非特异性识别可以使任何人的语音识别更实用,当然,但这显然是难以实现。从上面的介绍可以看出,一个人的演讲很容易被识别,成功率也很高。识别方法是对语音输入系统进行识别,并在训练后对其建模。建模也严格以词汇中的单词、单词和句子为基础。在建模之后,系统通常只能识别那个人的声音。如果其他人的声音也被识别出来,他们只能根据相关的过程进行再训练和建模。
2. 3语音识别原理
标准的语音识别系统原理图如图2.2所示:
图2.2 语音识别原理图
首先,语音识别被转换成电信号通过麦克风和馈入识别系统。经过端点检测、抗混叠失真滤波、预加权等前端处理,提取特征参数。除过零率、短时平均能量和倒谱外,还讨论了线性预测、自相关函数和共振峰的特征。在提取特征参数的前提下,将这些参数形成新的模式,然后对计算机数据库中的参考模式进行比较,找到最优匹配。根据相应的识别规则得到相应的识别结果。参考模式是在系统设计过程中通过语音训练得到的,并长期存储在系统中。所谓训练就是将一些已知的语音信号输入到系统中,提取其中包含的主要特征,形成参考模型。参考模板的质量、语音模型的选择以及语音信号中特征向量的选择都影响着语音匹配的结果,限制了识别的准确性。该语音识别系统基于简单的模板匹配,能够识别一些小词和孤立词。系统的工作原理和结构如2.3所示:
图2.3 语音识别系统的原理框图
要设计一个语音系统,通常要创建一个语音库,其中一些被用作训练集并制成模板。其余部分作为测试集,测试识别率并进行统计。训练集和测试集都需要对采集到的语音信号进行预处理,然后提取出相应的特征进行训练或识别。
第三章 基于改进算法的语音识别系统构建
3.1语音样本的建立
仿真实验主要是以电脑(ThinkPad, P51s (OECD):i7-7500u 8G 500G)为核心的。在采集语音信号时,本文所采用的工具选择WINDOWS自带的录音机。系统选择最常用的win10,并利用MATLAB 14. 0软件作为仿真平台。同时应有必要的配置,包括声卡(华硕Xonar D-Kara)、麦克风(ZJ053MR颈挂颈夹)及Apowersoft StreamingAudio Recorder(录音精灵)v4. 2. 0作为声音的输入和输出设备。
3.2语音信号特征参数的提取
在语音识别过程中,提取特征参数是最为核心的环节,对识别效果有极大的影响。语音信号可以利用多种方式来提取特征,但在提取前,都要对语音进行压缩,特征被提取后,还要进行参数的矢量化。而在实践操作中,LPC和倒谱系数是描述特征最常见的方法,利用公式来计算,可以得出短时语音段。
3.3神经网络模型的建立
在仿真BP神经网络系统前,以下几个问题需要考虑。
(1)统计出神经网络的层数。学术界研究结果表明,如果有较多的神经元存在于隐层中,而且激活函数为S型函数时,想要对所有的函数进行逼近,只要采用三层网络构造就可以完成,这样也能取得最好的识别结果。从这种设计思路出发,本文在对神经网络的设计上,将其结构分为三层。
(2)确定神经元数量。隐含层神经元的数量对于语音识别系统的性能影响极大,所以若是在设计时,神经元数目不够,神经网络的计算精度就不够;但若是有很多神经元,超过需求,那么计算起来就很费力,也影响到了语音识别的准确性。
第四章 总结
在世界范围内,语音识别系统的研究已经转向神经网络,这将是未来很长一段时间内的研究热点。本文以语音识别系统的研究为核心,对语音识别的相关理论和方法进行了全面的研究。在此基础上,对传统的识别方法提出了改进建议。但是,仍有一些未解决的问题,需要在未来进一步探索。在未来的进一步发展是难以实现大规模的应用算法,简化了模型结构,基于神经网络的语音识别系统识别将进一步增加,逐渐成为主流市场,必然会在每一个主要领域发挥重要作用。
参考文献
[1]张仕良. 基于深度神经网络的语音识别模型研究[D].中国科学技术大学,2017.
[2]王燕南. 基于深度学习的说话人无关单通道语音分离[D].中国科学技术大学,2017.
[3]朱锡祥. 基于一维卷积神经网络的车载语音识别技术研究[D].安徽大学,2017.
[4]石颖. 基于循环神经网络的语音识别方案的优化与设计[D].北京交通大学,2017.
[5]梅俊杰. 基于卷积神经网络的语音识别研究[D].北京交通大学,2017.
[6]姚增伟,刘炜煌,王梓豪,刘雅倩,潘家辉. 基于卷积神经网络和长短时记忆神经网络的非特定人语音情感识别算法[J]. 新型工业化,2018,8(02):68-74.
[7]曾润华,张树群. 改进卷积神经网络的语音情感识别方法[J]. 应用科学学报,2018,36(05):837-844.
[8]张文宇,刘畅. 卷积神经网络算法在语音识别中的应用[J]. 信息技术,2018,42(10):147-152.
[9]卢官明,袁亮,杨文娟,闫静杰,李海波. 基于长短期记忆和卷积神经网络的语音情感识别[J]. 南京邮电大学学报(自然科学版),2018,38(05):63-69.
[10]朱锡祥,刘凤山,张超,吕钊,吴小培. 基于一维卷积神经网络的车载语音识别研究[J]. 微电子学与计算机,2017,34(11):21-25.
作者简介:
叶少棠 (出生 2003 年 1 月 23日) 性别:男 民族:汉 籍贯(省市) :重庆市 学历:大学本科 现工作或学习单位及职称:佳木斯大学
1