(湖南涉外经济学院人文艺术学院 湖南长沙 410205)
摘要:AI语音合成技术的发展已经越来越成熟,尤其在网络音频平台中,为用户提供了极大的便利,但是由于网络音频平台是一个相对封闭的环境,并且在不同的时间和不同的空间中,人们对语音合成的需求也不一样,因此会造成不同的语音合成效果。为了给用户提供更加优质、便捷、流畅的网络音频服务,本文对网络音频平台中的 AI语音合成技术进行了研究。随着移动互联网和智能设备的发展,人们获取信息的途径逐渐增多,网络音频平台已经成为人们日常生活中不可缺少的一部分,特别是在智能音箱等智能设备普及后,网络音频平台得到了前所未有的发展。
关键词:AI;语音合成;网络音频
语音合成(Speech Synthesis)是人工智能领域中的一个重要分支,在各个行业都有着广泛的应用。自20世纪80年代以来,随着计算机和信息技术的迅速发展,语音合成技术也随之快速发展起来。如今,基于深度学习和神经网络的语音合成技术取得了巨大成功,人们可以通过语音合成技术将文字、图像、视频等不同类型的信息内容转换为逼真且可理解的文本,也可以通过语音合成技术将普通用户发出的声音转换为可被人理解并进行互动的文本。
一、AI语音合成技术在网络音频中的应用
对于网络音频中的主播来说,其最大的特点是声音,不同主播之间也会存在较大的语速差异,因此如何让主播的声音变得更有“磁性”、更有魅力是网络音频中主播们面临的一个问题。为了解决这个问题,我们在网络音频平台中加入了一项调节语速功能。我们可以根据不同主播的特点来调节主播的语速,在此之前需要先对主播进行一个背景介绍,这样可以让用户更好地了解主播的性格特点,更容易让用户接受。AI语音合成技术在网络音频平台中的另一个应用就是选中文段进行语音播放。如果我们在听一段视频时,如果需要切换到英文配音版本,可以点击播放键进行切换。以上功能都是在网络音频平台中 AI语音合成技术应用的最基础、最常见的功能,同时也是我们在实际使用中遇到最多、最经常使用到的功能。从用户和听众两个角度出发,我们可以更好地理解用户的需求,也可以让 AI语音合成技术更好地服务于音频的制作和用户的使用[1]。
二、AI语音合成技术在网络音频中的应用的问题
(一)AI语音合成领域准入门槛低
由于 AI语音合成技术是一个新的领域,市场上没有类似的产品可以参考,所以在此领域的准入门槛相对较低。因此,该领域的产品和服务面临着大量的竞争对手。此外,由于该领域的技术含量相对较低,相关企业和产品在研发过程中可能会出现大量重复性工作,因此在设计过程中会消耗更多的人力资源。此外,由于市场上缺乏相关产品和服务,因此目前 AI语音合成技术主要应用于会议、智能客服、广告、教育等行业。目前市场上还没有完全成熟的 AI语音合成产品,在应用过程中可能会出现大量重复性工作,这将增加用户的学习成本和时间成本。
(二)合成语音应用功能缺位
AI语音合成技术是指以计算机技术为基础,在自然语言处理、语音识别、计算机视觉等多个领域的技术融合的基础上,模拟人的发音、语调、语速等自然特征,生成文本或声音文本,进而实现声音与文本之间的相互转换。当 AI语音合成技术与人工智能结合之后,它能自动识别音频内容中所包含的情感信息,并为用户提供相应的情感反馈。但是,由于 AI语音合成技术并不具备情感感知能力,所以在网络音频领域中,它只能够模拟人类的情感,却无法像人类一样感知、体验和表达情感。
(三)合成语音质量参差不齐
由于不同的网络音频平台使用的语音合成技术和算法不同,导致生成的语音质量参差不齐。在语音合成技术中,语音识别是将计算机生成的声音与真人声音进行匹配,进而让计算机判断其是否为真人的声音。有些语音合成技术可能生成的语音质量较好,声音自然、流畅,几乎无法区分是否为真人声音;而有些语音合成技术则可能生成的语音质量较差,声音不自然、生硬,容易被用户察觉到是机器合成的声音。这种质量的参差不齐会影响用户对网络音频的体验,降低用户的满意度[2]。
三、AI语音合成技术在网络音频平台中的发展对策
(一)强化合成语音市场管理,提高准入门槛
现阶段,网络音频平台所采用的 AI语音合成技术,都是由人工技术人员进行相关内容的录制和合成,且大多使用的是国外成熟的技术,但是由于国内起步较晚,国内对于 AI语音合成技术的相关研究与应用还处于起步阶段,且不够成熟。因此,目前在网络音频平台中应用 AI语音合成技术时,需要严格遵守国家相关法律法规。首先在准入门槛上要严格把关,对合成语音进行备案管理、建立准入审核机制;其次对在网络音频平台中使用 AI语音合成技术的企业要建立相应的资质认证机制;最后要加强对所使用的 AI语音合成技术产品进行监管,确保所使用的 AI语音合成技术产品符合相关法律法规要求。
(二)创新多元化功能,提升用户体验
基于目前 AI语音合成技术在网络音频平台中的发展现状,在未来的发展过程中,应该不断完善和优化 AI语音合成技术。通过技术创新,构建一个具有更好体验感和交互性的网络音频平台。其一,要从用户角度出发,通过人工智能语音合成技术,不断更新升级个性化功能,例如:可以根据不同人的喜好、性格、性别、年龄等因素进行设置,并且可以根据用户的实际需求不断增加新的功能。其二,要提升用户使用体验,增加个性化功能。现阶段的网络音频平台在使用 AI语音合成技术时,不能仅从语音合成技术方面进行考虑,还需要注重用户体验度,对语音合成技术进行优化和改进[3]。
(三)平台与技术领域共同发力,提升语音质量
网络音频平台在使用 AI语音合成技术时,应该与技术领域共同发力,利用各种技术手段,提升网络音频平台的语音质量。由于语音合成技术中的各项算法并不能直接应用于网络音频平台的实际使用中,因此需要各大网络音频平台与语音合成技术领域共同合作,将不同的算法组合起来,提升网络音频平台的语音质量。第一,可以建立统一的语音质量评估标准,制定统一的评估标准和系统,将各项算法结合起来应用于网络音频平台。第二,网络音频平台可以将各种算法组合起来应用于实际使用中,在具体应用中不断学习和改进,利用技术手段提升语音质量。
四、结语
本文主要从网络音频平台的角度,研究了 AI语音合成技术在网络音频平台中的应用,并分析了 AI语音合成技术在网络音频平台中的发展对策。人工智能技术的发展已经逐步渗透到了生活中的方方面面,而语音合成技术作为人工智能技术中最具代表性的一项技术,受到了广泛关注和应用。在未来的发展过程中,应该不断地进行创新和改进,将 AI语音合成技术更好地应用到网络音频平台中,构建一个更加智能化和人性化的网络音频平台。此外, AI语音合成技术在未来还会有更多的创新发展空间,我们应该不断地对其进行优化和改进,促进其更好地发展。
参考文献:
[1]刘思捷.AI语音合成技术在网络音频平台中的应用与发展策略研究[D].兰州财经大学,2023.DOI
[2]赵伟,许力.一种端到端语音合成中的高效解码自注意力网络(英文)[J].Frontiers of Information Technology & Electronic Engineering,2022,23(07)
[3]夏鼎,徐文涛.基于生成对抗网络合成噪声的语音增强方法研究[J].电子技术应用,2020,46(11)
作者简介:彭宇轩,2002.11.6,男,汉族,湖南常宁市人,学历:湖南涉外经济学院人文艺术学院学士在读,学校及职称:湖南涉外经济学院人文艺术学院,研究方向:数字媒体艺术
作者简介:罗双,2001.7.27,女,汉族,湖南湘潭县人,学历:湖南涉外经济学院人文艺术学院学士在读,学校及职称:湖南涉外经济学院人文艺术学院,研究方向:数字媒体艺术
作者简介:丁思语,2004.3.22,女,汉族,江西新余市人,学历:湖南涉外经济学院人文艺术学院学士在读,学校及职称:湖南涉外经济学院人文艺术学院,研究方向:数字媒体艺术
作者简介:尹志强,1982.10.28,男,汉族,山东曲阜市人,山东大学硕士,学校及职称:湖南涉外经济学院人文艺术学院讲师,研究方向:数字媒体艺术
【基金课题】2023年度湖南省大学生创新创业训练计划项目《新媒体技术在雷锋精神数字化传承中的应用研究》(湘教通〔2023〕132号)。