131682部队 甘肃省 兰州市730000
2甘肃省军区网络运维室 甘肃省兰州市730000
摘要:如今融媒体的快速发展使得人们的生活与工作都产生了巨大的变化,网络视频会议便是一种更高效便捷的会议模式。如今网络视频会议及其支持技术也逐渐成熟,音频交互技术便是其中一种,这些技术的应用以及相互配合使得网络视频会议质量也得到了保障。本文主要围绕网络视频会议展开论述,探讨音频交互技术的应用。
关键词:融媒体;网络视频会议;音频交互技术
引言:网络视频会议主要借助互联网技术实现双向、多向传输,实现多向互动的线上交流模式,在如今办公自动化越来越成熟的时代下备受关注。在网络视频会议中,声画同步至关重要,这不仅是网络视频会议整体质量的一种体现,同时也是技术是否成熟的一种表现,参会者之间的交流离不开视频画面与音频交流,还可能会伴有同声传译,在一些重大会议中的发言举止容不得一点差错,所以一场成功的网络视频会议需要具有清晰流畅的画面,也需要连续稳定高质量的音频交互。
一、网络视频会议的技术重点
(一)宽带测试
在网络视频会议中,网络带宽是决定音频与视频传输质量的首要因素,如今的网络视频会议均要求高清视频,会议方1080P每秒30帧的会议至少需要2~4M的带宽。其中音频占带宽较小,与视频的占比比较甚至可以忽略,但若是带宽不够则必然会降低音频传输质量,所以通常要求100M的对等专线,主会场要求更加严格。目前常用的视频会议软件的用户界面较为友好,移动客户端的支持效果也较为理想,更重要的是5G技术的支持下使得网络传输效率更高,因此除大型会议或政治性会议以外,通过手机端参与视频会议也成为了现实,并且更具便利性。在保证宽带专线满足要求后,连接会议服务器可以开展带宽测试,手机在连接会议系统后也可以进行自测,检查音视频连接是否存在卡顿现象[1]。
(二)现场扩声
针对本地现场扩声系统进行调试,确保音响可以达到扩声要求。之后利用调音台的设置,将现场声源和视频会议原声发送到扩声音箱。
(三)同声传译
利用调音台设置将视频会议的原声和现场发言音频传输到同声传译主机,经由同声传译人员翻译为不同国家语言,通过红外辐射板覆及更多场所。
(四)影像记录
结合影像记录需求将采集到的音频传输到音频输入端,根据需求选择是否对音频进行延时处理,借助音频的延时处理来保证声画同步。
二、融媒体网络视频会议中音频交互技术的应用
(一)音频处理模块设计
在网络视频会议中,系统的音频处理模块一般负责对视频会议中的音频数据进行收集、压缩、播放等,该模块的主要功能表现在以下几点:其一,枚举系统中音频采集设备,同时生成列表;其二,调整音频收集设备的运行参数;其三,为编码器fliter提供音频流。音频处理模块在成功采集到会议音频数据后,将数据传输到编码模块完成分析与压缩编码等操作,利用RTP或RTCP协议进行传输,在将数据传输到目的端之后进行解码、合成等操作,之后就可以实现音频的播放。
在网络视频会议系统中,语音交互是其中不可或缺的构成,语音交互的质量能否达到要求直接影响着视频会议开展的效率与质量。其中音频子系统可以保障语音回放的清晰度、延时率等,为确保可以在internet中发挥作用,音频数据的采集和传输、回放等都要利用音频发送接收缓冲池进行处理,系统中的音量数据体量不大,而且需要在较大的局域网中实现数据传输,所以在设计上需要将音频处理划分为多个模块:
1、音频采集模块。通过录音设备来采集会议中发言者的语音;
2、音频发送缓冲区管理。将收集到的语音数据传输到音频发送缓冲池中;
3、发送音频数据模块。在音频发送缓冲池中调用音频数据,利用网络信道进行处理和传递;
4、接收音频数据模块。利用网络信道来接收音频数据。
5、音频接收缓冲区管理模块。可将接收到的音频数据进行调度和管理;
6、音频回放模块。在音频接收缓冲池中调取音乐数据,并进行回放。
在这些模块的支持下,发送方的音频数据暂时在音频发送缓冲池中管理,发送线程取出数据并利用网络信道传输。而接收方则可以利用信道接收音频数据,保存到回放设备中播放。
语音采集和回放是这些模块中的关键要素,需要保证语音的质量和语音数据传输效率性、实时性等,避免音频数据传输失真或高延时等问题的发生,丢失数据可能造成语音质量的大幅度下降。若接收方无法接收到语音数据并进行回放,可能导致语音延时性较大、语音卡顿、断续、杂音等,所以需要特别关注音频缓冲区等关键模块的设计。
音频缓冲区大小设计直接决定了语音志亮,如果缓冲区过大,即便语音连续性较强,也可能出现高延迟。若缓冲区较小,虽然延迟降低了,但更换缓冲区的频率却会大幅度增加,系统所承载的负荷更高。通常缓存区可以设计在1~4K之间,多数网络视频会议在设置为1.2K字节时效果最佳[2]。
(二)音视频同步
在网络视频会议中,多媒体通信同步的解决方案基本有两种,其一为管理源节点中多媒体对象的发送时间,其二为目标节点设计多个缓冲单元,在网络传输时抖动,经过缓冲区保证音视频回放的连续性。
对于视频会议系统来说,通常视频与音频为分别传送,利用点到点的模式进行,但网络中的时延抖动通常难以避免,可能造成丢帧或乱序等问题,最终导致音视频不同步的现象。因此在程序中需要设计好发送端与接收端两个部分,其中发送端需要确保同一时间内音频帧与视频帧同步发出,而接收端则需要建立同步缓冲机制,让系统可以同步接收音频帧与视频帧。期间需要对音视频的同步关系进行标记,借助一种类似时间戳的手段为数据包设计长整型序号。
其一,需要控制好音频包大小,视频采集一般为每秒30帧,音频采样率则在22050Hz左右,采样点以S/bit表示。所以一个视频帧采集所需的时间段采集了(1/30)(1/22050)=735帧音频,这便是一个音频包的发送长度。
其二,在程序开始运作后,摄像头自动运行并收集图像,在采集一帧图像并完成压缩处理后便会打开一个数据包添加序号。麦克风也会采集音频,在采集735帧音频帧并完成压缩处理后同样打开一个数据包,二者借助不同的socket进行传输。但实际上,系统命令的执行一般都会按顺序进行,也就是在程序执行时,音频与视频采集的开始时间并没有同步。针对这一问题需要将音视频的采集起始时间进行记录,计算好时间差,根据时间差来丢弃视频或音频帧,之后按照序号来计数,确保视频包与音频包能够在同一时间开始采集[3]。
(三)传输网络
视频会议系统中的视频与音频都会借助网络进行传输,这就决定了音频流与视频流的传输及资源协调性问题只能从网络基础架构的方向解决,只有这样才能保证网络的开放性与适应性。在多媒体信息集合中,各类媒体信息都有着明显差异,视频与音频数据都是“流信息”,其特点便是时间相关性,与图文等静态信息具有明显区别,这使得多媒体信息对于传输网络也有着不同需求,对此传输网络设计需要把控好以下几点:
1、虚拟信道构筑。多媒体信息的传输需要建立类型多样的虚拟信道,不同类型信道对应不同类型的多媒体信息,确保网络数据传输参数的稳定;
2、点对点、点对多点及广播通信配置。网络应用需要点对点的简单通信,同时也需要点对多点的服务模式,视频会议便属于典型的多点交互特征,所以需要在设计中关注点对多点设计;
3、网络控制。多媒体信息通信对于网络服务的需求也有着多样化特点,所以网络调控与管理能力也需要进一步提升。例如实时性传输支持技术、网络流控与拥塞处理技术等。可以借助宽带IP网络,经由Ipv6和RSVP、区分服务等协议来实现网络资源调配,实现特色化服务,满足个性化的网络服务需求。
结束语:在融媒体时代下,音视频数据的传输效率越来越高,这使得网络视频会议也逐渐受到了人们的青睐。但实际上很多大型网络视频会议系统中,音频系统相较于传统会议系统来说更加复杂,涉及的其他系统及设备更多,所以音频交互技术在应用上也更需要规范、标准。
参考文献:
[1]黄彦钧,彭殷华.融媒体网络视频会议中音频交互技术的应用[J].影视制作,2021,27(12):51-53.
[2]刘儒茜. 基于全景视觉的网络会议视频处理技术研究[D].哈尔滨工程大学,2018.
[3]秦军,张浩.网络视频会议系统的建设及应用效果分析[J].现代电信科技,2012,42(07):52-56.
第一作者 作者简介:姓名:任霓州(1985.10--);性别:女,民族:汉,籍贯:陕西省淳化县人,学历:本科;现有职称:中级工程师;研究方向:视讯工程。