基于多设备流媒体播放音视频同步分析研究

/ 2

基于多设备流媒体播放音视频同步分析研究

姚清孙鑫

西安嘉昱晟通电子科技有限公司 陕西 西安 710000

流媒体测试设备可完成音视频同步分析、视频同步分析,主要是通过采集设备的音视频输出,同时通过控制流媒体服务器,向播放终端DUT等播放测试视频。在终端播放音视频时,通过严格同步采集功能,将图像与声音同步采集到测试系统内部,经过图像特征提取和分析识别与声音同步处理等操作,计算和分析出想要的结果,如音视频同步时间差、两路视频间同步时间差、两路音频间同步时间差和播放的视频图像质量分析等结果。

1组成原理

流媒体测试设备内部主要由以下单元构成:

主控计算机

主控计算机选用研华工业控制计算机,内部装有千兆以太网卡和模拟量采集卡。其中千兆以太网卡主要实现对媒体服务器的相关操作和与TAP相连完成以太网数据流动态监测。模拟量同步采集卡可以实现对外部DUT1&DUT2的3.5mm音频孔电压信号同步采集功能。

KVM显示操作单元

以太网TAP

流媒体测试设备内部集成了以太网TAP,该设备既可支持无源被动监听工作方式,也可支持有源监听汇聚流量输出工作方式;被测网络为环形菊花链拓扑结构,为了检测发送给DUT1&DUT2的数据,特使用NetTAP设备介入三个测量点,三组测量点的介入,能有效监测发送给DUT1&DUT2的音视频网络包数据,为数据流分析提供依据。

图像声音采集单元

图像声音采集单元为流媒体测试设备的核心部件,其中图像采集单元选用德国Basler高速相机,支持500帧/秒高速拍照。由于所选用的4通道模拟量采集卡和Basler高速相机都具有外部同步触发接口,可在同一个同步触发源的触发下,形成一套完整的音视频同步采集系统。

2标准视频源制作原理

标准视频源作为多个播放终端DUT音视频同步分析、视频同步分析的基准,需要将视频源的视频帧及音频数据进行标记,当高速相机及麦克风采集到不同播放设备DUT的视频,通过该播放设备DUT视频与音频的对应标记,分析出当前设备音视频同步数据以及与其它播放设备DUT的音视频同步数据。

可用软件编写输出声音源程序,用声音频率作为声音的时间标识,声音的频率以1kHz起始,每帧添加200Hz,用二维码作为视频帧的时间标识,让二维码的编码值从1开始至45,与1kHz-9.8kHz频率的声音文件一一对应。视频源的音频频率变化在1000Hz~9800Hz之间变化,每200Hz步进变化,45帧图片(1.5s)为一周期固定循环,使得采集到的外音音频信号在外界干扰的情况下的音频频率变化幅度增大,从而更有利于后期数据回放分析。

3同步分析

3.1音视频同步测试

当计算机将测试使用的音视频加载到媒体服务器,媒体服务器经过以太网环网下发到各个显示终端DUT。各个显示终端DUT的显示图像,采用Balser高速工业相机进行同步触发方式的拍摄,同时同步触发模拟两采集卡对当前DUT的音频信号的进行采集。

从起始开始,对音频信号每2ms(500帧图像频率最小间隔)进行一次频率分析计算时,随时间推移,分析出音频帧变化边界(频率突变),以此边界为标记,计算出此时对应的图像序号n1,然后再计算出图像帧变化的序号n2,最后即可得出音视频延迟时间delay,计算公式为delay=(n1-n2)*2ms。delay这个计算结果可能为音频提前于视频,也可能视频提前于音频,分别以该数据的正负作为标记来体现。

同时,为增加冗余,可进行多组的音视频边界分析算法,方法同上。计算出多组delay参数,然后求得均值,作为该段音视频延迟参数的最终输出结果。

3.2音频同步分析

两路DUT的音频通道进行同步分析测试,在测试结束后,进行音视频数据的解析,分析出第1路采集通道的音频帧变化边界,查看它此时对应的视频图像序号n1,同样的原理,分析第二路采集通道的音频帧变化边界,查看它对应的视频图像序号n2。那么两组音频延迟参数的计算方式,就是两路图像序号的差值n1-n2,计算公式delay=(n1-n2)*2ms。该结果可使用正负来表示第一路提前于第二路,还是第二路提前于第一路。

在实际测试中,为得到准确结果,可捕捉多次音频变化边界,通过多次计算延迟件delay,最后多次求平均值,以得到最终的两通道声音延迟时间结果参数。

3.3视频同步分析

本测试对象为两组DUT显示终端,采用两台高速相机(500帧/秒)进行同步触发方式的拍摄。控制计算机加载测试视频到媒体服务器,媒体服务器经过以太网环路,下发视频数据到2个DUT,开始播放测试视频。

测试设备软件等待随时进行同步外触发,按照用户设定的测试时长,下发同步触发指令到信号适配器单元,里面的同步触发模块在接收到控制指令后,开始同步输出4路PWM同步信号(默认500HZ),触发高速相机在500帧/秒的速率下工作,同时音频采集单元PCI9757接收到外触发信号上升沿后,以固定采样速率100k对3.5mm的音频输出接口进行同步电压信号采集。这样就形成了以严格触发信号为起始的同步采集模型。

两台高速相机500帧/秒同时进行拍摄,被拍的两台DUT以30帧/秒进行测试视频的播放,以起始触发作为时间零刻度,2ms作为时间最小刻度开始计算,帧变化边界应该位于第16-17帧。上图中通道1的图像采集设备记录帧变化边界发生在第17-18帧之间,而通道2的图像采集设备记录帧变化边界发生在第19-20帧之间,那么通道2的视频播放推迟于通道1视频播放4ms((19-17)*2ms)。以此方法可进行多次测量,例如在测量判断点1、2、3多次测量,求平均值,即可得到通道2相对于通道1视频播放的整体延迟时间。

该测试方法的关键在于,后期图像处理的方式,准确识别出帧变化边界,并与时域进行相关联,即可得到准确可靠的测试结果。

4音视频分析结果

视频源每秒播放30帧画面,每帧画面对应一个频率的音频,一共180组图像和音频,以6秒周期循环播放。音频频率从1000Hz开始,每帧依次增加50Hz,一直增加到9950Hz,共180种频率;每帧图像的二维码代表一个数字,数字从1开始,每帧依次增加1,一直增加到180。

数据采集是通过硬件触发开始的,保证音频数据和视频数据开始采集时间对齐。图像采集为500帧/秒,每2ms一张图片,解码后的数值再换算出所对应的频率值;音频采集为100k/S,每2ms长度求一次频率;把所有图像对应的频率值和音频频率点分别绘制一条曲线,如果视频图像和对应伴音有时间差,则这两条曲线不会重合,通过计算同一个频率点上两条曲线的时间差可计算出音频-视频延迟时间。下图为有延迟音视频数据,取音频和视频6000Hz~6050Hz变化的时刻,求出该频点的音频-视频延迟时间。

经过试验采集的音视频分析结果如下图:

从数据结果分析可以看到,经过外音拾取采集后的音频频率变化在1000Hz~9800Hz之间规律变化,且音频与视频的变化是同步一致的。右上角的延迟测试波形图可以看到延迟的延时时间大小除个别位置外,整体呈现出密集稳定的延迟时间变化,音频与视频的延迟实测平均值为0.139秒,结果正常通过。

[1] 大规模流媒体应用中关键技术的研究. 尹浩;林闯;文浩;陈治佳;吴大鹏.计算机学报,2008

[2] 视频流媒体传输失真研究. 周敬利;马志龙;范晔斌;陈小平.小型微型计算机系统,2006