广播电视音频监测技术研究

时间:2022-03-14 04:26:00

广播电视音频监测技术研究

广播电视的不问断和安全播出始终是广播电视机构要完成的首要任务。随着基于电子管、晶体管等设备的退役和计算机软硬件技术、微电子技术和数字化技术的应用普及,广播电视设备的故障率已经降到了非常低的水平,在节目播出过程中由于设备故障造成的停播、错播现象已很少发生。近年来,信号的安全播出问题,尤其是信号的被干扰、被破坏和被插播的现象屡见不鲜。广播电视的安全监测技术逐渐成为广播电视制播技术的研究焦点。本文将针对以上问题加以探讨,并对解决问题所用到的关键技术和算法进行简要的分析和论述。

1监测业务和技术的现状及分类

目前国内大多数广播电视台站的自动监测系统都只针对音频信号的质量好坏和信号的有无进行监测,而对于音频信号的来源及内容等安全方面的监测任务则更多地采用循环播放、人工监听的方式…。人工方式不仅效率低,而且不及时。应州于广播电视安全监测系统的音频信号监测技术从业务层面上可分为音频的内容监测和音频的质量监测。音频的内容监测主要是对采集的信息的收集、整理、解析和应用等过程中所出现的错误、疏漏、不当及不和谐、敏感信息的检查和把关,它关注的是音频所表述的具体内容。音频的质量监测主要是对已经制作完成的广播电视节目在音频信号的生成、处理、传输和收发过程中出现的干扰、噪声、电平过低、中断和信源突变等状况所进行的实时监控和更正,它注重的是音频信号的质量及来源的正确性。二者虽然针对的业务层面不同,却彼此依赖相互联系。音频内容的好坏会直接影响到音频质量的高低,音频质量的高低也会直接影响终端听众对信息内容的获取量和正确率。总之,对音频内容和质量的监测都是为了保证听众能收到正确、优质和不间断的音频信号。目前,可应用于音频信号监测任务的技术可分为音频比对技术、音频识别技术、数字水印技术这三大类。

2音频比对技术

音频比对技术是利用数字音频的时域或频域特征或属性来分析两段音频序列的相似度,再相似度的大小来判断这两段音频序列播放的是否是相同或相似的内容。其大概流程如图1所示。首先,将要处理的2路音频序列通过多路音频采集卡采集到设备中,并进行滤波、增益补偿等处理;其次,将得到的2路音频信号进行模数转换,再对得到的数字信号进行压缩处理;然后,提取2路信号的特征参数或者属性;最后,比较提取出来的参数或者属性,得出2路音频信号的相似度,再由相似度来判断2路信号是否相同或者相似。滤波和增益补偿等预处理是为了滤除音频中的噪卢、干扰脉冲及平衡音频的电平差等。

压缩处理是为了减少音频中相关性较低和不相关的参数,减少后续工作量,提高处理的实时性(目前比较流行的压缩算法是利用小波函数压缩)。参数和属性的提取是从音频流中以帧为单位提取出2路音频的质心、均方根、Mel倒谱系数以及音高、振幅、带宽、能量等。音频比对是利用上一步提取的参数或属性进行计算和比较,将比较结果同预先设定的阈值进行对比,得出最终结果。音频比对技术在实现时不考虑音频的具体内容,它只注重音频序列的关键参数和属性的相似度。目前对音频技术的应用需求更多的还是涉及到音频的语意和具体内容方面,这项技术的适用领域相对来说比较小,但是它基本上能满足广播电视的质量监测的任务需求。

3音频识别技术

音频识别技术主要以语音为研究对象,许多资料亦称之为语音识别技术。它是指让系统依据语音和人声的特性、事先建立好的语音模板库或人类的大脑神经系统的活动原理对人们发出的声音或者保存的语音数据进行逐字逐句识别并转化为文本、对语音的特征语意进行判断和响应或者执行特定的命令任务的技术。从说话者异同方面,可以将语音识别系统分为特定人语音识别系统、非特定人语音识别系统和多人语音识别系统。从语音的产生和输入的方式,可以将语音识别系统分为孤立词语音识别系统、连接词语音识别系统和连续语音识别系统。

从语音包含的词汇量大小,可以将语音识别系统分为小词汇量语音识别系统、中等词汇量语音识别系统和大词汇量语音识别系统。语音识别技术从方法和实现层面总体可以分为三种:基于语音基元的共有特性和声学属性的方法,基于模板的建立和匹配的方法,基于人工神经网络的方法。声学属性的方法又细分为基于动态时间规整方法(DTW)的语音识别技术、基于隐马尔可夫理论(HMM)的语音识别技术和基于矢量量化算法(VQ)的语音识别技术等。基于模板匹配的语音识别技术大致流程如图2所示。其中自“参数属性提取”之前的处理过程与上文介绍的音频比对技术的过程基本相同,此处不再赘述。提取参数之后需要先使用一定的训练算法对提取出来的参数进行训练以建立声学模板库,有了声学模板库就可以对输入的语音数据进行识别了。识别的过程就是将输人的语音的特征或参数同模板库进行计算和比较,得出最终结果。现在人们研究和使用的较多的语音识别的主流技术是基于隐马尔可夫理论(HMM)的语音识别技术,它可以胜任大词汇量、非特定人和连续的语音识别任务,并且识别准确率已基本达到了实用水平。相比之下,基于人工神经网络的语音识别技术的应用前景则更被人们看好,但它是一门尚处于实验探索阶段的新兴技术。音频识别技术更注重于音频的语义和内容,所以它基本上能满足广播电视的内容监测的任务需求。

4数字水印技术

数字水印技术是指在不影响质量和不易被发觉和篡改并且可以被授权者识别出来的要求下将水印(防伪)信息嵌入到图像和音视频等的原始数字数据中,以实现数字作品的版权确认和保护。数字水印技术隶属于信息隐藏学,早期主要用于图像处理技术,后来扩展到了文本和视频领域,最近人们又开始研究将其应用到音频信号中。数字水印技术一般包含嵌人过程和提取验证过程,其大概的流程如图3和图4所示。数字水印在技术实现上通常分为可见水印(明文水印)技术和不可见水印(盲水印)技术。由于容易被察觉和受到攻击,可见水印技术目前已经不再被人们看好。不可见水印技术有着不影响原始数据的质量和不易被察觉等的优点,正逐渐成为人们研究的热点。不可见水印技术的实现方法大体可以分为在空间域中实现的方法和在变换域中实现的方法两种。

在空间域中实现的方法是在时域内直接对信号的值进行修改并嵌入水印信息,这种方法有着计算简单、计算量小和兼容有损压缩的信号和滤波的信号等优点,但为了保持水印的隐蔽性,它能嵌入的水印的信息量极为有限。在变换域中实现的方法是先将信号进行一定的变换,如快速傅里叶变换、离散小波变换、Z变换和离散余弦变换等,然后再将水印嵌入变换后的信号中。与在空间域中实现的方法相比,这种方法有着隐蔽性强、容易结合、可嵌入的水印信息量大和兼容压缩数据等优点;不足之处是计算复杂而且计算量大,不适用于大数据量和对实时性要求高的系统。

5小结

要实现广播电视音频的误播、错播和停播等紧急情况的及时响应处理,一个高效的方法是借助于计算机技术和数字音频处理技术来实现。与人工方式相比,计算机处理具有高效率、高精度、及时性和速度快等优点。可应用于广播电视安全监测系统的音频信号监测的技术大致分为三类。从以上的分析可以看出,音频比对技术更适用于广播电视音频的质量监测,数字水印技术和语音识别技术更适用于广播电视音频的内容监测。目前,音频水印技术尚未完全成熟,语音识别技术中也只有基于模板的建立和匹配这一类方法进入了实用阶段。一个适合于当前广播电视音频内容和质量监测系统的技术组合应该是音频比对技术和语音识别技术中的基于模板的建立和匹配技术。