音频内容综合处理技术在广播监测网的测试

时间:2022-01-29 10:28:31

音频内容综合处理技术在广播监测网的测试

摘要:目前开展的电视广播信号内容监测业务主要由人工完成,随着监测业务的不断扩展,面对海量的数据,实现对电视广播信号内容自动监测的迫切性日益增加,需要全面提高现有监测系统的智能化水平。本文主要就音频内容综合处理技术在海外广播监测中的测试展开叙述。

关键词:广播电视;语音监测;海外广播网;测试

近年来,我国的广播电视监测事业发展迅猛,广播电视监测工作已经进入到了一个新的时代。广播电视监测工作已由过去被动的事后服务转变为积极主动的过程服务,由过去靠人工的、传统落后的手段变为数字化、网络化、自动化的方式,由过去单一的无线广播监测向广播电视全面、全方位监测发展。2002年,广电总局实施“走出去”工程,以加强我国对外广播电视宣传,同时,在海外建立了环球广播监测网,加强对中国国际广播电台对外广播效果和租机/互转的电台播出的监督、检查,提高对外广播效果。我国在各国的驻外大使馆都有相应的信号采集设备,收集当地的对华广播落地信号,然后对信号进行压缩,通过互联网传回到国内的监测中心,进行内容监测,从而发现对我国社会、经济、外交等有用的重要信息。截至目前,海外监测网已经在50个国家相继建立了54个无人值守遥控监测站点,每日可监测中国国际广播电台对外播出的32种语言、383个频率的广播效果。将音频识别、文本检索、图像处理等新技术实际应用于目前主要靠人工完成广播信号内容监测业务,充分利用计算机对于海量节目内容自动处理具有的速度快、效率高、可以控制漏检率等特点,将众多的先进技术服务与广电监测行业相结合。

一、音频内容综合处理技术

(一)广播音频信号介绍

真实应用环境下的语音现象非常丰富,以海外监测机房短波音质广播语音为例(如图1)。图1海外监测机房典型语音广播音频信号具有以下特点:1.信号在传送过程中,由于干扰使得包含的噪声很不稳定,主要表现在两方面:一是同一个音频片段里的噪声变化不均匀,时大时小;二是不同的音频片段的信噪比差别较大。这就使得有的音频片断的信号质量好一些,而有的音频片断的信号质量却很差。2.由于是电台节目信号,所以包含了各种各样的音频类型,既有纯净的语音,也有带音乐或噪声背景的语音,既有音乐歌曲,也有强噪声或者如鼓声之类的环境音,可以说是一种语音、音乐和噪声的混合音频信号。3.信号中含有大量的片头曲,这些片头曲多是一些具有音乐背景的报台信号,或者是不同节目的报幕信号。由于片头曲中含有一定的语言信息,所以即使是同一个电台或同一个节目,不同语言的片头曲也是不同的。此外,由于广播电台的节目时刻表比较固定,同一语言播出的节目中的片头曲相对也是固定的,这是一种固定音频信号。4.广播节目都是以一定的频率被播出的,在信号传送过程中,某一频率的节目信号有可能被其他节目的同一频率信号完全干扰或临界干扰,如果两个节目的语言不同,那么将出现两种或多种语言重叠或交叠出现在同一个音频片段中的现象。此外,一个节目中也有可能出现多种语言,比如一些语言教学节目。5.信号中的说话人不仅有主持人,也有大众百姓,大家说的话不仅有母语,也有方言,甚至还有非母语的外国人在说话,而且说话的内容和说话人的性别也是随机的。此外语音不仅仅是广播语音,在一些人物采访节目中常常出现电话或麦克风语音。6.由于广播节目是每天24小时不间断地播出的,所以采集的数据将是海量的,此外,虽然每段音频的采集时长约57秒钟,但是如果去除其中的非语音成分,剩下的语音时长却是不定的。从这些特点中不难看出,实际真实的音频信号是非常复杂的,这给语种识别系统的实际应用带来了很大的困难和挑战。音频内容综合自动处理系统的主要处理对象是语音,对其内容的分析和监测对象包括内容、关键信息、语种等。

(二)音频内容处理技术基础框架

当前主流语音处理技术主要基于统计框架,一般包括以下流程和处理步骤,如图2所示。图2基于统计音频内容计算技术框架1.建模数据库的建立:主流音频内容计算技术建立于统计理论之上。系统性能对建模数据的依赖很大,因此要求建模数据与测试数据在应用环境、说话方式等方面有一定的相关性,否则无法保证系统在应用环境下的性能。2.特征的选择与提取:特征是区分不同类事物最根本的属性,选用不同的特征将带来不同的区分能力使得类内高偶合、类间低聚合。因此对不同的识别任务,必须精细选择所使用的特征。3.建模技术:模型用于刻画不同类别之间的本质差异,一个好的建模方法会显著提高系统性能。目前主流的建模技术分为两类,一类基于最大似然估计方法,其本质是通过描述特征在空间中的分布参数来刻画类别统计特性,最常见的模型是高斯混合模型GMM;另一类是基于区分度的估计方法,其本质是通过描述不同类别的分界面信息来刻画类别间的特性,最常见的模型是支持向量机模型SVM。

(三)面向真实应用环境的音频内容处理框架

对真实应用环境语音的处理,需要包括以下流程和处理步骤,如图3所示。图3音频内容综合处理系统框架针对不同格式的输入语音进行格式转换,统一为wav格式。对于广告或含有片头曲检出的任务,可以采用固定音频检索技术,把片头曲或广告作为模板,从音频信号中检索,根据片头曲所对应的语种来确定整个音频片段的语种。由于信号中含有多种音频类型,而诸如音乐和噪声之类的音频几乎不含所需信息,所以需要把音频信号分成语音、音乐和噪声,以去掉这些不含语种差别信息的非语音信号。针对特定应用环境,需要对音频信号的质量进行评估,对信号质量较差的语音降低识别的置信度。由于音频信号含有噪声较大且不均匀,提取特征时需要采取一定的噪声消除技术。对于经过增强后的语音,进行内容识别、语种识别及敏感信息监测等内容计算任务。

二、音频内容综合处理技术测试

(一)场景分析

音频场景分析的目的是把输入音频文件分成语音和非语音,并把其中的非语音成分去掉,仅把语音提出来用于后续内容计算。建模数据库:从海外机房2月15号至28号不同语言播出的节目中人工整理用于音频分类的训练数据,考虑到训练样本的平衡,其中语音60M,非语音60M,非语音包括音乐和噪声各30M。整理时把带强音乐背景的语音归为音乐,带强噪声背景的语音归为噪声,而带弱音乐或弱噪声背景的语音归为语音。然后使用语音和非语音共120M数据训练第一个分类器,用来区分语音和非语音,使用音乐和噪声共60M数据训练第二个分类器,用来区分音乐和噪声。特征选择:常用的音频分类特征有16种,其中时域特征包括7种,即过零率(Zero-CrossingRate,ZCR)、高过零率帧的比率(HighZero-CrossingRateRatio,HZCRR)、短时能量(Short-TimeEnergy,STE)、低能量帧的比率(LowShort-TimeEnergyRatio,LSTER)、短时能量的均方值(Root-Mean-Square,RMS)、静音帧的比率(SilenceFrameRatio,SFR)、子频带能量分布(Sub-bandEnergyDistribu-tion,SED);频域特征包括9种,即频谱差分幅度(SpectrumFlux,SF)、频谱质心(SpectrumCentroid,SC)、频谱散度(SpectrumSpread,SS)、频谱截止频率(SpectralRolloffFre-quency,SRF)、子频带周期(Sub-bandPeriodicity,BP)、噪声帧的比率(NoiseFrameRatio,NFR)、线谱对(LinearSpec-trumPairs,LSP)、线性预测倒谱系数(LinearPredictionCep-stralCoefficients,LPCC)和梅尔倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)。而一些非常用的音频特征包括短时基频(Short-TimeFundamentalFrequency,STFF)和谱峰轨迹(SpectralPeakTrack,SPT)等。我们以高过零率帧的比率HZCRR和噪声帧的比率NFR为例,说明其对语音/非语音和音乐/噪声具有区分能力。图4HZCRR和NFR对语音/非语音和音乐/噪声具有区分能力如图4所示,对输入音频分别提取高过零率帧的比率HZCRR和噪声帧的比率NFR特征,可发现语音/非语音HZCRR特征、音乐/噪声NFR特征的数值范围具有明显差别,可作为特征区分两者。为此,根据不同特征间的区分能力及其互补性,系统采用了如下特征:表1音频分类特征集音频分类类型特征集语音/非语音BP、HZCRR、LPCC、LSP、LSTER、MF-CC、RMS、SBE、SC、SS、ZCR纯语音/非纯语音BP、LPCC、LSP、MFCC、RMS、SC、SF、SFR、SS、ZCR音乐/环境音BP、NFR、RMS、SBE、SF、STE建模技术:采用基于支持向量机的区分度建模方法。支持向量机(SVM)是一种基于现代统计学习理论的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。SVM是一种两类样本分类器,其目标是在超高维(一般几十万维)空间找到一个分类超平面,使得它能够尽可能多的将两类样本数据正确分开,同时使分开的两类数据点距离分类面最远。一般包括两个部分,即特征从原空间到超高维空间的映射和分类面学习。

(二)音频信号质量评估

音频场景分析的目的是按照我国《广播节目声音质量主观评价方法和技术指标要求》的规定,对广播节目语音质量进行自动评价。特征选择和提取:通过比较和分析,系统选择语音能量、噪声能量、信噪比、音乐/噪声/语音比例、基于谱熵的可听度估计几种特征。建模技术:采用多特征的线性加权分类技术,各特征的加权系数经验确定。测试原理如下图所示:图6测试原理性能分析:对于机器自动评分和人工评分不一致的结果,请值班员帮助判断。值班员的判断结果分为三类,即人工和自动评分均可、自动评分偏差和人工主观性因素偏差。对于自动评分偏差,其主要影响因素是算法参数,为此根据人工判断结果对算法参数做适当调整,再次迭代,直至过程收敛。首先对3月1日、5日、10日和14日的这4天采集的约6000个音频片段人工进行主观打分,然后由系统对这些音频片段自动评分,比较人工主观评分和系统自动评分的一致性,实验结果如下表所示。表3系统自动评分与人工主观评分的一致性日期3月1日3月5日3月10日3月15日评分一致性66.01%64.78%65.18%67.61%从总体实验结果来看,整体上人工和系统打分完全一致的比率为66.5%,对评分不一致的音频片段进行分析,我们发现:a)经人工确认,两种打分均可的约占16.2%;b)由于人工疲劳等主观因素使得人工评分不正确的约占9.7%;c)由于算法不够精致使得系统打分偏离人工打分1级的约占5.6%,2级及其以上的约占2.0%。为此,我们以系统评分与人工评分差半级为正确,差两级以上错误,重新统计评分的一致性时,上述4天打分一致性的整体平均正确率可达到98%。

(三)语音增强/去噪

语音增强/去噪的目的是增加带噪语音的信噪比,从而提高后续内容计算模块的识别准确性。方法:针对背景噪声在不同环境不同时刻下的变化特性,提出了在系统前端采用自适应滤波器来对语音信号进行降噪处理的方法,有效地提高了信号层的区分度。同时,我们在模型端对传统的基于匹配的声学模型训练算法(MULTI-TRAIN)进行了改进,吸纳了MULTI-TRAIN训练方法中在训练数据中加入应用环境背景噪声的做法,采集了大量不同种类和不同信噪比下的背景噪声,对训练数据进行“污染”,并用“污染”后的数据训练声学模型,增加了训练和测试环境下模型的匹配程度。进一步,我们在频谱域提出了一种基于功率谱密度最小均方误差估计(PSD-MMSE)的语音增强算法。该算法在功率谱域用指数分布来建模平稳随机噪声,并用混合指数分布来建模语音的能量谱,构建了纯净语音功率谱密度的最小均方误差估计器,显著地改善了语音质量。此外,我们还在对数谱域提出了一种采用高阶泰勒级数展开来近似对数谱域非线性环境函数从而寻求最合适的补偿形式以补偿对数谱域特征的方法。该方法还同时考虑了对数谱高斯混合模型的建模精度问题,并且引入了能量补偿的思想,提出了采用类似谱减的方式来补偿语音能量的方法,并研究了把对数能量和对数谱结合在一起补偿的可能性。特点:由于背景噪声在不同环境不同时刻下的变化特性,噪声的估计与补偿必须自适应地进行;另外,构造补偿滤波器时要尽可能精确。

(四)音频模板检索

音频模板检索的目的是根据对固定出现的音频片断,入广告、片头曲等,对广播节目进行定位。特征选择和提取:多个子频带的能量比率。模型:直方图重迭匹配。系统特点:1.抗畸变:首先采用频谱的掩蔽和增强技术对音频进行畸变消除和归一化处理,从而降低音频中的噪声、扭曲等畸变,提高了方法的鲁棒性,然后采用临界频带划分策略,提取多个子频带的能量比率作为基本特征,并建立每个片头曲的直方图模型;2.搜索速度快:基于直方图重叠相似度最小的快速搜索策略,并在搜索过程中选择多尺度步长预测技术提高搜索速度。性能分析:从2月15号至28号的部分音频片段中截取90个不同语种的片头曲模板,然后从3月1号至5号的部分音频片段中再截取77个与前90个没有重复的片头曲模板,每个片头曲模板的时长从2秒到20秒不等。基于上述片头曲模板,对3月6号至14号的13512个音频片段进行检索。检出2950个文件含有片头曲,检出率为21.83%,其中错误的有15个,误报率为0.51%。

(五)语种识别

语音识别技术可自动识别出语音段所属的语言。特征选择:采用美化感知线性预测系数(MF-PLP)和移动差分倒谱特征(SDC),高维空间映射后增加长时平均,从而包含了更多的时序信息。建模技术:采用基于支持向量机的区分度建模方法。建模数据库:17个语种,如表4。每个语种经过自动去除片头曲、噪声和音乐处理,每个语种的训练数据约2-3小时。系统特点:反映语种间差异的是音素间的连接关系,因此必须增加特征的时间跨度已反映时序信息,系统中特征经过区分性变换后,做长时平均并增加SDC特征。性能分析实验1:识别性能随不同建模数据库规模的变化每个语种训练模型的数据量从1.5小时、2.5小时到3小时逐渐增大,,得到每个语种的模型之后,经过识别,实验结果如表5.5所示。从表中可以看出,随着训练数据量的增大,语种识别的性能也会相应地提高。实验2:识别性能随不同语种数的变化按照语种名字的汉语拼音字母的顺序,我们从6个语种开始,每次增加2个逐渐增加到16个直至17个语种,并且基于每个语种3小时的数据量训练模型,对相应的测试数据进行识别,识别性能如图所示。图7识别性能随不同语种数的变化从图中可以看出,随着要识别的语种个数的增多,识别性能逐渐下降,这主要是因为增加的语种容易和其他语种相互混淆。实验3:模型优化基于200M数据训练的17个语种的模型,对3月1日至14日的音频文件进行识别,识别过程中,每个语种都有部分语音,其信号质量不差(不低于3分)且时长也较长(不低于30秒),但是该语种的模型得分有时候虽然是第一名却比较低,甚至有时候不是第一名,使用这部分语音更新训练相应的语种模型,上述思想称之为从错误中学习。下面我们使用3月6日至31日的语音句子,基于17个语种测试比较从错误中学习前后的识别正确率,实验结果为:原模型的识别正确率为90.85%,更新后模型识别正确率为93.58%,提高了2.73%,这说明从错误中学习是非常有效的。

(六)语音识别技术

语音识别技术可将连续输入的音频流中的语音部分,翻译成对应的文本信息。特征选择:采用美化感知线性预测系数(MF-PLP)。建模技术:采用隐马尔科夫模型(HMM)描述时序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模数据库:300小时广播语音,新唐人电视台120小时,美国之音、BBC、CCTV等节目180小时。系统特点:系统采用的关键词检出框架如图8所示。图8连续语音识别系统框架系统模型包括声学和语言模型两套,声学模型的作用为将语音特征转换为对应的声学音素序列,语言模型在此基础上完成音到字的转换。系统基于国际主流LVCSR技术,针对汉语语音做了具有创新性的贡献,突破了在汉语LVCSR总体框架、声调和声韵母联合建模、大规模语音语料库处理、系统搜索、网络语言增强的语言建模和无监督声学模型训练等方面的关键技术。

(七)敏感信息/时段监测

敏感信息监测技术可从连续输入的音频流中,发现预定的敏感信息。特征选择:采用美化感知线性预测系数(MF-PLP)。建模技术:采用隐马尔科夫模型(HMM)描述时序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模数据库:300小时广播语音,新唐人电视台120小时,美国之音、BBC、CCTV等节目180小时。敏感时段监测:在敏感词汇检出基础上,根据单位时间加权置信度信息分析某个时段的敏感程度。系统采用的关键词检出框架如图5.9所示。系统中采用了一种改进的两阶段处理架构的关键词检出方法。在第一阶段,系统不仅为词表中的词、静音和可能出现的噪声建立模型,同时还要为非关键词建立若干填充模型。在第二阶段,系统对检出结果的置信度进行计算,从而判断该结果是否可信。为实现在真实环境条件下的应用,我们在资源允许的条件下采用了尽可能精细的填充模型来解决填充模型选择困难的难题。同时,通过在一般情况下采取全局回溯技术,及在口语发音变异比较严重的场合采用局部回溯技术,有效的解决了关键词检出率不高这一问题。此外,我们还通过采用关键词网络和填充网络进行独立扩展裁剪,大大降低了系统性能对于进入填充模型的惩罚系数的敏感度,从而解决了调节进入填充模型的惩罚系数困难这一问题。图9关键词检出系统框架目前,国际上广泛采取的置信度估计手段主要有三类,即基于正确/误识两类分类器、基于对数似然比和基于后验概率的方法。考虑到对数似然比的方法和基于后验概率的方法在实际应用条件下具有很强的互补性,而基于正确/误识两类分类器可以作为上述两类方法有益的补充。我们在实际应用中,提出了综合利用上述三类方法。

(八)综合性能测试

在综合使用了音频信号质量评估、语音增强/去噪、音频模板检索、语种识别、音识别技术、敏感信息/时段监测。测试数据与环境:√2月1号-28号全部数据,共47960个文件,去掉临时测试文件,剩下46275个测试文件√17个语种模型√228个片头曲模型,其中包括集外语种(蒙、孟、乌、越)的40个片头曲模型√测试语音时长约72%为117秒,约28%为57秒√不限定话长和得分按天统计结果如下表所示:28天平均工作量减轻为46.84%,系统误报率仅为1.61‰。进一步分析可以发现,日减轻工作量与当日可进行处理的文件有强相关性,如图所示,说明系统运行性能稳定。

三、结语

音频内容综合处理技术在海外广播监测网中的成功测试,是先进的科学技术和实际应用的良好结合点。先进的技术结合了实际工作需求,反复测试和优化,系统的性能得到显著提升。将不能达到100%正确率的技术运用到需要100%准确的监测工作中,真正减少人工监测工作量50%。基于语种识别的国际台广播质量及效果综合评估集成技术,提出一套计算机自动打分方法并结合人工评分反复修正。并从真正减轻值班员工作量角度出发,综合利用语种识别结果的置信度技术,把识别结果分为确定而无需人工再次干预和需人工评判两类。另外,结合短波广播语音的噪声强、音乐多、存在片头曲等现象,不断增加和完善系统流程,集成了包括片头曲识别、音乐/噪声/语音分类、语音增强在内多项技术集成创新。基于语种识别的国际台广播质量及效果综合评估集成技术的研发进程显示,测试期间对数万个文件进行测试和分析,对常用的片头曲模型进行了重新优化和增减,对质量好识别性能差的句子针对性地进行了分析和试验,从错误中学习,进一步优化了模型。基于语音抗噪声技术,对信噪比较低的短波信道音质的广播语音实现了高可靠度的语种识别,在15个语种条件下识别准确率达到95%。同时应用基于似然比检验的识别结果置信度技术,对语种识别结果的错误部分进行自动剔除,使得置信度为100%的识别结果无需人工确认,将每天100小时的人工监测工作量减半,大大提高了监测工作的质量和效率。

作者:赵琰 单位:国家新闻出版广电总局

参考文献:

[1]杜利民.自动语言辨识研究[J].电子科技导报,1996(4).

[2]高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000(6).

[3]姜洪臣,梁伟,张树武,徐波.音频场景分类的音频特征提取和分析[J].声学技术,2005(6).

[4]杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学学报(工学版),2003(5).