智能语音识别在广播电视监测的应用

时间:2022-04-09 02:48:05

智能语音识别在广播电视监测的应用

摘要:随着媒体深度融合不断推进,各类新兴媒体持续涌现、遍地开花,广播电视内容监测从传统的广播、电视频道监测扩展到了互联网新兴媒体视听内容。海量、多元的互联网视听内容给监测监管工作带来了巨大的挑战,如何适应这一新形势是各级监管机构面临的共性问题。本文旨在探讨将自动语音识别和智能语义分析技术结合起来应用到监测监管工作中的可行性及优势。

关键词:智能语义分析;自动语音识别;内容监测

1引言

随着互联网技术的发展普及,手机、电脑逐渐成为了人们获取信息、学习娱乐的主要渠道,与之对应的各类互联网新媒体传播平台(短视频、直播、视频网站等)不断涌现,海量的网络视频、网络广播等互联网视听内容都成为了广播电视监测监管对象,使得监测监管工作变得更加艰巨和复杂,对监测监管从业人员的专业素质和监测技术手段提出了更高的要求。传统广播电视内容监测是将音视频节目录像先存贮,再通过图像识别、关键帧对比、语音特征识别等技术手段进行监测监管,存在监测时效性差、计算存贮资源需求高、违规识别准确率低等问题。随着互联网视听监测业务的不断拓展,这些劣势越发凸显,实现快速、实时、准确的对巨量、多元的互联网视听内容进行监测监管的需求变得越来越迫切。

2自动语音识别和智能语义分析技术

2.1自动语音识别。语音识别(ASR)是语音交互中最基础的一个AI技术环节,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型、语言模型以及字典与解码四大部分。此外,为了更有效地提取特征,往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来。特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示,连续语音识别原理框图如图1所示。当前,该技术发展已非常成熟,车载语音助手、智能语音输入等都已经普及在我们的各种生活场景中。2.2智能语义分析。智能语义分析是自然语言理解(NLP)的关键,自然语言理解是人工智能领域中的核心课题之一。当前,智能语义分析可以对文本进行自动化处理,主要应用于要素抽取、智能审核、舆情分析、知识搜索、自动写作等,在分析歧义、词语省略、代词所指、意图识别等的理解方面依然存在不足。但是,随着近年来人工智能技术的迅猛发展,经过不断的演化迭代,其智能化、类人化的理解能力已经越来越高,按照这个趋势,未来计算机一定能够逐步接近甚至达到类人自然语言处理能力。通过以上介绍不难发现,将语音自动识别和智能语义分析结合起来,运用到广播电视内容监测中,从技术实现上来说已经没有障碍,首先通过自动语音识别将音视频内容文本化,然后再利用智能语义分析对文本化的音视频内容进行分析监测,输出监测预警信息。当前,语音识别速度和准确率早已达到应用层面的标准,为音视频内容文本化的准确率提供了保障,通过样本库关键词句进行文本检索,就可以快速准确识别一般违规信息,这只是快速发现的第一步。对于较为复杂的违规信息,智能语义分析系统在不断的使用优化过程中,通过长期连续的神经网络训练和人工纠偏,逐步提高对长文本、复杂结构句式、特殊发声等各种定制监测需求违规信息的理解识别准确率,由文本内容检索逐步进化到拟人化的感知思考,应用前景明朗。

3现有监测监管技术手段存在的不足

3.1计算资源耗用高、时效性差。我们通常采用的视频识别对比监测需要对整个视频内容进行解码,然后将视频的每一帧或关键帧利用图像的颜色特征、形状特征、纹理特征等进行模板匹配,根据同样本库样本的相似程度做出评价,从而作为监测定性的依据。不管是结构识别还是统计识别的图像识别模式,视频图像识别对存贮读写速度、网络传输速率、CPU/GPU运算能力都提出了较高要求,占用计算资源较多,监测运行处理过程耗时,效率较低;音频内容则大多采用特征值提取的监测方式。在传统主流广播电视音视频内容监测中,监测系统在计算资源需求和数据处理时长上同监测对象的数据量成正比,实践中我们往往采取先采集收录,再分时段调配资源对内容进行监测监管的方法,绝大部分都是事后监管,时效性较差,想实现多套节目内容实时监测需要大量硬件投入。3.2违规误判较多、人工参与程度高。视频内容因其画面、颜色、构图方式存在千差万别,而且画面内容往往非常复杂,干扰因素多,通常采用的是特征符号对比、颜色比例规则等方式进行内容监测,输出的疑似违规报警信息数量庞大,报假警比例较高,需要投入大量人力进行人工审核来确定其是否违规,在当前互联网视听内容海量化的现状下,监测能力捉襟见肘。虽然利用神经网络训练算法进行图像识别的研究经过数年来不断的迭代优化,拟合能力和泛化能力越来越强,当前来看静态图像识别有一定的市场应用,但对视频流的识别准确率依然没有质的提升,同时对硬件资源的高度依赖也限制了它的发展前景。

4智能语音识别分析在广播电视内容监测中的应用优势

4.1技术成熟,资源耗用低,易于实现多路视听节目内容的实时监测。实时自动语音识别早已通过手机、电视、汽车等产品融入我们的日常生活,极大地提升了我们通信、居家、出行、购物等方方面面的用户体验。一台普通的手机,实时调用极少资源,即可胜任从语音识别分析到文字输出或者执行用户语音指令任务的全部流程,如果将现有的监测监管服务器集群计算资源处理能力应用到多路自动语音识别,那么对多路视听内容的实时监听能力将成指数级增长。每一路视听节目都分别生成一路文本输出,甚至可以要求互联网视听内容入网必须自主接入自动语音识别功能,向监测监管机构实时发送监听文本信息,监管机构的智能语义分析系统只需对多路输入的文本进行实时分析监测,整体上不会形成像处理视频流对硬件资源造成的需求压力,一旦达到这样的能力,网络空间的各类视听内容资源全部纳入实时监测不难实现,广播电视监测监管应管尽管的愿景成为可能,语音识别分析监管系统流程图如图2所示。4.2监测对象音频输出品质有保障,语音识别准确率高。广播电视及互联网音视频内容,大部分录音录像或者配音都有相对专业的录播间,以及普通话更加标准的主播、主持人。语音识别系统能获得环境噪声低、发音更加专业的高质量音源,有条件的音视频源码流可以直接将人声音轨进行分离,相对于大家日常的语音识别应用场景,纳入监管的视听节目源能够保证较高的语音识别转换准确率,为后续内容分析监测提供有力的支撑。4.3其他语种语言识别转换更加便捷。互联网音视频内容极其丰富,全世界不同地区、种族、语言的音视频内容在大屏小屏上经常可见,图像识别和语音特征值提取此时基本成了“睁眼瞎”和“聋子”。一般监测监管工作人员通过人工都很难有效辨别有害信息,而多语言混合识别技术只需要增加相应语种的声学模型,即可完成监测内容的文本输出和智能语义分析,可以替代需要多个拥有多语种能力人员完成的大量工作。4.4文本内容监管对违规有害信息的发现准确率高。语言作为意识形态传播的物质外壳,拥有其他传播形式不可撼动的核心地位。对于一张图片或者一段视频资源,同一画面内容的语言解读,可以有千百种,仅依靠画面监测或单纯的语音特征识别技术并不能有效发现违法违规的事件解读和舆论导向意图。文本智能语义分析可以进行同音、同义、同形等方面的变形分析,同时进行网络新词自动跟踪,对最新出现的网络用语进行识别,能够有效预警各种变形信息和潜在不良信息。智能语义分析系统利用神经网络算法,通过对大量现有及新增的违规案例的持续学习反馈训练,可以让计算机不断提升对各种表述方式的理解能力,准确分析出文本信息的内在逻辑和思想要义,从而提高内容违规判别准确性。

5结语

智能语音识别分析技术相比传统广播电视监测手段具有天然的优势,虽然目前智能语义分析能力还不完美,需要更加深入地开发和修正,但在当前将其作为广播电视监测新的补充手段值得探索。

参考文献

[1]洪青阳,李琳.语音识别:原理与应用[M].北京:电子工业出版社,2020.

[2]邓力.基于深度学习的自然语言处理[M].北京:清华大学出版社,2020.

作者:许永武 邹金池 赵时 单位:湖北省新闻出版广电监管中心