语音识别技术范文10篇

时间:2023-03-20 17:16:30

语音识别技术

语音识别技术范文篇1

关键词:语音识别;电网应用;深度学习;电力生产

语言是人类社会中交流的重要手段,也是最为有效的途径之一,而语音是语言的声学表征,从20世纪50年代开始,语音识别技术概念被提出并得到重视,随着计算机技术的快速发展与深入应用,同机器开展语音交流成为现实。到20世纪90年代后期,人工神经网络的应用使得语音识别系统真正开始实用化,通过对人类语音的容错性与自适应识别,使得计算机认知人的真实意图,从而完成一系列的相关执行动作[1]。近些年车载语音识别技术得到了较为广泛的开发与应用,也使得语音识别向其他行业逐渐扩展开来。对于电力系统而言,尽管语音告警、语音合成等带有语音的相关技术应用时间较长,但是针对语音识别技术的应用与开发同其他成熟行业相比来说,还较为浅显。随着智能电网建设的快速推进,语音识别技术这一具有明显智能特征的前端技术,必将在电网应用中得到较为广泛的应用与研究。

一、语音识别原理

从浅显角度上来看,语音识别就是人的声音信号转换为文字或者指令的相关过程[2],是语音信号处理的重要研究方向之一,它不仅是人工智能单个方向,是综合了微机技术、信号分析处理、模式识别、声学等多个学科的综合研究方向。针对不同限制条件下的相关领域,语音识别系统可划分为孤立词、连接词以及连续语音识别方式,而根据对语音产生对象的依赖程度,可划分为特定人以及非特定人两个层次,根据对语音词汇量的程度,可划分为小级别、中等级别、大级别以及无限制等多种程度的语音识别系统。从本质原理上,语音识别系统的基础主要为统计模式识别,综合了语音学以及语言学的大量信息,将语音输入对象特征向量序列进行一系列的转化,形成待处理的声学模型。在建立模型之后,开展相关的特征提取、模型搜索求解等相关操作。简单来说,就是将获取的语音信息进行模块处理,对相关的语音特征参数结合数据块进行模块匹配并识别,最终输出相应的识别结果,开展下一步的应用分析。根据语音识别的基本步骤分析,一般分为语音信号的获取、预处理、特征提取、相似性度量与模块匹配、数据后处理、识别结果输出等多个基本步骤。由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的,同时声学模型又是系统中最为重要的部分之一,主要存在建模单元选择、状态聚类、参数估计等多个方面。随着语音识别系统研究逐步深入,现阶段对于,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别均得到了重点关注[3]。

二、语音识别在电网中应用分析

(一)EMS人机交互与智能电网应用。在智能电网建设过程中,大电网各个组成部分之间关联较为紧密,在“统一调度、分级关联”的大调度模式下,区域电网之间的内在联系对于整个电网的可靠安全运行极为重要,进而使得各级调度管理机构需要协同配合,共同应对电网干扰与冲击,及时快速处理各类初期故障,避免发生连锁的大范围停电事故。鉴于传统调度电话联系方式在大型故障处理时容易形成信息拥挤堵塞、造成行为失配与处置失效的不足,在互联网与智能技术基础上开发形成了多级协同调度管理平台,而语音识别技术正是管理平台的关键技术之一[4]。通过人机交互实现语音自动纠错与识别,进而完成信息共享交互,有效避免信息拥堵问题,极大程度上提升协同工作效率。同时利用语音识别结果实现调度日志的自动记录、调度记录的智能查询,不仅显著减轻调度岗位人员的劳动强度,还能很大程度上提升电网调度指挥的准确性,避免误指挥事故的发生。(二)机器人巡检应用。随着无人值班变电所巡检机器人的大力推广与应用,对于巡检机器人的运行控制方式提出了相应的升级要求。传统的集控中心指令控制模式存在着变电人员无法直面机器人并现场查询设备状态信息、后台操控程序复杂等相应不足之处。为了充分发挥现场变电人员作用,对巡检机器人进行语音识别改造,增加语音识别控制功能,使得值班人员通过简单口令,实现巡检机器人的自动形式与相关巡检信息查询,进而为其他巡检操作提供信息参考[5]。具体的实现过程是通过无线话筒完成口令的,机器人自带的拾音器获取语音并经过特征提取,同数据块完成对比验证,形成最终的语音识别结果,就结果控制机器人传输检索数据或者开展下一步的行动。(三)其他领域应用。除了电力调度与变电站机器人巡检之外,语音识别系统还可应用到变电站一般巡检与线路主要设备巡视等其他方面。对于传统的设备巡检而言,存在着效率低下、完成质量不高的缺陷,通过智能巡检系统的搭建,在可视化系统的支撑之下,使得远程巡视成为可能,根据对巡检过程的标准格式与步骤的生成,使得语音识别技术远程控制成为可能。针对电力设备的巡视选择与巡检结果记录,通过简单的语音指令来实现,可极大程度上提升巡视过程效率,降低人员劳动强度。

三、结语

语音识别技术是融合多种技术的综合应用,是体现时代新技术的前沿方向,能够从根本上减轻人员作业强度,使得各项操作变得更加便捷与高效。随着智能电网建设的逐步推进,语音识别技术也必将在电力系统中得到较为广泛和更加深入的应用。

参考文献

[1]杨朴.电力系统中的语音应用技术研究[J].计算机仿真,2004(2):38-39.

[2]顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[3]戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221-225.

[4]马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93-97.

语音识别技术范文篇2

关键词:语音识别;动态时间规整算法;人工神经元网络

1背景介绍

语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。

语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。

2发展历史

1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamicprogramming)和线性预测分析技术(LinerPredictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入,基于特定人孤立语音技术的系统研制成功,隐马尔可夫模型和人工神经元网络(ArtificialNeuralNetwork)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。

3具体应用

随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。

在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。

4语音识别系统原理

语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。

语音识别过程如图所示。下面对该流程作简单介绍:

(1)语音采集设备如话筒、电话等将语音转换成模拟信号。

(2)数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。

(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。

(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。

(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。

(6)应用程序根据识别结果产程预定动作。

(7)该过程是语音模型的学习过程。5现有算法介绍

语音识别常用的方法有:模板匹配法、人工神经网络法。

(1)模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ)技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法(DTW)很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。DTW算法示意图如图所示。

设测试的语音参数共有M帧矢量,而参考模板有N帧矢量,且M≠N,则DTW就是寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上,并使该函数满足第k帧(k=1,2,…M)测试矢量I和第f(k)帧(f(k)=1,2…N)模板矢量J之间的距离测度之和最小:



另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语音的端点检测会存在较大的误差。DTW算法起点点可以固定在(tm,tn)=(1,1),称为固定起点;也可以选择在(1,2)、(2,1)等点,称为松驰起点。同样,中止点可以选择在(M,N)点,称为固定终点;也可以选择在(N一1,M)、(N,M一1)等点,称为松弛终点。松弛的DTW算法的起始点从(1,1)、(1,2)、(2,1)等点中选择一最小值,终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差,但运算量加大。

(2)人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可以适应语音的动态变化。

人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播(BackPropagation)学习算法的多层前馈网络。多层前馈型网络如图所示。

除上述介绍的几种常用的方法外,还有许多其它的识别方法以及改进算法。

6尚未解决的问题及值得研究的方向

(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。

(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。

(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。

参考文献

[1]杨尚国,杨金龙.语音识别技术概述[J].福建电脑,2006,(8).

[2]孙宁,孙劲光,孙宇.基于神经网络的语音识别技术研究[J].计算机与数字工程,2006.

语音识别技术范文篇3

1监测业务和技术的现状及分类

目前国内大多数广播电视台站的自动监测系统都只针对音频信号的质量好坏和信号的有无进行监测,而对于音频信号的来源及内容等安全方面的监测任务则更多地采用循环播放、人工监听的方式…。人工方式不仅效率低,而且不及时。应州于广播电视安全监测系统的音频信号监测技术从业务层面上可分为音频的内容监测和音频的质量监测。音频的内容监测主要是对采集的信息的收集、整理、解析和应用等过程中所出现的错误、疏漏、不当及不和谐、敏感信息的检查和把关,它关注的是音频所表述的具体内容。音频的质量监测主要是对已经制作完成的广播电视节目在音频信号的生成、处理、传输和收发过程中出现的干扰、噪声、电平过低、中断和信源突变等状况所进行的实时监控和更正,它注重的是音频信号的质量及来源的正确性。二者虽然针对的业务层面不同,却彼此依赖相互联系。音频内容的好坏会直接影响到音频质量的高低,音频质量的高低也会直接影响终端听众对信息内容的获取量和正确率。总之,对音频内容和质量的监测都是为了保证听众能收到正确、优质和不间断的音频信号。目前,可应用于音频信号监测任务的技术可分为音频比对技术、音频识别技术、数字水印技术这三大类。

2音频比对技术

音频比对技术是利用数字音频的时域或频域特征或属性来分析两段音频序列的相似度,再相似度的大小来判断这两段音频序列播放的是否是相同或相似的内容。其大概流程如图1所示。首先,将要处理的2路音频序列通过多路音频采集卡采集到设备中,并进行滤波、增益补偿等处理;其次,将得到的2路音频信号进行模数转换,再对得到的数字信号进行压缩处理;然后,提取2路信号的特征参数或者属性;最后,比较提取出来的参数或者属性,得出2路音频信号的相似度,再由相似度来判断2路信号是否相同或者相似。滤波和增益补偿等预处理是为了滤除音频中的噪卢、干扰脉冲及平衡音频的电平差等。

压缩处理是为了减少音频中相关性较低和不相关的参数,减少后续工作量,提高处理的实时性(目前比较流行的压缩算法是利用小波函数压缩)。参数和属性的提取是从音频流中以帧为单位提取出2路音频的质心、均方根、Mel倒谱系数以及音高、振幅、带宽、能量等。音频比对是利用上一步提取的参数或属性进行计算和比较,将比较结果同预先设定的阈值进行对比,得出最终结果。音频比对技术在实现时不考虑音频的具体内容,它只注重音频序列的关键参数和属性的相似度。目前对音频技术的应用需求更多的还是涉及到音频的语意和具体内容方面,这项技术的适用领域相对来说比较小,但是它基本上能满足广播电视的质量监测的任务需求。

3音频识别技术

音频识别技术主要以语音为研究对象,许多资料亦称之为语音识别技术。它是指让系统依据语音和人声的特性、事先建立好的语音模板库或人类的大脑神经系统的活动原理对人们发出的声音或者保存的语音数据进行逐字逐句识别并转化为文本、对语音的特征语意进行判断和响应或者执行特定的命令任务的技术。从说话者异同方面,可以将语音识别系统分为特定人语音识别系统、非特定人语音识别系统和多人语音识别系统。从语音的产生和输入的方式,可以将语音识别系统分为孤立词语音识别系统、连接词语音识别系统和连续语音识别系统。

从语音包含的词汇量大小,可以将语音识别系统分为小词汇量语音识别系统、中等词汇量语音识别系统和大词汇量语音识别系统。语音识别技术从方法和实现层面总体可以分为三种:基于语音基元的共有特性和声学属性的方法,基于模板的建立和匹配的方法,基于人工神经网络的方法。声学属性的方法又细分为基于动态时间规整方法(DTW)的语音识别技术、基于隐马尔可夫理论(HMM)的语音识别技术和基于矢量量化算法(VQ)的语音识别技术等。基于模板匹配的语音识别技术大致流程如图2所示。其中自“参数属性提取”之前的处理过程与上文介绍的音频比对技术的过程基本相同,此处不再赘述。提取参数之后需要先使用一定的训练算法对提取出来的参数进行训练以建立声学模板库,有了声学模板库就可以对输入的语音数据进行识别了。识别的过程就是将输人的语音的特征或参数同模板库进行计算和比较,得出最终结果。现在人们研究和使用的较多的语音识别的主流技术是基于隐马尔可夫理论(HMM)的语音识别技术,它可以胜任大词汇量、非特定人和连续的语音识别任务,并且识别准确率已基本达到了实用水平。相比之下,基于人工神经网络的语音识别技术的应用前景则更被人们看好,但它是一门尚处于实验探索阶段的新兴技术。音频识别技术更注重于音频的语义和内容,所以它基本上能满足广播电视的内容监测的任务需求。

4数字水印技术

数字水印技术是指在不影响质量和不易被发觉和篡改并且可以被授权者识别出来的要求下将水印(防伪)信息嵌入到图像和音视频等的原始数字数据中,以实现数字作品的版权确认和保护。数字水印技术隶属于信息隐藏学,早期主要用于图像处理技术,后来扩展到了文本和视频领域,最近人们又开始研究将其应用到音频信号中。数字水印技术一般包含嵌人过程和提取验证过程,其大概的流程如图3和图4所示。数字水印在技术实现上通常分为可见水印(明文水印)技术和不可见水印(盲水印)技术。由于容易被察觉和受到攻击,可见水印技术目前已经不再被人们看好。不可见水印技术有着不影响原始数据的质量和不易被察觉等的优点,正逐渐成为人们研究的热点。不可见水印技术的实现方法大体可以分为在空间域中实现的方法和在变换域中实现的方法两种。

在空间域中实现的方法是在时域内直接对信号的值进行修改并嵌入水印信息,这种方法有着计算简单、计算量小和兼容有损压缩的信号和滤波的信号等优点,但为了保持水印的隐蔽性,它能嵌入的水印的信息量极为有限。在变换域中实现的方法是先将信号进行一定的变换,如快速傅里叶变换、离散小波变换、Z变换和离散余弦变换等,然后再将水印嵌入变换后的信号中。与在空间域中实现的方法相比,这种方法有着隐蔽性强、容易结合、可嵌入的水印信息量大和兼容压缩数据等优点;不足之处是计算复杂而且计算量大,不适用于大数据量和对实时性要求高的系统。

语音识别技术范文篇4

关键词:STM32单片机,智能语音控制,程序设计,语音识别

STM32单片机控制的智能语音刷卡系统当前被越来越多的应用于各个领域,该系统能够在消费者进行刷卡消费时使用语音功能输入消费价格,在使用过程中更加方便快捷。该系统主要具有强大的语音识别功能和刷卡功能,在执行语音功能时可以将其悬挂在腰间,或者其他位置。语音系统内部结构包括一个麦克风以及连接线,系统主要是通过挂在腰间的语音识别装置进行语音识别和转换,然后将信息上传至系统内部,从而智能控制刷卡机达到语音识别目的。本系统可以在刷卡成功后通过电子屏显示消费者银行卡的余额等信息,通过对这一系统的推广和应用极大地提高了商场等收银工作的工作效率以及准确率,减少误差。本文通过对STM32单片机控制的智能语音刷卡系统的运行原理、结构分析和讨论,希望能够更好地将该系统推广到各个领域当中,提高其使用价值。

1研究背景

以STM32单片机控制装置为主要部分的智能语音刷卡系统,能够更好地施展其语音识别功能,该系统是通过内部特殊装置来对语音进行分析和定位,最终完成识别工作,然后将识别后的信息传送至中央系统,通过中央系统对刷卡装置发送指令最终完成语音刷卡任务。这一系列的操作过程都要利用电脑程序编排,只有经过软件对该系统进行科学合理的编程,对STM32单片机装置进行严谨的数据分析和处理,才能够是中枢控制系统接收到准确无误的信息数据,从而保证系统能够更好地完成刷卡任务。我国STM32单片机智能语音刷卡系统应用已经十分普遍,各大商场甚至中小私营门面都引进该系统,用于店铺收银工作,该系统具有生产成本低,操作简单,小巧方便便于携带等诸多优点。因此,为了更好地将该系统应用在各个领域当中,我们应该更加清晰明了的掌握该系统的内部结构以及运行理论,充分的改进和完善该系统,使其能够更好地为我们提供服务。

2STM32单片机控制的智能刷卡系统

将STM32单片机控制装置应用于智能语音刷卡系统当中,极大的缩小了刷卡系统的空间,在多种多样的单片机控制装置当中,选择STM32单片机主要是由于其自身具有强大的语音处理功能,能够准确无误地对输入的音频进行数据处理和分析,通过系统内部的电脑程序快速有效的识别出该语音是否正确,可否进行下一步操作,有效地保证语音刷卡的安全性。

2.1系统内部结构

图1中,STM32单片机是性价比最高的语音刷卡系统控制装置,它内部具有准确度极高的10位AC系统芯片,该AC系统新能够更好地进行音频转换,并且内部装置了自动电路来对音频进行实时收录,然后AC系统芯片在接收后进行语音播放,之后该系统内部的电脑程序会对收入的语音进行数据计算快速地完成语音识别目的,STM32单片机拥有一套独特的指令程序,能够支持不同环境下的语音识别,即使在外部比较嘈杂的环境当中也能够精准地提炼出需要识别的语音,极大地保证了刷卡系统的安全性,提高了系统的工作效率。与此同时,STM32单片机装置内部具有强大的函数运算程序,只要系统能够有效地识别语音,并且进行语音播放系统内部的函数程序就会智能启动运算功能,快速完成语音识别工作。另外STM32单片机还具有先进的芯片对接口,用户可以通过芯片接口进行程序下载,方便快捷,操作简单。

2.2内部语音识别功能

STM32单片机的内部语音识别装置主要包括内部音频信号接收器、数字信号处理器以及电脑程序编程等部分组成。该系统在运行过程中首先应用内部音频信号接收器对外部音频信号进行接收,之后通过内部处理器将音频进行播放,使用内部编程好的电脑程序对音频各项数据进行计算,得到数据结果,之后将数据结果快速传送到中央系统,中央系统通过数据结果来判断输入语音是否可以进行接下来的刷卡任务。当前STM32单片机是数字语音识别系统当中最为广泛的一种单片机。

2.3程序调试功能

STM32单片机内部装有微型控制器,能够有效地满足不同的用户需求,该系统充分考虑到用户的需求资源较少问题,通过微型控制器的设置,在用户增加需求时可以进行自主调试,来满足用户的使用要求。STM32单片机具有较快的处理信息的速度,能够更好地对复杂的音频信息进行分类处理,STM32单片机内部的数据模块结构可以有效地应对各种复杂情形造成的语音采集结果不理想的问题,通过模块内部强大的功能处理来更好的执行语音识别功能。当用户对语音识别存在不同需求时,首先可以通过数据端口连接有需求的数据,然后对后台运行系统的数据进行调试,使其能够更好地适应当下使用,发挥其语音识别功能保证刷卡工作顺利有序开展。

3智能语音刷卡系统的功能模块

3.1中央控制系统

芯片的主要构成部分主要包括32位的微型控制器、程序存储卡等,在该程序运行过程中外部工作环境保持在-40~80℃即可,该程序除了极端恶劣环境外基本上可以满足各种工作环境下的运行,工作电压只需要保持在3V左右即可。由此可见,该工作芯片控制系统工作环境要求较低,在满足程序运行要求的同时还具有简单轻便易携带的优点,是一款实用性较强的综合语音刷卡系统。

3.2语音识别模块

该系统的主要工作原理就是利用特定的装置和技术通过语音的收录,进行内部系统数据运算从而达到辨识语音的目的,只有准确的及时地发挥语音识别功能才能够有效地支持刷卡工作的进一步落实。该系统能够有效地捕捉系统收录的语音关键词,并且可以对其进行动态化的编辑计算,来达到准确率较高的识别效果。支持该部分工作运行的核心元件是语音声控芯片,它是支持语音识别工作的重要保障。

3.3系统的电平串口模块

该系统进行这一设置的主要目的是能够更加方便快捷地将刷卡系统与单片机进行连接,只有将两者有效地进行连接,才能够顺利完成整套操作流程,在语音识别模块完成语音采集和识别工作后将准确信息发送至系统,再由系统下达指令,当刷卡装置接收到系统指令后才能够执行刷卡任务,保证刷卡更加安全可靠,工作流程更顺利。

3.4系统的蓝牙模块

STM32单片机智能语音刷卡系统设置了蓝牙模块,可以通过蓝牙传输功能实现信息传送,将信息实时准确的发送反馈给系统内部,避免了在进行信息传输时使用端口传输带来的不便,蓝牙传输功能的使用和开发极大提高了系统的可操作性,方便用户在进行信息采集时操作更加简单,蓝牙模块的设置有效地提高了STM32单片机智能语音刷卡系统的信息传输速度,使其在运行过程中更加稳定快速和灵敏。

3.5系统的显示模块

该系统的显示模块主要是应用和设置智能LED显示屏,使用户在进行刷卡消费后,能够及时地将用户消费信息以及银行卡余额等展示在LED显示屏上,该显示屏具有超高的分辨率,能够使信息更加清晰明了的展示在显示屏上。并且显示屏所选用的汉字和图案整体比例和结构设计比较合理,能够给人更好的视觉对比冲击,具有超大的视觉广角。虽然如此,该显示屏的运行功率消耗却比较低,不会占用系统运行得过多空间。由此该模块的设置能够更好地提升智能语音刷卡系统的使用功能,更加方便用户了解消费内容。

3.6系统的刷卡模块

该系统主要使用RFIDRC522射频刷卡模块,这一刷卡模块的主要优势在于其运行过程中需要比较低的电压支持即可,并且该系统制作成本较低,体积较小可以更加方便的应用在刷卡系统内部,该刷卡模块具有非接触通信功能,能够快速实现和语音识别装置的信息传输,快速识别系统发出的指令,执行刷卡任务。该模块使用的芯片进行科学的合理设计能够拥有独立的读卡电路,使用起来更加方便快捷,有利于刷卡终端快速接收信息,进行下一步操作。刷卡模块在工作时只需要三伏左右的电压即可,可以持续地与主机保持通信联系,极大地节约了主机工作时的能量消耗,在保证刷卡工作顺利稳定地进行的同时极大地降低了系统运行成本。

3.7系统的供电模块

通过以上分析和介绍,我们可以知道该系统内部个元件的运行都不需要较大的电力消耗,并且该系统体积较小,不需要使用过于繁重的供电系统。因此该系统只设置了两节锂电池作为其供电支持,该供电模块能够持续稳定的保证系统有效运行。

4智能语音刷卡系统的程序设计

4.1系统的主体设计

该语音智能刷卡系统主要是通过系统口罩处的麦克风进行音频收集,然后将其传送至语音识别模块,经过语音识别模块内部的程序计算有效地得到准确的语音信息,在经由STM32单片机对数据进行数字化处理后将数字结果传送给中央系统,最后有系统内部的蓝牙通信装置将信息数据结果传送给刷卡装置,刷卡系统在接收到执行指令后即可实现语音识别刷卡目的,从而准确地对消费者的消费数额进行扣除后将消费信息展示在LED显示屏上。

4.2系统的语音控制系统

该语音智能刷卡系统主要由两大部分组成,其中语音控制系统是该系统发挥功能的重中之重,工作人员在使用该系统时通过系统口罩处的麦克风将具体消费金额输入系统内部,在工作人员进行语音输入的同时,语音识别控制系统开始进行工作,经过快速的有效地对输入语音的音频分析和数据计算来得到准确数据结果,然后通过蓝牙模块将数据传送给刷卡系统。STM32单片机的语音识别模块具有多个连接端口与蓝牙模块以及终端系统等系统内部各装置进行有效连接,及时通过端口连接进行信息输送,保证系统工作有序顺利进行。与此同时STM32单片机的语音控制模块具有比较强的语音识别功能,即使音频收入过程中外部环境比较嘈杂,系统也能够准确地对音频进行识别和收录,使其能够快速地完成语音识别任务。

4.3系统的刷卡控制系统

智能语音刷卡系统的设置主要是通过对系统内部蓝牙模块发出指令的接收,来继续执行刷卡功能的任务,该刷卡控制系统能够快速有效地在接收蓝牙模块发出的指令后执行刷卡指令,并且在消费者进行刷卡消费后,该系统还可以通过STM32单片机将消费者的消费信息展示在LED显示屏上,使消费者能够更好地了解到自己的消费信息。同样该系统模块与刷卡系统内部的多个装置进行端口连接进行信息传递,快速地进行信息处理,从而更加及时有效地完成系统工作任务。

5结语

本文分析和总结,可以更好地了解STM32单片机控制下的智能仪刷卡系统的主要运行原理和功能,这一系统可以通过语音输入消费者消费金额,通过系统语音识别来达到刷卡目的,大大提高了工作效率,简化了收银流程,并有效避免传统收费方式的弊端,收费金额更加准确,不会由于人为原因而导致收费误差,这一系统具有广阔的发展空间和市场前景,智能语音刷卡系统的使用使收银工作更加轻松有效地提高员工的操作效率,减少了消费者等待时间,提高了工作效率的同时也提高了消费者的消费体验。由此可见,STM32单片机控制下的语音智能刷卡系统是值得广泛推广和使用的。

参考文献

[1]李志远.语音识别技术概述[J].中国新通信,2018,20(17):74-75.

[2]谢杰腾.服务机器人语音识别技术研究与实现[D].广东:广东工业大学,2015.

[3]黄峻远.语音技术开发应用探究[J].电子世界,2018(22):92+94.

[4]马宁.射频IC卡及其读写器的设计与实现[D].湖北:华中科技大学,2005.

[5]仲文祥.基于STM32的无线刷卡终端的设计与实现[J].电子世界,2012(24):153-154.

语音识别技术范文篇5

关键词:智能语义分析;自动语音识别;内容监测

1引言

随着互联网技术的发展普及,手机、电脑逐渐成为了人们获取信息、学习娱乐的主要渠道,与之对应的各类互联网新媒体传播平台(短视频、直播、视频网站等)不断涌现,海量的网络视频、网络广播等互联网视听内容都成为了广播电视监测监管对象,使得监测监管工作变得更加艰巨和复杂,对监测监管从业人员的专业素质和监测技术手段提出了更高的要求。传统广播电视内容监测是将音视频节目录像先存贮,再通过图像识别、关键帧对比、语音特征识别等技术手段进行监测监管,存在监测时效性差、计算存贮资源需求高、违规识别准确率低等问题。随着互联网视听监测业务的不断拓展,这些劣势越发凸显,实现快速、实时、准确的对巨量、多元的互联网视听内容进行监测监管的需求变得越来越迫切。

2自动语音识别和智能语义分析技术

2.1自动语音识别。语音识别(ASR)是语音交互中最基础的一个AI技术环节,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型、语言模型以及字典与解码四大部分。此外,为了更有效地提取特征,往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来。特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示,连续语音识别原理框图如图1所示。当前,该技术发展已非常成熟,车载语音助手、智能语音输入等都已经普及在我们的各种生活场景中。2.2智能语义分析。智能语义分析是自然语言理解(NLP)的关键,自然语言理解是人工智能领域中的核心课题之一。当前,智能语义分析可以对文本进行自动化处理,主要应用于要素抽取、智能审核、舆情分析、知识搜索、自动写作等,在分析歧义、词语省略、代词所指、意图识别等的理解方面依然存在不足。但是,随着近年来人工智能技术的迅猛发展,经过不断的演化迭代,其智能化、类人化的理解能力已经越来越高,按照这个趋势,未来计算机一定能够逐步接近甚至达到类人自然语言处理能力。通过以上介绍不难发现,将语音自动识别和智能语义分析结合起来,运用到广播电视内容监测中,从技术实现上来说已经没有障碍,首先通过自动语音识别将音视频内容文本化,然后再利用智能语义分析对文本化的音视频内容进行分析监测,输出监测预警信息。当前,语音识别速度和准确率早已达到应用层面的标准,为音视频内容文本化的准确率提供了保障,通过样本库关键词句进行文本检索,就可以快速准确识别一般违规信息,这只是快速发现的第一步。对于较为复杂的违规信息,智能语义分析系统在不断的使用优化过程中,通过长期连续的神经网络训练和人工纠偏,逐步提高对长文本、复杂结构句式、特殊发声等各种定制监测需求违规信息的理解识别准确率,由文本内容检索逐步进化到拟人化的感知思考,应用前景明朗。

3现有监测监管技术手段存在的不足

3.1计算资源耗用高、时效性差。我们通常采用的视频识别对比监测需要对整个视频内容进行解码,然后将视频的每一帧或关键帧利用图像的颜色特征、形状特征、纹理特征等进行模板匹配,根据同样本库样本的相似程度做出评价,从而作为监测定性的依据。不管是结构识别还是统计识别的图像识别模式,视频图像识别对存贮读写速度、网络传输速率、CPU/GPU运算能力都提出了较高要求,占用计算资源较多,监测运行处理过程耗时,效率较低;音频内容则大多采用特征值提取的监测方式。在传统主流广播电视音视频内容监测中,监测系统在计算资源需求和数据处理时长上同监测对象的数据量成正比,实践中我们往往采取先采集收录,再分时段调配资源对内容进行监测监管的方法,绝大部分都是事后监管,时效性较差,想实现多套节目内容实时监测需要大量硬件投入。3.2违规误判较多、人工参与程度高。视频内容因其画面、颜色、构图方式存在千差万别,而且画面内容往往非常复杂,干扰因素多,通常采用的是特征符号对比、颜色比例规则等方式进行内容监测,输出的疑似违规报警信息数量庞大,报假警比例较高,需要投入大量人力进行人工审核来确定其是否违规,在当前互联网视听内容海量化的现状下,监测能力捉襟见肘。虽然利用神经网络训练算法进行图像识别的研究经过数年来不断的迭代优化,拟合能力和泛化能力越来越强,当前来看静态图像识别有一定的市场应用,但对视频流的识别准确率依然没有质的提升,同时对硬件资源的高度依赖也限制了它的发展前景。

4智能语音识别分析在广播电视内容监测中的应用优势

4.1技术成熟,资源耗用低,易于实现多路视听节目内容的实时监测。实时自动语音识别早已通过手机、电视、汽车等产品融入我们的日常生活,极大地提升了我们通信、居家、出行、购物等方方面面的用户体验。一台普通的手机,实时调用极少资源,即可胜任从语音识别分析到文字输出或者执行用户语音指令任务的全部流程,如果将现有的监测监管服务器集群计算资源处理能力应用到多路自动语音识别,那么对多路视听内容的实时监听能力将成指数级增长。每一路视听节目都分别生成一路文本输出,甚至可以要求互联网视听内容入网必须自主接入自动语音识别功能,向监测监管机构实时发送监听文本信息,监管机构的智能语义分析系统只需对多路输入的文本进行实时分析监测,整体上不会形成像处理视频流对硬件资源造成的需求压力,一旦达到这样的能力,网络空间的各类视听内容资源全部纳入实时监测不难实现,广播电视监测监管应管尽管的愿景成为可能,语音识别分析监管系统流程图如图2所示。4.2监测对象音频输出品质有保障,语音识别准确率高。广播电视及互联网音视频内容,大部分录音录像或者配音都有相对专业的录播间,以及普通话更加标准的主播、主持人。语音识别系统能获得环境噪声低、发音更加专业的高质量音源,有条件的音视频源码流可以直接将人声音轨进行分离,相对于大家日常的语音识别应用场景,纳入监管的视听节目源能够保证较高的语音识别转换准确率,为后续内容分析监测提供有力的支撑。4.3其他语种语言识别转换更加便捷。互联网音视频内容极其丰富,全世界不同地区、种族、语言的音视频内容在大屏小屏上经常可见,图像识别和语音特征值提取此时基本成了“睁眼瞎”和“聋子”。一般监测监管工作人员通过人工都很难有效辨别有害信息,而多语言混合识别技术只需要增加相应语种的声学模型,即可完成监测内容的文本输出和智能语义分析,可以替代需要多个拥有多语种能力人员完成的大量工作。4.4文本内容监管对违规有害信息的发现准确率高。语言作为意识形态传播的物质外壳,拥有其他传播形式不可撼动的核心地位。对于一张图片或者一段视频资源,同一画面内容的语言解读,可以有千百种,仅依靠画面监测或单纯的语音特征识别技术并不能有效发现违法违规的事件解读和舆论导向意图。文本智能语义分析可以进行同音、同义、同形等方面的变形分析,同时进行网络新词自动跟踪,对最新出现的网络用语进行识别,能够有效预警各种变形信息和潜在不良信息。智能语义分析系统利用神经网络算法,通过对大量现有及新增的违规案例的持续学习反馈训练,可以让计算机不断提升对各种表述方式的理解能力,准确分析出文本信息的内在逻辑和思想要义,从而提高内容违规判别准确性。

5结语

智能语音识别分析技术相比传统广播电视监测手段具有天然的优势,虽然目前智能语义分析能力还不完美,需要更加深入地开发和修正,但在当前将其作为广播电视监测新的补充手段值得探索。

参考文献

[1]洪青阳,李琳.语音识别:原理与应用[M].北京:电子工业出版社,2020.

语音识别技术范文篇6

1计算机人工智能识别技术

所谓智能识别技术,即立足于计算机系统、扫描设备、照相机技术等先进技术的基础上,对目标指令、数据信息展开智能识别,提高识别准确性与效率,从而满足目前社会发展过程中对智能识别提出的严格要求。人工智能识别技术是在语音识别技术的基础上延伸而来,语音识别技术主要是在手机控制中得到运用,为人民群众的生活提供高质量服务。随后技术人员开发了人工智能识别技术,在运行过程中更多利用语音识别,语音内容、手机发出的指令比对之后展开分析,从而保证选择的有效性。在实际应用中渗透人工智能识别技术,能够真正减少工作量,提高工作效率,这对于社会的飞速发展有重要作用。

2计算机人工智能识别关键技术现状

目前我国人工智能识别技术的研发、应用依然处于发展阶段,与国外对比还没有非常完善且成熟的技术体系。同时,各个国家就人工智能识别技术展开交流与合作,这为我国研发人工智能识别技术新的机遇。通过不断实践与研发,人工智能识别技术水平显著提升,同时也为人们的工作与生活带来诸多便利。改善了生活条件。同时,我国相关部门对人工智能识别技术给予足够的重视,投入大量资金,市场规模不断扩大。2016年市场规模为16亿元,2017年增加到21亿元,2018年为26亿元,预计2019年和2020年有望突破40亿元。但是,人工智能识别技术在实践应用的过程中依然面临问题,和国外整体发展水平有一些差距,以上便是目前需要解决的解决重点问题。

3计算机人工智能识别关键技术运用

3.1语音识别技术。针对语音识别技术进行研发,其核心目的在于让所有事物、机器都能够准确识别人类语言,在该技术的基础上积极开发并创新人机语言交互技术。所以,语音识别作为有关部门关注的重点内容,在实践研究中得到诸多关注。目前基于语音识别技术的产品研发逐渐普及,并且在各个领域得到运用,使人们的生活更加便捷。比如语音识别技术通过MFCC提取过程、预加重、分帧加窗、离散傅里叶变换、Mel滤波器组、Mel滤波器组、高斯函数gmm等在声控电话交换、语音通信系统识别、语音交流中的运用,预加重环节需要运用到H(Z)=1-μz-1公式,分帧加窗环节则运用到公式,而离散傅里叶变换环节则运用到公式。一方面实现高效率的语音交流,另一方面营造了真实的通话环境,使人们获得良好的通话体验。3.2机器人技术。进入到信息化时代之后,机器人技术便开始得到广泛应用。同时,为了能够满足时展要求,使机器人技术能够成为一门独立的学科,加强其成熟性,在研发与应用过程中投入大量精力与资金,不断创新机器人技术体系。目前智能机器人的应用范围不断扩展,并且凭借智能化技术获得非常显著的效果。在时展影响下,人工智能识别技术、机器人技术充分结合在一起,这对于两项技术而言有非常重要的作用,直接推动所在行业发展,加强对人工智能识别的研究,通过智能机器人优势,提高工作效率,减少企业成本投入。3.3人工神经网络技术。人工神经网络技术在实践操作中十分常见,通过现代化处理单元的互连,构成成熟的网络系统,能够进行逻辑思维,模拟人的大脑,同时也具有人脑中一些比较简单的功能。一般人工神经网络也被称之为神经网络,模拟人脑神经系统制备与人脑能力相似的模拟系统,并且通过人脑处理的基本原理进行相应问题的处理。最为常见的是工业领域的电子元件、处理元件、人工神经元,能够切实满足工业生产要求。人工神经网络处于运行状态下,更多是通过实际神经元负责知识存储、提取,以此来完成具体操作。3.4远程自主规划及远程自主控制技术。计算机人工智能识别技术对于远程规划与控制也有明显的作用,例如航空航天领域通过该技术管理、控制地球距离,从而达到控制外太空航天器的目的。再如NASN通过计算机人工智能识别技术对航天器进行控制与调整,是航空航天领域的一座里程碑,也是世界上第一个应用计算机人工智能识别技术进行远程监控的案例。将系统控制任务、远程监控系统充分融合,确定管理方向,在实践中完成自主规划,如此一来便可以实现动态监控,获取远程控制的准确数据。除此之外,工作人员利用计算机人工智能识别技术,也可以了解设备运行状况,明确程序内部的问题,并且对其进行调整,分析设备检测目标、诊断目标与恢复指标,实现设备的正常运行。

4结束语

综上所述,计算机人工智能识别技术是目前研究的重点,为了能够扩大应用范围,需要在今后实践应用的过程中总结经验,做好技术研发工作。因为目前我国在计算机人工智能识别技术研究处于发展阶段,有关人员必须要结合环境发展趋势与要求,做好研发工作。

参考文献

[1]王雪淳.基于图像识别与生成技术的人工智能应用[J].科技传播,2019(07):153-154.

[2]张炜.人工智能识别技术及其应用[J].科技经济导刊,2019,27(07):25-26.

语音识别技术范文篇7

关键词:AI;安全播出;大数据

1引言

随着我国经济发展和社会进步,人民群众对精神文化生活的需求日益增长。广播电视播出机构通过不断增加播出频道数量和节目内容来满足用户这方面需求,这对作为广播电视产业发展的基础和广播电视工作生命线的安全播出工作提出了更高要求。在我国,广播电视承担了党、政府和人民宣传喉舌的特殊功能,是舆论引导的主要工具。安全播出是广播电视运营商的首要任务,而内容安全是安全播出的重点之一,特别是涉及政治、外交、军事、国计民生大政方针等内容时,更加不能有丝毫差错。

2内容安全审核与播出现状

对于有线电视运营商来说,安全播出包括电视节目的播出、传输与覆盖等网络传输环节,也包括点播形式的媒资和页面海报等内容呈现环节。其中,媒资内容安全涉及意识形态和舆论导向,是安全播出重中之重的环节。针对媒资内容的安全播出措施主要包括播出前审核和播出过程中监听监看。目前,对媒资内容的审核由审核专家采取人工方式进行,人工审核的特点是审核效率有限。播出过程中对媒资内容进行监听监看以人工方式为主,但这种方式存在明显不足:第一,对内容安全的认知取决于人员业务素质、主客观判断等因素,不同人员对同样内容的认知结果存在差异;第二,栏目数量和点播媒资内容日益增多,需要增加具备安全播出业务素质的人员数量,相应的人力成本也会大幅增加;第三,监听监看人员值守期间安播压力大,精神高度紧张,工作体验不佳,专业人员流失严重。针对内容审核以人工方式为主存在的问题,通过引入AI技术,基于智能算法,辅助内容安全审核,可以大幅度减轻目前内容安全审核压力,提升安全播出的工作效果。

3AI技术发展现状

近些年,随着互联网和大数据的发展,AI技术得到了高速和深入发展,很多领域的AI技术,如人脸识别、图像识别、语音识别、OCR文字识别、自然语言处理(NaturalLanguageProcessing,NLP)等,已经具备成熟的算法,通过大量数据的训练和配备强大的运算能力,其识别精度和处理速度已经能够满足实际应用的需求,也在各种场景中逐步得到应用。

3.1人脸识别

人脸识别,基于深度学习算法,能够准确识别视频中的人脸信息,提供人脸检测、人脸1:1比对、人脸1:N识别等能力。人脸识别算法应用过程是通过建设敏感人物人脸库,基于人脸检测和1:N识别技术对流数据预处理层分发的视频流数据进行人脸检测(找出视频帧中是否存在人脸)和人脸识别(对于通过人脸检测找到的人脸,与已有敏感人物人脸库中的N个人脸进行比对,找出最相似的一张脸或多张脸,并给出相似度排序判断,从而判别是否有敏感人物出现在节目中)。

3.2图像识别

图像识别,基于深度学习算法及大规模图像训练,可以准确识别图片的内容分类或图片中包含的物体类别,从而可以审核图片是否含有色情、暴恐等不健康内容或违规物品。图像识别算法应用过程是通过提取节目视频关键帧后,转换为一张张图片,然后传送给图像识别算法,图像识别算法会给出其属于色情、暴恐的概率或图像中出现违规物品的概率,相关违规分类或违规物品需要提前定义并进行训练样本标注。

3.3语音识别

语音识别算法能够让计算机自动地识别语音中所携带的信息。基于深度学习的算法,语音识别和处理技术可以克服传统语音识别中采用时间、频率而导致的不稳定问题。语音识别算法应用过程先对音频文件进行识别处理,在我国一般要求能够识别普通话、粤语、英语,并将结果转换为中英文文本,再由自然语言处理引擎对文本内容是否敏感违规进行分析识别。现在语音处理技术在秒级实时语音识别方面仍然不够成熟而且支持语言有限制。因此,如果应用在直播节目实时监管的场景上,语音识别只能作为辅助手段,采用分钟级延迟;对回放视频和回放音频则没有延迟的问题。

3.4OCR文字识别

对硬字幕的视频文件,可以进行视频帧提取并转换为一张张图片,然后借助OCR文字识别技术进行处理,获得视频帧中出现的字幕文本,再由NLP引擎对文本内容是否敏感违规进行分析识别。

3.5自然语言处理

自然语言处理算法是AI智能深度学习的一个重要应用领域,经过几十年的发展,基于统计的模型已经成为NLP的主流,同时人工神经网络在NLP领域也受到了足够重视。自然语言处理算法提供包括分词、命名实体识别、文本分类等功能。在我国,通过自然语言处理算法对视频字幕和音频转换后的文本以及节目网站的其他文本进行敏感或违规内容识别,能支持中英文文本识别。

4AI在安全播出领域应用需求分析

4.1AI在节目审核中的应用

功能上,AI技术已支持图像、文本、视频、音频的识别与理解,可提供内容敏感、淫秽色情、恐怖暴力及不良图文信息鉴别过滤等多个维度的审核能力。但在实际情况中,媒资内容中往往存在语意不清、界限模糊的内容,需要通过专家的人工审核来鉴别,而专家的政治素质和业务素质是审核鉴别的关键因素。在广播电视行业,对媒资内容的审核能力,对不良信息的鉴别能力是需要经历长期培养和实践方可形成的;同时,审核专家还必须实时更新业务知识方可跟上安全播出的需求发展。因此,在较长时期内,AI审核无法代替人工审核,媒资内容审核必须依靠有经验的审核专家。AI系统对于较确定条件下的情景具有快速判断和处理的能力,可将AI应用于对媒资内容的初步审核环节,利用AI审核鉴别和过滤出媒资中明显违规的有害内容并提供视频标签,在此基础上进行专家人工二次审核。在待审核节目数量较多的情况下,采取这种审核模式,AI可以在较大程度上提升专家审核速度和效率。

4.2AI在监听监看中的应用

AI技术可以应用于电视节目的媒资内容监听监看环节,在电视节目播出方面发挥安全播出辅助作用。从时效性分类,电视台播出的节目有两种类型:非直播节目和直播节目。对于电视台而言,非直播类节目在节目播出编排之前对其内容进行审核;直播类节目,尤其是体育赛事、大型国内和国际活动的现场直播,则无法实现播出前审核,只能采取在直播过程中对其内容进行实时监听监看的措施并叠加延时机制。大型活动现场具有人群聚集的特点,现场情景不可控风险高,其直播画面信息量大、背景环境复杂,人工监听监看难以全面应对。这种情况下,可以利用AI技术辅助人工对现场直播内容进行监听监看。具体来说,可以利用AI图像识别技术,对现场直播画面中的人脸、场景和文字信息进行识别提取,快速判断是否含有敏感信息。此外,可以利用AI语音识别技术和自然语言处理技术对现场的语音进行识别分析,并进行敏感信息检索过滤。境外频道由于涉及的语言种类多,对其节目内容进行监听监看的难度非常大。随着支持的语言种类不断丰富,可以利用AI语种识别和语音识别技术来辅助人工在境外频道监听监看中发挥积极作用。

5AI辅助安全播出技术部署方案

AI辅助安全播出技术部署方案示意如图1所示,按功能模块分为AI平台、审核平台、监听监看平台、播控平台和安全播出知识库。AI平台对接收到的音视频数据进行智能分析,提取其特征并与安全播出知识库比对,发现问题会返回结果给审核平台和监看监听平台;安全播出知识库存放违反安全播出的一些敏感信息特征;审核平台主要针对播出内容进行合规性审核;监听监看平台主要对直播播出节目内容再次审核,确保播出节目万无一失;播控平台负责电视传输及切换。按实现内容分为AI辅助内容审核和AI辅助监听监看两个部分。在AI辅助内容审核中,审核人员主要是利用AI平台对内容进行初审,通过人脸识别可发现敏感问题内容,场景识别可发现淫秽色情和恐怖暴力等明显问题内容,通过语音转文本后进行关键词识别以及语义分析可发现音频中的问题内容。在AI辅助监听监看中,通过监听监看平台统一实施对电视频道的监测,由监听监看平台调度AI平台实现辅助监听监看,具体工作流程如下。(1)播控平台传送电视频道信号到监听监看平台。(2)监听监看平台将节目数据传送给AI平台。(3)AI平台对节目数据进行识别,根据安全播出知识库进行推理和判断,并将结果返回给监听监看平台。(4)工作人员从监听监看平台获取AI平台运行结果,用于辅助监听监看。

6AI引发的变化

可以预见,安全播出领域引入AI技术后,可引发如下变化。

6.1监听监看工作模式的调整

引入AI技术辅助安全播出工作后,一方面,由少数专业技术人员对安全播出知识库进行日常更新和维护,将内容安全审核相关知识和专家经验实时转化为符合规则的电子数据;另一方面,在AI辅助下,更多的推理判断由AI执行,监听监看工作人员则可将工作重心放在应急操作及技术处置上。

6.2降低人工监听监看难度和复杂度

AI技术基于安全播出知识库对节目内容安全性提供辅助推理判断,一方面,全体监听监看人员能够共享知识库中的知识和专家经验,减小因人员业务素质和主观判断能力不同而造成的工作结果差异;另一方面,AI平台强大的运算能力使得监听监看更加全面和细节化。AI能够大大降低监听监看人员对内容安全进行判断的难度和复杂度,提升安全播出工作整体效果。

6.3减轻安播人员值守期间压力

AI技术在起到内容安全审核辅助作用的同时提高了安播工作的整体效果,减轻了安播人员的审核和监听监看工作精神压力,提升了工作体验,有利于留住业务人才,培养专业安播团队。

7结语

为更好地将AI应用于安全播出领域,本文提出如下建议供参考:一是出于安全播出工作重要性,建立AI行业能力平台,以满足利用AI辅助安全播出工作在安全性和运算能力方面的实际需求;二是建立安全播出行业专家知识库,以满足监听监看从业人员对不断更新的安全播出相关知识和专家经验的实际需求。互联网技术、通信技术和编码技术的发展,使得视频以高清、超高清、AR/VR等多形式进行高质量呈现,视频的信息量以几何级数暴涨。随着AI技术和运算能力持续发展与提升,AI必将不断赋能广播电视行业,目前媒体内容安全审核以“人工为主、AI为辅”人机结合方式将会发展到以“AI为主、人工为辅”的机人智慧方式,进一步加强各类情况、各种方式的大数据分析、智能处理和机器学习能力,进一步优化提升AI对内容识别、报警和处理的精确度与可信度,最大程度降低监播人员的干预度,实现内容安全管控的L5级“自动驾驶”,在安全播出领域发挥更重要的作用。

参考文献

[1]王文敏.人工智能原理[M].北京:高等教育出版社,2019.

[2]刘树春,贺盼,马建奇,等.深度实践OCR:基于深度学习的文字识别[M].北京:机械工业出版社,2020.

[3]蒋巍,张健,曾浩.基于智能视频监控系统的运动目标监测和跟踪[J].电视技术,2012,36(5):110-114.

[4]朱明,梁栋,范益政,等.基于普特征的图像匹配算法[J].华南理工大学学报(自然科学版),2015,43(9):60-66.

[5]冯伟兴,唐墨,贺波,等.VisualC++数字图像模式识别技术详解[M].北京:机械工业出版社,2010.

语音识别技术范文篇8

关键词:计算机;人工智能识别技术;应用实践;瓶颈

目前,计算机人工智能识别技术的应用范围较广,比如无生命特征的技术实践领域有二维码识别、机器翻译和基于神经网络的类型识别等;有生命特征的技术实践领域诞生了语音识别、面部识别和指纹识别等。这些技术的应用满足了现代社会发展的相关需求。但计算机人工智能识别技术诞生较近,技术还不够成熟,所以在应用中存在一些亟需突破的瓶颈问题。突破这些瓶颈以促使该技术得到更好的发展和应用,将是该领域未来发展的重中之重。

1计算机人工智能识别技术

计算机人工智能识别技术的核心是用计算机对人类智能进行模拟,进而促使计算机通过模仿人类的判别思维来达成识别的目的。例如人类看到了一个熟悉的面孔,会通过大脑的思维判别,自主识别出对方的身份,而利用人工智能技术进行面部识别与之类似,也是通过扫描被识别者的面部信息,然后将其与已纳入面部模型库中的“熟悉面孔”进行对比,进而实现身份的识别确认。将计算机人工智能识别技术广泛应用于生活和工作,可以实现对人力资源的解放,很多识别确认类的工作交由系统自动完成,极大地提升了工作质量和效率。与欧美等发达国家相比,我国对计算机人工智能识别技术的研究起步较晚,但因为国家和相关企业高度重视,目前我国在该技术的研究方面,尤其是在实践应用领域取得了很多积极成果,推动了该技术在我国的应用水平的提升。但目前该技术在应用过程中还存在一些瓶颈和难点,比如成本较高、可靠性不足等等,对技术的应用深化形成了一定的阻碍,也是现阶段亟待解决和攻克的问题。

2计算机人工智能识别技术的应用实践

2.1无生命特征的技术应用实践。2.1.1二维码识别。二维码识别是条形码识别技术在实际应用中的一种形式,它通过使用二维码生成程序,可以自动产生一种黑白相间且呈现出规律性排布的平面图形,这个图形具有唯一性的特征,可以对相关的信息技术进行保存记录。在此基础上,利用二维码扫描程序就可以实现对图像信息的自动识别和处理,促使信息显性化。该技术目前在世界范围内得到了广泛应用,在国内更是如此,例如支付宝、微信、云闪付等移动app的支付扫码功能,以及QQ、微博等很多软件客户端的账户登录功能等,这些都为人们的生活、工作带来了极大便利。2.1.2机器翻译。机器翻译可以实现对不同语言类型及其内容的识别,然后再以用户需要的语言类型进行展示重现,实现不同语言类型间的翻译转换。目前已经成熟的产品有谷歌翻译、有道翻译等。目前该技术在应用中还存在一些问题需要解决,比如机器翻译一般都是逐词翻译,不像人工翻译会对句子的结构和语序进行调整,导致翻译出来句子比较机械化,甚至可能出现歧义。此外,机器翻译的本质是直翻,缺乏上下文间的联系功能,在对整篇文章或整个段落进行翻译时不能结合全文意思进行综合分析判断,因此翻译质量有待提升。2.1.3神经网络识别。神经网络是人工智能技术中的一个重要分支,通过构建神经网络模型可以实现智能识别。比如对于设备故障类型的识别,人工识别主要是借助故障诊断人员的检测和观察,提取故障的主要特征,然后调用大脑中的相关知识和经验进行推理,最终完成对故障的判别。而神经网络模型是先对以往的故障案例进行搜集分析,将故障的表现特征作为网络输入,将故障类型作为网络输出,进而实现对网络的训练。在出现新故障时,将传感器检测到的表现特征作为网络输入,网络自动生成可能性最高的故障类型,完成对故障的智能识别。2.2有生命特征的技术应用实践。2.2.1语音识别。语音识别是计算机系统对人类的语音、思维进行识别,并按照识别到的结果开展相关的分析与操作。比如很多即时通信软件都同时支持发送语音和文字,并且可以实现语音和文字的相互转换;又比如在智能家居、车载智能语音助手等相关应用情景中,系统可以实现人机语音交互,通过对人类语音含义的识别完成相关操作并加以回馈,诸如根据语音信息自动打开空调、电视;开车时根据语音提示实现自动拨打电话等。在语音识别的应用实践中,有两个方面的问题需要引起重视:首先,要对环境噪音进行排除,过高的环境噪音会对语音清晰度产生影响,对正确识别造成不利影响;其次,考虑到各地方言的影响,在构建语音识别系统时还必须实现对方言的自动校正。2.2.2面部识别。面部识别系统需要先对身份确认人员的面部信息进行采集,并进一步构建面部模型库。然后在进行识别时,先对被识别者的面部信息进行采集,并将采集到的面部模型及其上的关键特征(见图1)与库中模型及其特征进行比对。如果匹配正确,即可以实现对身份信息的识别确认。近年来,面部识别技术在很多场合都得到了应用,比如有一些应用软件在进行账户登录时需要识别面部信息以完成身份确认。最为典型的就是很多手机银行在更换移动终端登录时,为了保证用户财产安全,需要在账户密码验证正确的基础上再进行面部识别以确认身份。2.2.3指纹识别。指纹识别与面部识别的原理类似,也是先对身份确认人员的指纹纹路及交叉点、断点等特征信息进行采集,并据此构建指纹信息库。在进行识别时,先对被识别者的指纹信息进行采集,并将采集到的信息在库中进行匹配,如果匹配正确,即可实现对身份信息的识别确认。指纹识别在实践中也有不少应用,比如一些现代化的智能小区安装有指纹锁,居民在进入自己房屋时需要验证指纹,实现了对钥匙功能的替代;在办理身份证和银行开卡时也需要录入指纹,后续在进行相关业务办理时则需要进行指纹验证以确认身份。

3应用瓶颈和解决对策

3.1成本问题。计算机智能识别技术的应用需要依靠相关软硬件资源的支持,而这会带来较高成本,成本问题一直是限制智能识别技术应用的难题,这也是导致很多智能识别系统无法大范围推广的原因所在。比如带语音交互功能的智能家电价格明显高于普通家电,造成其无法成为市场上的消费主流。针对这一问题,只能通过推动技术发展来逐步克服。很多技术成品在诞生初期时的成本都比较高,但随着其发展完善,成本会逐渐降低。比如智能手机上用到的刘海屏诞生伊始主要用在3000元以上的产品上,但现在千元机也可以实现对刘海屏的标配。3.2可靠性问题。计算机人工智能识别技术在识别可靠性方面还存在一定缺陷。比如语音识别会受到噪音干扰和方言影响;面部识别的准确性会受到眼镜、发型、妆容以及表情等因素的影响;指纹识别也存在可靠性问题,人在生活中会广泛接触周边物体,导致指纹会留存于很多地方,如果这些指纹痕迹被不当应用,则可能会欺骗指纹识别系统。针对这一问题,一方面需要加强对识别技术的深化研究,提升信息采集和AI识别算法的质量;另一方面,可以综合采用多种识别技术,比如进行身份识别时综合应用面部识别、指纹识别、声线识别甚至是虹膜识别,通过构建多道安全锁的方式来提升可靠度。3.3识别数据库和知识库有待丰富。从某种程度上讲,人工智能识别系统能够准确识别到的对象数量决定了系统可完成事情的程度,如果系统构建配置的识别模型限制较多,而待识别对象的特征又不在数据库的存储范围内时,系统就可能出现无法识别或识别错误等情况。此外,人工智能识别是模仿人类的识别过程,需要将人类的识别知识内化为系统的识别规则,而这就会带来很多瓶颈限制:一是知识量比较大,需要构建庞大的知识库才能提升识别精度;二是知识往往是隐性的,难以将其描述成计算机系统能够理解的识别规则,甚至有时人类自身虽然能够做到识别,但也无法描述其背后的隐性机理,比如目前可以区分双胞胎子女,但却说不清如何区分和鉴别。针对以上问题,首先要加强与大数据技术的结合应用。利用大数据手段对识别领域内的对象案例进行广泛采集,不断丰富识别数据库。第二,强化对机器学习和深度学习技术的应用。人工智能识别系统在初始时可能会因为识别模型和规则的限制,出现各种识别错误或漏识别的问题,但通过对错误案例的自主学习,系统能对内化的规则知识进行优化完善,使系统不断获得进化提升。最后,人类对知识的使用过程具有机理复杂、非线性和非结构化的特点,而传统的结构化数据库给系统模仿人类进行知识的存储、管理和检索造成了诸多约束,所以需要探索更贴近人类大脑的非结构化知识库模型。目前有学者提出了用复杂网络进行知识库建模的观点,给该问题的解决带来了曙光。

4结语

目前,人工智能识别技术在无生命特征的技术实践领域和有生命特征的技术实践领域均有广泛应用,给人类的生活带来了极大的便利。该技术尚存在许多发展瓶颈,需要我们通过技术革新进行解决,相信未来的人工智能识别技术将会越来越成熟,同时,由于成本进一步降低,其应用也会更加普及。

参考文献:

[1]张治杰.计算机人工智能识别技术的应用思考[J].科学与信息化,2019(16):40.

[2]尹澜诺.计算机人工智能识别技术的应用[J].中国新通信,2018,20(6):119.

[3]张春涛.计算机人工智能识别技术应用研究[J].中国新通信,2018,20(22):161.

[4]李禹胤.计算机人工智能识别技术的应用[J].成功(中下),2017(21):98.

语音识别技术范文篇9

多媒体是一种较为泛泛的称呼,其主要是通过计算机的交互式综合技术以及数字通信网络处理技术等多种科技手段,将多种形式的信息集中在一起,从而形成一种交互式的系统。通过多媒体技术,人们能够对生活中的多种工作进行更加方便的执行。目前,多媒体技术主要涉及以下一些方面,且在这些方面中具有非常广阔的应用前景:首先是对图像信息的处理,通过多媒体的压缩功能,能够将图像信息进行各种形式之间的转换,从而保证图像信息的传递性。然后是对音频信息的处理,多媒体技术能够通过音频的合成产生人们需要的一些特定语音信息,此外,当前非常流行的语音转换功能能够实现语音信息和文本信息之间的良好转换,从而大大方便了人们的生活和工作。还有多媒体的数据库和著作工具等,通过这些多媒体技术,能够使人们的生活和学生更加简单便捷,提高人们的生活质量。

2多媒体技术的应用现状

2.1多媒体数据处理技术的应用

对于计算机多媒体技术来说,其包含的内容非常丰富,像文字、图像和声音等的处理等,通过多媒体技术能够对各种数据进行快速的转换,满足人们工作学习的需要,且多媒体在进行信息转换时能够大批量的进行,从而更好的解决了当前存在的存储器存储容量问题等。对于多媒体数据处理技术来说,其涉及的技术和内容非常多,主要包含以下几种:第一,视频技术。视频技术主要由两个方面组成,分别是视频的数字化和视频的编码两种,所谓的视频数字化指的是多媒体能够将得到的模拟视频信号经过内部的转换系统,使其变为能够被计算机读取和存储的数字信号,然后通过计算机对该数字信号进行其他的一些处理,使其便于存储和使用。而视频的编码技术则是针对数字化的视频信号的一种处理手段,其将转换完成的数字信号进行编码处理,使其变为能够被计算机进行再处理的视频信号,像录制和播放等,根据其应用环境的不同,可以将其分为不同的编码技术,比较常见的有电视广播中的广播编码,其能够将视频信号变为能够被所有用户接收的视频信号。第二,音频技术。音频信号是人们日常生活中最常见的信息,其包含的内容非常丰富,比较常见的音频技术主要有以下几种:音频的数字化、语音信息的处理、语音识别功能以及最后的语音合成功能。音频技术的发展远远早于视频技术,因此,目前已经具有非常多的音频产品,并进入了量产化。随着计算机技术的不断发展,音频技术在存储和传输方面迎来了一个新的发展高潮,为人们日常生活中的音频信息传递提供了更加简便的方式。当前,人们正在逐渐尝试实现语音的识别,将简单的语音信息输入给电脑,使其能够按照人们的思想进行运行,这是人类长久以来的美好梦想。伴随着计算机技术的成熟和普及,越来越多的人将计算机当做日常生活中的一种重要交流工具,因此,如何使不熟悉计算机的人能够正常使用计算机,正在逐渐成为人们感兴趣的话题之一,而语音识别技术的出现,为人们的梦想实现提供了一种有效的手段。目前,语音识别技术正在迅速发展,但由于这一技术出现的时间较短,大部分的研究还在试验阶段,出现了非常多的新思想和新算法,为这一技术的发展提供了广阔的空间。另外,语音识别技术的研究正处在一个重要的瓶颈期,世界各国的研究人员正在尝试将计算机的语音识别功能推广到所有人都能使用,且对于一些大量的词汇或者连续的语音都能进行很好地识别,实现人们期望的语音识别技术的真正应用,提高人们的生活水平和质量。目前,对于一些世界应用较多的语言,语音识别技术已经进行了简单的应用,该技术的使用在许多领域取得了较好的成果。第三,数据压缩技术。数据压缩技术主要是通过对图像和视频等信号的处理,将其进行压缩和存储,这是实现计算机图像处理的最基础内容,且是当前进行图像处理的热点技术之一。目前,比较常见的图像压缩技术有两种,分别是JPEG和MPEG,这是ISO制定的两个重要标准,大部分的图像处理都是通过这两种方式。另外,压缩技术还在音频的处理和视频的处理上具有重要的应用,通过这种处理方式,能够将具有较高质量的音频和视频信息进行播放,满足人们的日常生活需要。

2.2计算机多媒体通信技术的应用

所谓的计算机多媒体通信技术,指的是通过多种新型的通信方式,将声音和图像等信息进行传递,其结合了通信技术和计算机技术,在当前,比较流行的通信方式有两种,分别是有线通信和无线通信。这两种通信技术是比较常用的,而多媒体通信技术只是将计算机多媒体技术加入到其中,从而形成一种依靠多媒体技术运行的计算机多媒体通信。在传统的通信方式中,主要有电话和电报等,这些通信方式对于信息的传递较为单一,或者只能传递声音,或者只能传递文字,而通过计算机多媒体通信技术,不仅能够将多种信息进行及时准确的传递,同时,还能根据用户的需要,对信息进行不同的处理,满足用户对信息传递的不同需求。对于多媒体通信技术来说,其包含的内容也非常的多,主要有以下几种:第一是多媒体数据的压缩编码,在对多媒体系统中的数据进行处理时,一个比较重要的处理技术就是数据的压缩编码技术,对于质量较高的数据压缩编码技术,其能够将压缩的信息进行较好地处理,保证数据信息的质量,这也是数据压缩编码技术一经出现就得到了较大的推广的原因。随着多媒体市场的不断增大,越来越多的压缩编码技术随之出现,并逐渐深入到人们生活的各个方面,多媒体数据压缩编码技术的出现和应用,大大改善了人们的生活质量。第二是多媒体数据的同步性。在多媒体的发展中,同步技术的发展具有非常重要的影响,多媒体技术之所以优于其他应用技术的最主要优势就是其具有较高的同步性,能够实现多种信息的同步播放和处理,满足人们对高品质信息的要求。当前的计算机多媒体同步技术能够实现视觉和听觉等多种信息的同步,满足人们的信息需求,但随着计算机处理子系统的增多,其对多媒体技术的要求也越来越高。

2.3人工智能多媒体的应用

人工智能系统是一种兴起较晚的计算机模拟系统,其是为了实现计算机的智能化,使其能够帮助人类完成一些难以进行的工作。随着多媒体技术的发展,人工智能系统也得到了较大的提高,通过两者的结合,能够大大提高人工智能系统的信息处理速度。人工智能多媒体技术主要涉及了以下一些内容:首先是计算机的辅助系统,其主要是通过在计算机上编制一些特定的程序,然后使用人通过该程序的使用完成一些特定的任务。然后是智能信息系统,该技术主要是在一些信息领域进行使用,像信息的获取和处理等方面,通过这些技术的使用,能够大大提高计算机的智能化水平,但这一类的产品对计算机的软件具有较高的要求。最后一种则是多媒体智能监控技术,该技术中综合运用了计算机多媒体的图像处理和声音处理等多种技术,大大增加了监控系统的使用范围,另外,该系统还可以对一些特殊的情况及时做出正确的反映,从而避免了一些事故的发生,且在后期的查询过程中,能够对一些特殊的信息进行生动的表现。

3多媒体技术的应用前景

当前,我国的多媒体技术发展已经取得了巨大的进步,在今后计算机多媒体技术的发展中,主要是向着以下几个方面发展:多媒体技术的集成化和多媒体技术的终端智能化等。

3.1多媒体技术的集成化

对于传统的计算机技术应用,仅仅是单一方面的信息传递,这种信息传递方式已经越来越不能满足人们的生活和工作需要,在未来的多媒体技术发展中,主要是将多种信息进行合成和处理,使人们在接收和传递信息时能够更加的形象生动。在这一发展目标中,最主要的技术就是实现不同信息传递过程中的同步化,另外,计算机多媒体系统还能够根据使用人的不同面部表情和动作,对人类的需求进行详细的计算,满足人类和计算机系统之间的信息交换。3.2多媒体技术终端的智能化和嵌入化目前,多媒体技术的发展水平已经非常高,通过计算机系统性能的提高,能够逐渐满足人们的需求,在未来,主要是将各种智能芯片植入到各种电器设备中,使人类能够更加方便地了解和使用各种家用电器,丰富人们的日常生活。在该发展目标中,需要对计算机多媒体系统的终端系统进行多种形式的改进,提高其智能识别性能,使其具有更多的智慧,在使用过程中,能够根据人们的不同需求进行合理的处理和操作。因此,需要在这些终端设备中添加各种识别和计算处理功能。而嵌入式的应用主要有两个发展方向,一个是通过多媒体和通信功能的结合,设计一些能够满足人们需求的专用多媒体设备,而另一种则是将多媒体和通信功能融入到设备的CPU中,使其能够具有多媒体和通信的多种功能,这种系统主要是应用在多媒体计算机中。

4总结

语音识别技术范文篇10

人工智能(ArtificialIntelligence,简称AI)近年来成为了人们关注的焦点,最初这个概念是在1956年达特茅斯会议上提出,并被正式确立为一门学科,历经三次高潮三次低谷的发展。1997年,IBM开发的人工智能“深蓝”打败人类的国际象棋冠军。2016年3月,谷歌开发的AlphaGo以4:1的明显优势战胜多次荣获世界冠军的李世石。自此人工智能在学术研究、行业发展和资本市场表现活跃。伴随神经网络、脑科学研究的迅速进步,人工智能在云计算和大数据等相关技术的支持下,迅速被运用到各个领域。以人工智能为核心的新技术与教学融合将成为下一个核心驱动力。在2018年的《人工智能发展白皮书》[1]中,提到教育智能化将会成为教育领域的发展方向,人工智能将会引发教育理念和教育生态的深刻变革。全球主要发达国家当前都在加速教育教学创新,积极开发教育新产品,推进教育教学创新。2018年4月,《高等学校人工智能创新行动计划》[2]提出了未来的人才培养新模式,要增设“人工智能+X”的复合专业培养,众高校也相继成立了人工智能学院和相关专业,如南京大学、中国科学院大学、西安电子科技大学、上海交通大学等,结合近几年教育部“新工科”教育改革的背景,为外语教学与研究带来了新的契机。传统的外语教学中一直存在教学质量和效果不理想的困境,我们要充分利用日趋成熟的人工智能技术开展一场深层次的变革,重塑外语教育的时代性、个性化的新形态。人工智能在神经网络、深度学习和蒙特卡洛数搜索法等技术使用后,逐步形成神经网络“大脑”来进行复杂精准的数据处理,初步有了人类高级智能的“学习能力”。人工智能在教育中所需用到的技术主要包括[3]:①自然语言理解技术,这让计算机与人之间能用自然语言来有效沟通,包括机器理解、机器翻译等。②人机交互技术,包括语音识别、语音合成、情感交互等。③知识图谱技术,指建立语义网络,使用网络中的关系来分析解决问题。④生物特征识别技术,包括指纹识别、语音识别、人脸识别等。

二、人工智能支持下的外语教学改革

我国外语教学的整体效率近年来一直不高,大学生的英语学习效果主要是通过全国大学生四六级考试的成绩来体现,虽然近年来加入了口语考试,但是学生的英语沟通交流水平总体还是令人担忧,应用能力远没有达到熟练实用水平。大学英语的发展方向是要提高质量,增强实效。大学英语的改革目标是要将人文性、实效性、数字化与工具性相结合。随着00后即将成为大学校园的主力军,他们在学习和认知模式、信息技术运用习惯方面有着鲜明的特色,技术、阅图、创新、急切成为了他们的标识,被认为是“数字原住民”[4],他们更倾向于用智能化方式去获取数字化资源学习。但是面对海量且品种繁多的外语学习资源,如何满足个性化学习需求,提高学习效率,重构有效适切的外语教学新模式成为了外语教师们探索科研的新目标。目前市场上比较普遍的在线教育大多是一对一视频,或者把一些教师的课做成视频放在线上播放,这其实只是教学场所的改变,教育方式并没有发生本质变化,如果学生不自觉,效果有时候还没有线下的实体课程好。人工智能则可以使用语音识别和自然语言处理技术来解决口语语音和文本的词法、语法分析和语义理解,增加多元交互的学习环境,极大提升学习效果[5]。随着人工智能研究的日益成熟,“智慧学习”和“深度学习”被赋予了新的内涵,智慧学习以建构主义、混合学习和现代教学学习理论为理论基础,整合增强现实、云计算、移动通信、大数据等先进信息技术的增强型数字学习[6]。深度学习可以通过神经网络来模拟人脑的学习过程来抽象表达现实世界的大量数据。目前典型的深度学习模型有递归神经网络(RNN,RecurrentNeuralNetworks)、卷积神经网络(CNN,ConvolutionalNeuralNetworks)以及深度信念网络(DBN,DeepBeliefNet-works)等,其中由于RNN多用于处理时间序列,所以其较多应用在口语训练、口语测试等方面[7]。近几年,从市场中已知的人工智能运用于外语教育的产品来看,主要分为几类:英语语音测评、智能批改+习题推荐、教育机器人、智能陪练,其中前三类较多,而分级阅读和智能陪练的较少。比如语音测评类的有科大讯飞、流利说、驰声、朗播网等,智能批改类的有极智批改、批改网、作业盒子、狸米教育等,教育机器人类的有寒武纪智能、UBTECH、LEZHI、好儿优等。1.英语语音评测———AI口语老师和智能口语考试系统。英语口语学习与测评是我国英语教育中的重要组成部分。为了测评学习者的口语语音语调、标准度、流利度以及口头表达能力,通过NLP(自然语言处理)以及语音识别等技术开发,外语教学市场上出现两类“英语语音评测”的产品:AI口语老师和智能口语考试系统。这两类产品可以替代教师对学生的口语陪练、口语考试测评及评分统计等相关工作,通过机器辅助学习,极大提高了教师的工作效率,同时实现了口语自适应学习。人工测评往往伴随着一些主观因素,智能评测可以有效地避免这类问题,更具客观性、稳定性,高效完成自动评分和成绩统计以及学情分析任务。从目前英语语音测评产品的现状来看,优点是分析结果相对准确,覆盖多种口语类型,从发音到对话、朗读涵盖多种口语学习和考试类型,包括音标发音、短文朗读、看图说话、口头作文等。短时间可以做出反馈,快速给出评分,同时给出精细的分析。当然,这类产品也会有一定不足,受口语发音本身的不确定性和语音采集的设备条件等因素的影响,英语语音测评结果会出现一定的偏差,但总体结果相对准确。现阶段此类产品的测试结果是反馈学生发音中的单词读错、遗漏或者语法有误等问题,但是无法检测出学习者的语调和连读等错误。这类产品虽然会根据学生口语情况进行个性化教学和测评,但互动性仍不足,模式化明显,长时间练习只是几种方案方式在循环,多样性和互动性还有待提高。以目前市场上较为知名的英语流利说为例,流利说开发了世界领先的多粒度和多维度的实时语音识别和评估引擎和游戏化教学,让各水平语言爱好者轻松练口语。每日更新地道美语对话提供好玩上瘾的对话闯关游戏,通过硅谷的实时语音分析技术,让用户轻松愉快练口语。目前有超过3000万人使用流利说,积累了中国人2.75亿分钟口语数据。2.智能批改+习题推荐。智能批改如图1所示,可以部分减轻教师批改作业的繁重任务。完整的流程是教师先从线上布置作业,系图1智能批改图统地利用丰富的语料库资源,使用自然语言处理、图像识别以及数据挖掘等人工智能技术把学习者的作业与语料库进行检测对比,进行自动批改,给出个性化的学情分析报告,对拼写、语法、句型和搭配方面能够迅速地标注错误部分和错误原因,在作业量巨大的情况下,会比教师的批改结果更为细致,教师和家长能在学习者的作业提交后马上得到反馈并了解最新的学习进展,并据此来实时调整学习进度和难度并推荐合适的习题。当然,也会有一些美中不足,如学生作业的主题相关性、篇章结构和内在逻辑性、思想的创新性等方面提示还略有欠缺。iWrite2.0英语写作与评阅系统,通过在大型语料库中来挖掘联想词库,运用大数据技术,同时探索基于人工神经网络的深度学习来提高作文评阅的智能程度[8]。科大讯飞开发的产品在2015年某部级英语考试中在翻译题和作文题的评分准确度比大多数专家教师的评分准确度还要高,同时评卷系统还指出具体语法格式错误和措辞不当等问题。3.分级阅读。英语分级阅读,可以根据学生的不同认知水平来选择阶梯式的读物,匹配适合学生个人的书目,解决了学生阅读太难的书会失去阅读兴趣、阅读难度低的书无法提升阅读能力的问题,使其感受阅读的乐趣。全世界时下有几种热门的阅读分类体系:蓝思分级(Lexile)、AR分级法(AcceleratedReader)、A-Z分级法(GRL/GuidedReadingLevel)。国内目前在分级阅读方面的产品主要有:ReadingPro、新东方旗下的多纳学英语、叽里呱啦、英语总动员、巴布阅读等,各有其产品的优势和不足。在国外,以美国为例,已有70%的美国公办学校使用Newsela,有40万教师和超过400万学生用户,阅读文章数超过5700万。Newsela通过自适应的真实内容分级阅读将新闻聚合并分级,为不同阅读水平的学生提供阅读内容。人工智能的分级阅读相较于传统分级阅读,可更为高效地测定分析,依据不同学生的兴趣爱好和阅读能力的学习数据挖掘行个性化精准阅读,使学生阅读兴趣明显提高,学生阅读习惯大为改进,大大提高了教师的工作效率,把教师从收集和推荐书目,阅读监督学生等大量机械式重复性工作解放出来,同时实现了学生自适应阅读,达到了分级阅读的核心目的。教师和家长也可快捷精准地全方位监测分析学生的学习情况。4.智能学情分析和智能情绪识别。智能学情分析是指在积累了学生学习成绩、学习进度、学习习惯等数据后,对其进行智能分析,并给出分析报告,协助教师对学生学习情况进行管理,设计个性化教学方案,为学生量身定制不同于他人的学习策略和学习方法,让孩子更为有效地学习。做智能学情分析的如极客大数据的“极课EI(EducationIntelligence)”是采用“IPH适应性教学模型”和“集中式动态学业档案管理”两大专利技术,采集作业和考试中动态化的海量数据并进行大数据智能算法分析,基于行为和关系数据的知识图谱来制定学生的具体自适应学习方案[9]。根据官方数据,“极客大数据”的活跃使用学校已超过1800所,收集3200万份学生作业考试数据,180万教师、学生及家长的使用习惯。每个孩子都是与众不同的,有自己独特的天赋特性、偏好和天生优势,也有不同于别人的弱点。解决孩子的学习问题,应当用个性化的方法适应其在学习上的要求。因而这种学习活动对于每个学生而言都是有意义的,因为是由学生自发的兴趣来驱动的。智能情绪识别目前主要由教育培训机构和技术公司合作开发,如好未来、VIPKID,通过人工智能图像识别技术,智能情绪识别可以识别学生课堂表情来判断学生学习的兴趣、困难点和集中度。2018年10月,新东方正式的首款AI类教育产品BlingABC“AI班主任”[10],可以通过人脸属性分析和检测、语音识别、NLP(NaturalLanguageProcessing)等人工智能技术来发现学生在语言学习中的问题,根据学生上课时的参与度、回答时长、情绪表现和学习结果来进行量化分析。5.教育机器人。教育机器人除了在科学、技术、工程和数学(STEM)教育方面起着重要作用,在外语教学中的应用也越来越普遍。机器人可以根据学生的认知能力来为其定制学习内容,引导互动学习来营造母语式的外语学习环境,在潜移默化中提高外语语言能力。从早期2016年简单的聊天学习机器人如著名语言学习AppDuolingo(多邻国)的永久免费的外语学习chatbox[11],开始只允许用户打字对话,到拥有智能复杂功能的机器人,如科大讯飞的“阿尔法大蛋”,好未来旗下励步英语联合机器人领域领先的ROOBO公司推出的小布机器人[12],与此配套的Let’sChat系统,可以进行进行语音识别、口语评测、绘本伴读等功能,能够智能适配学生的学习水平来进行因人施教。通过教育机器人的辅导和在线教育的讲解,可以精准定位学生的薄弱知识点到纳米级别来实现因材施教的“智适应”的理想学习方式[13]。借助自然语言处理和情感机器人,通过陪伴学生的成长来增加其对人的关怀[14]。

三、人工智能在外语教育中的研究热点方向

查阅各种资料发现,人工智能近几年在外语教育中的研究热点方向主要有:①知识表示与教育知识图谱,其研究热点是以知识点及课程为中心的图谱和以教学及资源为中心的图谱。②认知诊断,其研究热点是使用大数据分析技术弥补传统IRT模型的不足。③学习者建模,其研究热点是针对学习主体对象的学习者进行建模,对学习者知识状态的识别和诊断。④教育试题资源表征,其研究热点是使用深度学习模型对多源异构教育资源进行深度表征。⑤机器阅读理解与批阅,其研究热点是基于深度学习的机器阅读理解。⑥智能教育系统,其研究热点是教育机器人、游戏化教学、对话形式的学习,建立动态模型。⑦脑科学与教育的结合,其研究热点是交叉学科研究,教师对“神经神话”的认知,对脑科学的信念,以及教师自身的脑科学素养。人工智能在外语教育中的运用将推动外语学习的精准测评、个性教学和因材施教。配合直播、游戏、VR等技术的教育人工智能可以极大提高学生的兴趣,提高外语的学习效率,有着巨大的应用发展空间。如何融合教育测量、教育理论与人工智能,分析学生的学习效率、能力和水平及目前的知识状态将成为教师学习研究的方向。

四、结束语