语音识别十篇

时间:2023-03-29 05:26:07

语音识别

语音识别篇1

关键词:语音识别;动态时间规整算法;人工神经元网络

1 背景介绍

语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。

语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。

2 发展历史

1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。

3 具体应用

随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。

在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。

4 语音识别系统原理

语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。

语音识别过程如图所示。下面对该流程作简单介绍:

(1)语音采集设备如话筒、电话等将语音转换成模拟信号。

(2)数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。

(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。

(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。

(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。

(6)应用程序根据识别结果产程预定动作。

(7)该过程是语音模型的学习过程。

5 现有算法介绍

语音识别常用的方法有:模板匹配法、人工神经网络法。

(1)模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ)技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法(DTW)很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。DTW算法示意图如图所示。

设测试的语音参数共有M帧矢量,而参考模板有N帧矢量,且M≠N,则DTW 就是寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上,并使该函数满足第k帧(k=1,2,…M)测试矢量I和第f(k)帧(f(k)=1,2…N)模板矢量J之间的距离测度之和最小:



另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语音的端点检测会存在较大的误差。DTW 算法起点点可以固定在(tm,tn)=(1,1),称为固定起点;也可以选择在(1,2)、(2,1)等点,称为松驰起点。同样,中止点可以选择在(M,N)点,称为固定终点;也可以选择在(N一1,M)、(N,M一1)等点,称为松弛终点。松弛的DTW 算法的起始点从(1,1)、(1,2)、(2,1)等点中选择一最小值,终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差,但运算量加大。

(2)人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可以适应语音的动态变化。

人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播(Back Propagation)学习算法的多层前馈网络。多层前馈型网络如图所示。

除上述介绍的几种常用的方法外,还有许多其它的识别方法以及改进算法。

6 尚未解决的问题及值得研究的方向

(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。

(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。

(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。

参考文献

[1]杨尚国,杨金龙.语音识别技术概述[J].福建电脑,2006,(8).

[2]孙宁,孙劲光,孙宇. 基于神经网络的语音识别技术研究[J]. 计算机与数字工程,2006.

语音识别篇2

1.概况

语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。

目前上海地铁

一、

二、

三、

五、

六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,

增加了车站站名动态显示地图。

如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,

对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。

设计一种符合现代化要求的乘客信息显示系统是非常必要。

2.设计

地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。

针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。

语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。

(1)输入控制部分:

通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。

(2)语音识别部分:

利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。

(3)噪音滤波部分:

滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。

(4)执行显示部分:

将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。

(5)录音功能部分:

在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。

3.结论

语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。

本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。

参考文献:

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成电路实用大全上海科技普及出版社

3.①获得“2003年上海市优秀发明选拔赛三等奖”

4.①编入《中国科技发展精典文库》第四辑

语音识别篇3

关键词:语音情感识别;情感描述模型;情感特征;语音情感库;域适应

DOIDOI:10.11907/rjdk.161498

中图分类号:TP391

文献标识码:A文章编号文章编号:16727800(2016)009014303

作者简介作者简介:薛文韬(1991-),男,江苏常熟人,江苏大学计算机科学与通信工程学院硕士研究生,研究方向为语音情感识别。

0引言

1997年,美国麻省理工学院的Picard教授提出了情感计算(Affective Computing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域,已成为人工智能的重要发展方向之一。而语音情感识别作为情感计算的一个重要分支,亦引起了广泛关注。

许多国内外知名大学和科研机构也开始语音情感识别研究,国外如美国麻省理工学院Picard教授领导的情感计算研究小组,德国慕尼黑工业大学Schuller教授领导的人机语音交互小组等;国内如清华大学的人机交互与媒体集成研究所、西北工业大学音频、语音与语言处理组等。

1语音情感识别

语音情感识别系统主要由前端和后端两部分组成。前端用于提取特征,后端基于这些特征设计分类器。在语音相关应用中,运用比较多的分类器是支持向量机和隐马尔科夫模型。目前,语音情感识别的重点主要集中于特征提取。在传统的语音情感识别中,如何提取具有判别性的特征已成为研究的重点。随着数据的大规模增长,传统语音情感识别的前提(训练数据和测试数据具有相同的数据分布)已不能够被满足,研究者提出了迁移学习的概念,利用域适应方法来解决跨库的语音情感识别。

本文将从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出现存语音情感识别的技术挑战及相应的研究方法。

2情感描述模型

目前主要从离散情感和维度情感两个方面来描述情感状态。

离散情感描述,主要把情感描述成离散的形式,是人们日常生活中广泛使用的几种情感,也称为基本情感。在当前情感相关研究领域使用最广泛的六大基本情感是生气、厌恶、恐惧、高兴、悲伤和惊讶。

相对于离散情感描述,维度情感描述使用连续的数值来描述情感状态,因此也称作连续情感描述。它把情感状态视作多维情感空间中的点,每个维度都对应情感的不同心理学属性。常用的维度情感模型是二维的激活度-效价(Arousal-Valence)模型,其二维空间如图1所示。其中横轴表示效价属性(Valence),用于衡量情感的正负面程度;而纵轴表示激活程度(Arousal),用于描述情感状态的唤醒程度。通过不同的效价度和激活程度,就能区分出不同的情感,比如悲伤与生气两种负面情绪虽然效价相差无异,但两者的激活度却有很大差异。

3语音情感特征

传统的语音情感特征可粗略地分为基于声学的情感特征和基于语义的情感特征。基于声学的情感特征又分为3类:韵律学特征、音质特征以及频谱特征[1]。音高、能量、基频和时长等是最为常用的韵律学特征,由于韵律学特征具有较强的情感辨别能力,已经得到了研究者们的广泛认同。音质特征主要有呼吸声、明亮度特征和共振峰等,语音中所表达的情感状态被认为与音质有着很大的相关性。频谱特征主要包括线性谱特征和倒谱特征,线性谱特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒谱特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于这3类语音特征的不同语段长度的统计特征是目前使用最为普遍的特征参数之一,如特征的平均值、变化率、变化范围等。然而到底什么特征才最能体现语音情感之间的差异,目前还没有统一的说法。

在2009年首次举办的国际语音情感挑战INTERSPEECH 2009 Emotion Challenge(EC)的分类器子挑战中,组织者为参赛者提供了一个基本特征集,选择了在韵律学特征、音质特征和频谱特征中广泛使用的特征和函数,包括16个低层描述子(Low-Level Descriptors,LLDs)和12个函数,构建了一个384维的特征向量[2]。具体的16个低层描述子和12个函数如表1所示。

4语音情感库

语音情感库作为语音情感识别的前提条件,影响着最终语音情感识别系统的性能。目前,在语音情感库的建立方面还没有统一的标准,已构建的情感语音库多种多样,在语言、情感表现方式(表演型(acted)、引导型(elicited),自发型(naturalistic))、情感标记方案(离散情感或者维度情感)、声学信号条件、内容等方面具有很大差异。从情感表现方式而言,表演型情感一般是让职业演员以模仿的方式表现出相应的情感状态,虽然说话人被要求尽量表达出自然的情感,但刻意模仿的情感还是显得更加夸大,使得不同情感类别之间的差异性比较明显,这方面的语音情感库有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期对语音情感识别的研究都是基于表演型语料库,随着人们意识到引导型情感具有更加自然的情感表达之后,研究者们开始基于引导型情感库进行研究,比如eNTERFACE[5]。随着研究的深入,迫切需要一些自发的语音情感数据,目前出现了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的几个语音情感库如表2所示,描述了他们在年龄、语言、情感、样本个数、记录环境和采样率之间的差异。

5语音情感挑战赛

虽然已经有很多研究致力于语音情感识别,但是相对于其它语音任务(如自动语音识别和说话人识别)而言,语音情感识别中还不存在标准的语音情感库和统一的测试条件用于在相同条件下进行性能比较。同时,为了处理更加现实的场景,需要获得自然的语音情感数据。国际语音情感挑战INTERSPEECH 2009 EC旨在弥补出色的语音情感识别研究和结果可比性之间的缺陷,它提供了自然的语音情感库FAU AEC,以及开源工具包openEAR来提取基本的384维特征集,保证了特征的透明性,从而使得结果具有重现性和可比性[9]。FAU AEC库包括了德国两个学校(Ohm和Mont)10~13岁的孩子与索尼公司的机器狗Aibo进行交互的语音数据。为了实现说话人独立的语音情感识别,通常学校Ohm记录的数据用于训练,而Mont记录的数据用于测试。INTERSPEECH 2009 EC的情感分类任务主要包括2类情感(负面情感、所有其它情感)分类和5类情感(生气、同情、积极、中立和其它)分类,目前已有很多研究基于FAU AEC库进行情感分类。除了在FAU AEC库上进行传统的语音情感识别外,随着跨库语音情感识别研究的深入,很多研究者也将FAU AEC作为目标域数据库进行域适应的研究。

6语音情感识别的主要挑战

6.1语音情感特征

在传统语音情感识别中,提取具有判别性的特征已经成为一个重要的研究方向。在情感特征提取过程中,通常存在一些与情感无关的因素,如说话内容、说话人、环境等,这些不相关的因素将会使得提取到的特征包含这些因素方面的变化,从而影响情感分类性能。

目前已有部分研究开始考虑这些与情感无关因素的影响。同时,随着深度学习的提出与发展,越来越多的研究者开始使用深度神经网络进行特征提取。Chao等[10]利用无监督预训练去噪自动编码器,减少了情感特征中说话人的影响。Mao等[11]提出了半监督卷积神经网络模型,提取情感相关特征,通过实验证明其对说话人的变化、环境的滋扰以及语言变化都有很强的鲁棒性。Mariooryad 等[12]对特征构建音素层次的弹道模型,从声学特征中分解出说话人的特性,从而弥补说话人对语音情感识别的影响。

6.2跨库的语音情感识别

在传统的语音情感识别中,训练数据和测试数据一般来自同一个语料库或者具有相同的数据分布。随着数据的爆炸式增长,从不同设备和环境下获得的语音数据通常在语言、情感表现方式、情感标记方案、声学信号条件、内容等方面存在很大差异,这就造成了训练数据和测试数据分布的不同,传统的语音情感识别方法就不再适用。

近年来,迁移学习(Transfer Learning)的概念被提出,指从一个或多个源域中将有用的信息迁移到相关的目标域,以帮助改善目标域的分类性能[13]。域适应(Domain Adaptation)作为一种特殊的迁移学习,已成功应用于跨库的语音情感识别。Deng等[14]提出一种共享隐藏层自动编码器(shared-hidden-layer autoencoder,SHLA)模型,相较于传统的自动编码器,SHLA的输入数据包含了源域和目标域两类数据,让两个域的数据共用编码部分而解码部分不同,目的是诱使两个域的数据在隐藏层空间具有相似的数据分布。Huang等[15]利用PCANet沿着从源域到目标域的路径提取特征,并用目标域空间来调整路径上的特征,以此弥补域之间的差异。

参考文献参考文献:

[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.

[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.

[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.

[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.

[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE'05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.

[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.

[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.

[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.

[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR―introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.

[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.

[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.

[12]MARIOORYAD S,BUSSO pensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.

[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.

语音识别篇4

自上世纪中期以来,语音教学在语言教学中逐步受到重视,教育部《高等学校英语专业英语教学大纲》对学生的语音能力提出明确的要求,即要求发音正确,语调比较自然,以此目标指导语音教学。语音教学随同外语教学理论、模式的演变也在经历着一系列的变革,教学重点从初期的音素和单词发音,发展到目前着重超切分音,如中信、节奏和语调等(罗立胜,2002)。而语言教学方式也由机械的模仿、重复、跟读、单音纠正发展到今天交际性的练习和自主练习。但是在对新生的语音情况调查中发现,往往这种交际性练习和自主练习存在以下几方面问题:学生水平参差不齐,受母语影响程度不一,大部分中学学习过英语语音但不系统,也不够重视。中学教师因受应试教育的影响,少有时间教授语音发音,经调查,80%的学生称中学学习过程中惟一的语音输入来自英语教师。仅有30%的学生称听过磁带、看过英文电影。语音学习双层面的脱节性和去语境化学习97%学生因高考需要背记过国际音标及其在英语单词中的读音,但80%的学生表示没有进行过系统的语音训练,缺乏语境化教学。自主语音学习效果欠佳,孤立的语音练习很难在实际语言交流中应用。目前,语音课上教师主要帮助学生一对一,对比模仿练习发音,缩小学生在语音认知上母语和目标语之间的差异。课后学生仅能通过模仿有声资料提高语音。标准程度往往由学生自行判断,由于学生听说能力的差异,自行判断发音是否准确是不确定的。本文试图以现代的语音教学技术Reading Assistant语音识别系统的引入探讨语音教学模式的改革。

二、对Reading Assistant语音识别系统有效手段的分析

Reading Assistant语言学习系统由美国科学学习公司研发的,以语言学习理论和过程为基础,旨在通过朗读提高语音、词汇、语法等语言综合技能即“以读促学”,笔者所在西安外国语大学英文学院于2008年9月开始使用该系统,拥有600个账号,仅供一年级新生使用。目前主要用于配合语音课程,辅助完善语音自主学习。根据上述语音教学中存在的问题和应该坚持的教学原则,和以下Reading Assistant的教学特点作一对照,就不难理解该语音识别系统对英语语音学习及语言学习的可行性了。

1.根据Reading Assistant(语音识别)系统的(以下简称语音识别)的设计。实行学生每人拥有一个使用账号,便于展开个性化的、有针对性的指导。满足不同层次学生的要求,在语音教学中众多语言教师发现模仿是提高语音的最有效方法之一,但是模仿什么语音材料,模仿哪种语音,怎样模仿和自主学习能否模仿后是否准确仍有很大的困难,在使用语音识别系统时,学生首先要根据其设定的不同级别,和原有的测试级别自行测试,从精选的不同层次的150篇文章中选择适合自己水平和类别的进行朗读。

每次朗读后根据语音发音有成绩记录,每篇文章可以朗读10次。语音识别系统是建立在建构主意语音教学模式的理论智商,学生是学习的主体,不是被动地接受知识,而是主动地在原有的知识体系中,通过不断地积极实践,构建自己的新的知识和经验。因此在这种长期的语音练习过程中,学生可以根据自己的学习需要“建构”语音学习材料,提高自主学习能力。

2.导入语音练习的语境化,模仿对象的本土化。在实际交往活动中,听、说、读、写不是以孤立的因素和单词为单位进行思想交流的,取而代之的是以综合的句子和更高层次的话语单位进行的,孤立的因素和单词的发音在综合运用中会产生很大的变异,如连读、失去爆破、弱读等影响,因此,语音识别系统通过不同类别的文章(包括科技、生活、文艺、人物传记)等等构建不同的语境,除了传统意义对话中包含的语境外,文章中还涉及各个年龄段,男声、女声等读音。录音及文章内容的选择全部出自母语国家。确保模仿对象发音的准确性。

3.判读过程的准确性和可调节性。根据语音识别系统读音匹配程度的设计,学生在阅读过程中分别会出现完全正确发音、误读、不会读、不准确等情况,并以不同颜色标注。每次阅读完成后,学生可以查看有哪些单词不准确。开始阅读后,每读一个单词就会有不同颜色显示。而在本身阅读中如果出现严重的错读,该识别系统会停止前进,并随机开始正确读音,要求练习者跟读。教师也可以根据自己的界面监控学生朗读过程,随时抽听不同学生的朗读情况。过度的纠错会挫伤部分水平较低学生的学习积极性,因此在开始学习阶段教师可以根据学生各个层次的学习调整不同的匹配度以提高学生学习兴趣。

三、学生对语音识别使用情况及存在的问题

经过对英文学院2008级540名学生一学年使用情况的调查,86%的学生表示自己经常去RA实验室,80%的学生认为RA有助于阅读水平的提高,95%的学生认为RA对语音语调有帮助,90%的学生认为RA对听力有帮助,85%的学生认为RA对整体学习有提高。对于语音识别系统进一步的学习和开发,学生表示除英语专业学生初期应用在语音教学以外,还应考虑继续辅助阅读、写作等课程。而语音识别系统中文章内容选择可以适当考虑本土化,多针对中国学生发音中存在的问题进一步涉及文章和练习。

综上所述,外语语音教学目标不再是僵硬的单音、音素教学,而是融合更多语言交际任务的综合教学,而随着计算机、数字化和语音识别技术的发展,充分利用现代教育技术不仅可以丰富教学内容,更重要的是注意到学生的情感因素,培养学生自主学习能力,让语音教学改变以往依赖性、单一性、枯燥性,使其更具创造性,让以读促学全方位体现在英语学习中。

参考文献

[1]罗立胜等.英语语音教学的回顾及对目前英语语音教学的几点意见.外语与外语教学,2002(10).

[2]顾佩娅等.基于构建主义的计算机辅助项目教学实践.外语与外语教学,2003(7).

[3]陈爱勤,石春熙.英语专业新生语音教学的语境论研究.长春师范学院学报(人文社会科学版),2008(1).

语音识别篇5

论文摘要 近20年来,随着信息技术的不断发展,语音识别技术也逐步的发展成熟。语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。本文就对语音技术的发展及趋势作了简单的阐述。

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。

1 语音技术的发展历史

50年代,研究人员多数致力于声学和语音学的基本概念。1952年,在at& t bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。1956年,rca lab 开展了另外一项独立研究,试图识别单一发音的10个不同的音节,同样采用了度量共振峰的方法。1959年,英国university college的研究人员开始尝试另外一种思路,用谱分析和模板匹配方法构建音素识别器,用来识别4个元音和9个辅音。60年代,相继出现并发表了语音识别的几个重要的思想。1962年,东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分,并进行识别。1963年,日本nec lab对数字进行语音识别的尝试可以算得上最值得注意的工作,因为它不仅是nec研究语音识别的开端,还导致一个长期的和卓有成效的研究计划。在60年代中,3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在rca lab开始于60年代后期,目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上,发展了一套时间归正的基本方法。

2 语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以ibm via voice和dragon dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。

目前,at&t和mit等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。

3 语音识别技术发展趋势

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:

1)提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。

2)增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。

3)应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。

4)降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径,其推广程这取决于语音识别技术本身进步的程度,同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以大幅度降低产品成本和体积,产品必然受到消费者的青睐,语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

21世纪是信息和网络的时代,internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

参考文献

语音识别篇6

关键词:SAPI;C#;.NET;语音识别

1 引言

语音识别是信息处理领域的一个重要方向,语音识别通常又可以分为两种工作方式:一种是连续语音听写,这种方式需要语音识别引擎对语音听写过程中上下文以及相同相似发音的词语进行分析、做出判断,实现难度较大。另一种是命令与控制方式(command and control),在此种方式下,语音识别引擎可以通过对简短的命令语音进行识别,以便执行相应操作。

语音识别技术基础是非常复杂的。正是如此,它获得了世界上著名的公司与研究机构的青睐,语音识别技术正经历着日新月异的改变,其中一些产品已经取得较好的效果,用户可以在上述产品基础之上进行二次开发。

2开发图片语音识别系统的条件

语音识别技术的发展涉及人机交互,自然语言处理,人工智能。这使开发人员难以从底层进行应用开发,欣慰的是一些公司与研究机构已经推出他们的研究成果,并且提供了供开发人员使用的开发平台与接口。其中影响比较大的有微软的SAPI、剑桥大学的HTK,IBM的via voice开发平台。本文采用微软的Speech SDK5.1开发包,它不仅是一个免费的开发包,同时提供对中文的支持。

2.1微软SAPI简介

微软的 Speech SDK是基于 C O M 的视窗操作系统开发工具包。这个 SDK中含有语音应用程序接口( SAPI )、微软连续语音识别引擎(MCSR)以及串联语音合成(又称文本到语音)引擎(TTS)等等。SAPI 中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、 语法、 编译、资源、语音识别管理以及文本到语音管理,其结构如图 l 所示。

图1 SAPI结构

SAPI API在应用程序和语音引擎之间提供一个高级别的接口。SAPI实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。

SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。

2.2 在.net应用程序中使用SAPI的准备

安装SAPI 5.1语音开发包。

由于SAPI基于Windows平台,通过COM接口供.net平台调用,所以具体调用方法为:新建工程,在此工程的解决方案中单击右键,在添加/引用中选择 Microsoft Speech Object Library,并在程序中添加对SAPI命名空间的引用:using SpeechLib。

3 系统模型设计及实现

3.1 创立系统界面

 

图2 系统界面一览

3.2  使用SAPI语音识别核心类

ISpRecognizer类是支持语音识别的核心类,主要用于访问MCSR实现语音识别。在进行语音识别时,微软Speech SDK 5.1 支持两种模式的语音识别引擎:共享(Share)和独享(InProc)。在本系统中,我们使用共享型语音识别引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext类是语音识别上下文接口,它可以发送与接收消息通知,通过CreateGrammar方法创建语法规则。通过对它的两个事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重写,我们可以很轻松的得到当前语音识别结果。第一个事件对应的就是识别结果显示:1、第二个事件对应的就是识别结果显示;2、ISpeechRecoGrammar类是语法规则接口,定义语音识别引擎需要是别的语音类容。起语法规则可以分为听写型与命令控制型。听写型可以识别大词汇量语音,但是别效率与识别准确率较低。命令控制型有针对性的对特定语音进行识别,在效率与准确率上都非常高。

当然一个ISpRecognizer不管是共享还是独享,都可以有多个RecoContext与其关联,而一个RecoContext也可以与多个ISpeechReco  Grammar关联,每个ISpeechRecoGramma  r识别各自规定的内容。

 

图3 语音识别类对应关系

3.3  编写系统核心代码

通过读入外部Grammar配置语音识别引擎,外部Grammar文件以xml文件格式存储。具体形式如下:

ManegePic.xml

玫瑰

大象

狮子

老虎

仙人掌

珠穆朗玛峰

布达拉宫

貂蝉

十字军

世界杯

阿里巴巴

乒乓球

五星红旗

……

采用命令控制型Grammar是为了使语音识别结果准确有效,定义外部Grammar是为了保持以后系统的可扩展性。对于新输入的图片,只要将图片名字加入到 图片名字

中即可。

开始语音输入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//读入规则

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加识别最终事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加识别怀疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活规则 

}

其中识别最终事件是系统在完整处理输入音频之后得到的最后识别结果,怀疑事件则是因为系统在处理过程中的最相似识别结果。这两个事件在一些环境之下得到的识别结果不同。

识别怀疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

将系统在处理过程中的最相似结果显示在textBox控件之中。

识别最终事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 将系统最终结果显示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//显示识别结果的图片

}

Catch (Exception e)

{}

}

由于篇幅有限,这里仅仅给出了构建语音识别引擎与图片显示部分的代码。完 整的系统可以在Windows XP + vs2008环境中调试通过,实现基于.net和SAPI的图片语音识别系统。

4 结语

通过制作图片语音识别系统,对利用SAPI进行语音识别有了初步的研究和实践,该系统具有一定的扩展性,也可以作为子系统嵌入到其他系统之中。该系统的功能可以扩展到语音控制文件操作,比如打开/关闭文件,添加文件,可以制作一个不需要键盘鼠标只利用语音就可进行操作的软件系统。

参考文献:

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

语音识别篇7

【关键词】隐马尔可夫;语音识别;单片机

在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。

1语音识别概述

1.1语音信号的产生

物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。

语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。

1.2语音信号的处理

根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。

数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。

1.3语音信号的模块处理

在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

1)隐马尔可夫模型

隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。

2)人工神经网络法

ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。

3)动态时间规整技术

DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。

2语音识别系统设计思路

语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。

语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。

3系统模块设计及系统测试

此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。

工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。

系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。

此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。

4结束语

语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。

【参考文献】

语音识别篇8

关键词:语音识别;动态时间规整(DTW);数字信号处理器(DSP)

1 引言

语音识别按不同的角度有以下几种分类方法:从所要识别的单位,有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。 从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。

2 系统硬件及组成

2.1 系统概述

语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。

2.2 硬件构成

本文采用DSP芯片为核心(图2所示),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。

2.3 系统主要功能模块构成

语音处理模块采用TI TMS320VC5402, TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。

3 结论

本文以TMS320VC5402芯片为核心的系统硬件设计迸行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS320VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。

参考文献

[1] 朱铭锆, 赵勇, 甘泉. DSP应用系统设计 [M].北京:电子工业出版社,2002.

[2] 郭华. 自适应滤波算法及应用研究[D].兰州:西北师范大学,2007.

[3] 张雄伟..DSP芯片的原理与开发应用[M].北京:电子工业出版社,2009.

[4] 张德丰. 数字图象处理(MATLAB版)[M].北京:人民邮电出版社,2009.

作者简介

王宇,邵阳学院魏源国际学院电子科学与技术专业学生。

语音识别篇9

技术为王。百度与微软双雄鼎立

去年10月中旬,微软人工智能与研究部门的一个研究者和工程师团队报告出他们的语音识别系统实现了和专业速录员相同甚至更低的误字率(word error rate,简称WER),降到了5.9%,而一个月前这一数字还是6.3%。微软首席语音工程师黄学东表示,“我们已经达到了人类水平,这是一项历史性的成就。”

有意思的是,百度首席科学家吴恩达(Andrew Ng)立即在Twitter上表示祝贺,并毫不掩饰地摆出了百度的战绩,“在2015年我们就超越了人类水平的汉语识别;很高兴看到微软在不到一年之后让英语也达到了这一步。”时隔一年,百度和微软两大人工智能科技巨头先后分别在汉语和英语语音识别研究方面取得了超越人类的成果,轰动业界。

近年来,随着数据量的丰富和计算能力的提升,语音识别行业迅速崛起。据统计,仅美国至少就有26家公司在开发语音识别技术。

2015年之前,Nuance是当之无愧的全球语音领域老大。随着Google、微软和苹果都选择自己建立团队开发语音业务,在此之后,Nuance的市场份额节节下跌,2014年还高达60%的市场份额,一年过去只剩下31.1%。相比之下,Google语音识别的市场份额增长明显,逐渐占据了英语领域的主导权。

尽管Google、微软和苹果这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难望其项背,但因为一些政策和市场方面的原因,这些巨头的语音识别主要偏向于英语,这给中国互联网企业在中文领域崛起提供了机会,百度就是其中的佼佼者。百度收集了大量中文(尤其是普通话)的音频数据,这给其Deep Speech 2技术成果提供了基本的数据优势。

事实上,在当前的发展脉络下,语音识别的准确率和通用性的本质就在于三个方面:数据量的多少、算法的优劣和计算能力的水平。在这三个方面的比拼中,互联网巨头拥有很大的优势,因为它们拥有最多的数据,最顶级的人才以及最强大的计算能力水平。所以当Google开放语音识别API后,在英语语音识别的市场中,Google比Nuance有更大的优势。而在中文市场中,百度也扮演着和Google在英语市场相似的角色,甚至更为出色。

2015年12月,在Deep Speech 2首次时,吴恩达称其识别精度已经超越了Google Speech API、wit.ai、微软的Bing Speech以及苹果的Dictation至少10个百分点。2016年2月,百度表示Deep Speech 2的短语识别误字率已经降到了3.7%。

群雄逐鹿,中文领域的生死战

毫无疑问,微软和百度的语音识别技术水平都很惊人,但一项技术终究要变成产品和服务才能实现价值,所以在英语语音识别市场占据主导地位的是Google而非微软。在中文语音识别市场,这方面做得最好的公司莫过于科大讯飞。

Google是最早在全球范围内大规模使用深度神经网络的公司,而科大讯飞是中国第一个在商用系统里使用深度神经网络的公司。2010年,科大讯飞率先将语音输入功能引入到了手机当中,截至2016年6月,《讯飞输入法》已经拥有3.6亿用户,活跃用户更是超过1亿人,其中,语音用户渗透率高达59%。在国内语音行业,科大讯飞已是不折不扣的龙头企业。而不久之前,《讯飞输入法》还因在锤子手机会上的惊艳表现备受关注。

在2016年10月18日晚上的锤子手机会上,罗永浩现场展示了科大讯飞97%正确率的语音输入。一夜之间,科大讯飞几乎成了所有科技媒体人所讨论的话题和关注的焦点。其实,除了锤子手机的Smartisan OS之外,华为、小米和魅族等厂商的语音服务或者输入法都在使用或曾经使用过科大讯飞的技术。据悉,在未来的三年中,科技巨头英特尔也将与科大讯飞合作,一起研究机器学习和深度学习项目。

除了科大讯飞,国内在语音识别领域有所建树的大公司还有不少。在2016年4月中旬举行的“云栖大会南京峰会”上,阿里云总裁胡晓明率先进行演讲,阿里云的“小Ai”机器人全程对胡晓明的语音进行了实时翻译文字,这也是阿里巴巴第一次对外公布阿里云人工智能的能力。其实,这并非“小Ai”首次展示自己的速记能力。在阿里云2016年年会上,“小Ai”曾打败了世界中文速记大赛亚军。阿里云人工智能技术专家陈一宁透露,“在阿里云大数据平台数加上,智能语音交互产品就是采用的“小Ai”的技术。目前,阿里云还在探讨同各类直播平台的合作,以后所有的直播都能具备实时加字幕功能。

除了阿里云,搜狗也是国内语音识别领域不容忽略的一方诸侯。在去年11月中旬举行的第三届世界互联网大会上,搜狗CEO王小川首秀搜狗“黑科技”――机器同传,展示了实时机器翻译技术,将演讲嘉宾的中文讲话实时语音识别并同步翻译为英文上屏显示,引起轰动。这是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,效果可靠、准确率已接近人类同传翻译结果。而在近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊和日常口语等领域,采用5分制人工评分能达到4.4分,走向实用化。目前,搜狗语音识别准确率已超过97%,识别速度达到了400字每分钟。

除了科大讯飞、阿里云和搜狗等互联网大佬,国内还有不少专注自然语言处理技术的创业公司,如云知声和思必驰等。云知声CEO黄伟表示,云知声的识别准确率已经能达到97%,属于业内一流水平。相比之下,思必驰做的是语音对话交互技术的整体解决方案,而不是单纯的语音识别解决方案。因此在场景应用中,思必驰的系统和科大讯飞的系统多有比较,可相互媲美。

毫无疑问,面对拥有领先优势的科大讯飞,以及阿里云和搜狗等实力雄厚的互联网大佬,还有云知声和思必驰这类不容小觑的创业公司,百度虽然拥有做人的技术和财力,但想在中文语音识别领域独霸江湖仍有不小的难度。未来难测,深挖场景是必经路

未来5年,语音市场将显著增长,到2020年,全球语音市场规模预计将达到191.7亿美元。语音识别之所以潜力巨大,很大程度上源于它是最便捷的人机交互方式,也是人工智能的重要入口。近年来,国内外互联网巨头们都在发力人工智能,虽然各自的侧重点不同,但都极为倚靠语音识别技术。毕竟,语音输入本身只是一个途径,它最终仍然要和实际操作相结合。

语音识别技术要在现实生活中落地,必须与场景结合,这需要吸纳来自各种场景的数据去训练语音技术,让其更加智能化。这也是为什么“微软小冰”每周都要上线新功能,努力刺激用户贡献更多聊天数据,而科大讯飞则不断扩大包括长虹等智能电视在内的合作名单,吸纳来自入口级硬件的数据。数据显示,与讯飞人工智能连接的应用,日均访问量为30亿次。

与科大讯飞相比,百度在海量用户数据和人工智能技术上的优势,能让他们迅速发展出优秀的语音智能。从这个角度来说,百度的发展道路比科大讯飞更宽。在百度生态内部,目前语音技术的落地渗透在《百度地图》、《手机百度》和《百度输入法》等产品中。而在外部,截至2016年年中,使用百度语音技术的APP数量超过8万款,大型合作厂商包括中兴、魅族和联想等。百度语音如今能获取的数据规模非常庞大,据吴恩达透露,在线识别请求量2016年每天达到1.4亿次,在线语音合成请求量则达到2亿次。

除依靠产品收集用户数据之外,各大厂商还在积极与数据资源商合作,以更快捷地获得庞大的数据支撑。随着这些数据的输入,每分每秒,人工智能的模型会迅速迭代和升级,就像Google的AlphaGo在每一场棋局的每一步对决中都在学习。

作为底层技术,语音识别未来的发挥空间极大,将广泛出现在手机、智能家居、医疗、教育和司法等各种场景。当然,这还有很长的一段路要走,想要在这条路上脱颖而出的公司,―方面要面对同行的生死竞争,另―方面还需努力解决语音识别技术仍然存在的一些瓶颈。

语音识别篇10

doi:10.11772/j.issn.10019081.2013.07.1938

摘 要:

为有效提高语音情感识别系统的识别率,研究分析了一种改进型的支持向量机(SVM)算法。该算法首先利用遗传算法对SVM参数惩罚因子和核函数中参数进行优化,然后用优化后的参数进行语音情感的建模与识别。在柏林数据集上进行7种和常用5种情感识别实验,取得了91.03%和96.59%的识别率,在汉语情感数据集上,取得了97.67%的识别率。实验结果表明该算法能够有效识别语音情感。

关键词:支持向量机;语音情感识别;语音信号;参数优化;遗传算法

中图分类号: TP18文献标志码:A

英文标题

Speech emotion recognition algorithm based on modified SVM

英文作者名

LI Shuling, LIU Rong*, ZHANG Liuqin, LIU Hong

英文地址(

College of Physical Science and Technology, Central China Normal University, Wuhan Hubei 430079, China

英文摘要)

Abstract:

In order to effectively improve the recognition accuracy of the speech emotion recognition system, an improved speech emotion recognition algorithm based on Support Vector Machine (SVM) was proposed. In the proposed algorithm, the SVM parameters, penalty factor and nuclear function parameter, were optimized with genetic algorithm. Furthermore, an emotion recognition model was established with SVM method. The performance of this algorithm was assessed by computer simulations, and 91.03% and 96.59% recognition rates were achieved respectively in sevenemotion recognition experiments and common fiveemotion recognition experiments on the Berlin database. When the Chinese emotional database was used, the rate increased to 97.67%. The obtained results of the simulations demonstrate the validity of the proposed algorithm.

In order to effectively improve recognition accuracy of the speech emotion recognition system, an improved speech emotion recognition algorithm based on SVM is proposed. In the proposed algorithm, the SVM parameters, penalty factor c and nuclear function parameter g, are optimized by genetic algorithm. Furthermore, an emotion recognition model is established with SVM method. The performance of this algorithm is assessed by computer simulations, and achieve 91.03% and 96.59% recognition rate respectively in the seven emotion recognition experiments and other five common emotion experiments which are operated in the Berlin database and when the Chinese emotional database is used, the rate increases to 97.67%. The obtained results of the simulations demonstrate the validity of the proposed algorithm.

英文关键词Key words:

Support Vector Machine (SVM); speech emotion recognition; speech signal; parameter optimization; Genetic Algorithm (GA)

0 引言