语音输入十篇

时间:2023-03-25 12:13:33

语音输入

语音输入篇1

关键词:语音输入;随机培训;元认知策略

中图分类号:G642.0文献标识码:A 文章编号:1009-0118(2011)-12-0-01

一、语音――信息之窗

(一)信息输入

语言活动四项技能中,负责信息输入的有阅读和听力。阅读往往是中国二语习得者的优势,应试和环境原因使得听力成了“冷盘”。抛开这些原因,以上两种信息输入活动本身也存在“天壤”之别。二者虽共同加工同一语言,所采用的信息加工渠道却是截然不同的。学习者在阅读活动中通过“视觉”窗口来获得信息,而在听力活动中,则只能完全靠“听觉”。

(二)语言信息

阅读中遇到即时加工困难的信息可以先不做处理,语码自己不会跑掉,还在原地等你回来再次加工;而听力的几乎不可回溯性,瞬息消失性和人脑的短暂记忆使保留陌生信息直到再次加工的可能性小到微乎其微。这就要求听力中对信息的加工必须与“听”同时进行,或至多滞后几秒钟,否则,后面及时赶来的新信息就会被漏掉。听力留给听者的信息加工时间非常短,没有等待。这就要求听者对听到的信息必须熟悉,听到马上能辨析清楚。

(三)篇章语用信息

与语音提供的语言信息相比,态度情感、衔接、推理、条理、主题等篇章语用信息的加工因为要涉及更长时间的记忆而变得更为困难。同时,这些信息建立在语言信息基础之上,但又不完全依赖语言信息,语篇知识、语用知识、社会文化、世界知识等都会协助或阻碍更高级的网络般复杂的篇章语用信息的顺利加工。而且由于篇章语用信息的加工要建立在语言信息加工的基础之上,这些信息的加工又不能独立于语言信息的加工,而是几乎与其同时进行,难度要高于语言信息的加工(分属两个网络层次),同时还要补充适当的语篇、语用、社会文化、世界等知识,三重加重了加工的负担。

二、语音输入策略与语音意识的培养

(一)认知策略与语音输入

学习策略包括认知策略、元认知策略和社会情感策略。认知策略直接针对目标语言,涉及对目标语中音、字词以及其它方面知识的识别、记忆、储存和检索。听力活动中的认知策略包括信息推断、信息推敲、信息预测和信息的语境化,是对语言本身的加工和处理,都要依靠语音来完成。语音作为唯一的信息窗口负载所有语言和篇章语用信息,它所提供的信息辨别信号是信息加工的第一站,也是必经之路。

(二)元认知策略与语音意识的培养

认知策略旨在帮助学习者获得语音信息,完成信息加工的第一步,信息识别。这其中最重要的一个环节是语言学习者对元认知策略的有效掌握和使用,它有助于学习者自觉地将语音知识系统熟练掌握、消化吸收、直至内化。

三、听力语音输入及意识培养研究

(一)研究目的、现状、方法

为发现目前本科专业英语听力中存在的问题,于下学期对辽工大大一三个班进行了问卷调查。结果表明:主要问题在于基础知识的薄弱,语音知识匮乏,导致听力根基不稳。于是,研究采用前后问卷,前后测验和前后期末考试成绩对比法,利用SPSS软件进行数据统计分析,比较语音输入及语音意识培训前后的听力水平差异,发现二者的相关性。课上以新闻和歌曲为听力实践资料分别进行语音意识培训。

(二)研究结果

结果表明,自下而上的词汇语音培训对听力提高最大,自上而下的篇章语用语音培训其次,韵律语音最弱。问卷结果:72人填写问卷,对所采取的教学改革措施满意度比较高(满意和非常满意占83%人,基本满意14人);措施对听力提高的程度比较明显(非常大和较大占63%,一般占38%)。

虽然语音班(3)进步最大,但该班第一学期有一个极端成绩(8分,满分100分),并不能说明语音培训比其它词汇和语篇培训效果更好,表1已经证实这一点了。

四、结论

语音输入和语音意识的培训对听力提高呈正相关。存在的问题:培训不成体系,随机性比较大;课下的学习自主性不够;听力是一个矩阵,并非一个单独因素对听力的提高起作用,因此,有目的有计划的系统而有针对性的培训,元认知策略指导下的自主监控学习和矩阵因素输入都是值得继续研究的课题。

参考文献:

语音输入篇2

芝麻开门:CFan是我最好的老师,几多寒暑给予我知识的营养;CFan是我最好的朋友,几经风雨给予我莫大的支持。我坚信有

>> 选择字体,轻松输入规范的汉语拼音 印章的字体选择 视觉传达设计中的字体选择 综合公园导向系统中的字体选择 论品牌设计中的字体选择与设计 选用规范的汉语拼音输入法促进语文教学 汉语拼音轻松学 此时无声胜有声 网页设计中怎样选择适当的字体、字号 轻松愉快学习汉语拼音 汉语拼音的将来 字体设计的承载 让学生在轻松快乐的氛围中学好汉语拼音 在轻松愉快的课堂中学习汉语拼音 精巧教学,让孩子轻松学习汉语拼音 帮孩子学汉语拼音 轻松快乐 关于汉语拼音教学的探讨 汉语拼音教学的几点体会 小学汉语拼音教学的探析 汉语拼音的教学方法 我与汉语拼音的情结 常见问题解答 当前所在位置:”网页中找到“GB字集专用楷体(Kai GB Pinyin.ttf)”的链接,虽然网页中说明这种字体适用于Word,但经过笔者试用同样能应用于WPS2007。将汉语拼音字体“Kai GB Pinyin.ttf”下载到硬盘中。然后打开“控制面板”,选择“经典模式”,把字体安装到“Fonts”文件夹中。打开WPS2007,同样按照第15期中提取拼音的方法,打开拼音指南,在拼音指南的窗口的字体选项中选择新安装的“Kai GB Pinyin”字体(见图4),原来的英文字母自动变成了规范的拼音字母,组合粘贴即可。

我们还可以在字体中选择“Kai GB Pinyin”,将输入法切换到英文状态下输入字母,屏幕上就会出现标准的拼音字母!例如“月落乌啼霜满天”的拼音,我们再配合中文输入法的软键盘中的拼音选项,就能够直接输入完整的汉语拼音,效果见图2,上方的为规范的汉语拼音。

推荐度:

小编手记:看了作者给出的网址,发现注音大师也非常实用。运行注音大师,打开要加拼音的汉字文本TXT文件,点击“注音”按扭。里面提供了书生注音大师,用它可以直接实现智能处理多音字、变调、轻声、隔音号和行首字母大写等问题。(杨过)

语音输入篇3

1、在左下方,小孔就是。

2、买一根两端都是Φ3.5插头的音频线。一端插入手机的耳机插口,另一端插入sx4一体机上的音频插口。按下AUX键。就可以播放手机中的音乐了。

3、也可以直接使用蓝牙的播放功能。

(来源:文章屋网 )

语音输入篇4

如同人与人之间的相互对话那样,用语音对设备、机械等发出控制命令和信息,这不仅对于从事计算机的工作者,而且对于普通的人们,也曾是一个令人神往的梦想。近些年来,由于集成电路技术、数字信号处理技术和图形识别等技术的不断取得进展,语音识别技术也在长足地向前发展。如今,以声音为输入信号的自动控制系统已在不少场合开始得到应用。

【关键词】特点 方法 现状 应用

1 语音识别的优点和方法

直接用语音作为输入控制信号方法具有许多优点:对人来说,作为最自然的输入控制信号的手段,不必进行特殊的训练;信息的产生速度较快,一般为键盘输入方法的2~4倍;操作者在用眼和手共同进行其它作业的同时能输入信息;操作者能边走动边输入信息;能远距离用电话输入;可以省略键盘、发光字母读出器等中间输入设备;即使在某些紧急的场合,也能在转瞬之间投入使用。

说明语音识别的方法,应首先从语音的分析谈起。语音大体上包含着两种信息:即具有一定含义的信息和发音者固有的信息。前者的识别处理称为:“狭义声音识别”,而后者的识别处理则叫作“发言人辨认”。

在声音频谱中,能量集中的频带称为共振峰。共振峰频率随着发音者性别及其他条件的不同而变化。分析输入的语音,找出其特征是语音识别的第一步。

识别输入的语言是语音识别的下一步。对此在“单词识别”和“单音识别”两种方式。前者是在识别装置内设有以单词为单位的模拟型词汇标准,进而选出与输入语音最类似模式的方式。后者的方式是在识别装置内设有以此单词低次的单音、音节为单位的模拟型标准,将输入的语音按单音的不同进行变换,再进行单词的识别。

单词(单间)与单词(单音)之间是否有间隔,这是语音识别技术要考虑的一个重要问题。“离散话音”指的是在单词间有200毫秒左右时间间隔的输入方法。还有所谓“连续会话”方式,其作为识别对象的是多个单词连续一气讲出的语句,相应的识别处理将较复杂一些。

另外,讲话人是否受到限制的问题,对语音识别装置来说,在技术上和造价方面都是必须考虑的。所谓“特别指定说话人”识别,就是将识别对象的全部单词,经数次练习预先进行话音输入,使之在装置中存储发音人个人所特有的单词模式,使用时将输入的语音与比单词模式进行比较而加以识别的方式。这种方式以比较简单的识别处理就能得到较高的识别率。还有“可更换发音人”的识别方式,它是预先用多人的语音信号瞬时值作成标准模式,这样在更换了发音人、口音有所差异的情况下,识别装置也能进行正确的识别。

语音识别的最高发展阶段是识别人们以普通速度讲的会话语言。众所周知,一般人的会话中包含着无意义用语(口头语),因此要一字一句地准确识别人的普通会话语言是极难的。作为解决方法,产生了被称之为“语音理解”的新概念:就是将输入的语音中所包含的冗余信息(方言、单调等)进行引用,作为理解输入信息内容的近似方法,而不要求一定将输入语音逐一正确地加以识别,这是与其它的语音识别方式根本不同的。采用此种识别方式的语音识别装置作文章理解系统,它在声音打字机和口语自动翻译等方面可得广泛的应用。

2 语音识别技术的现状

按功能分类,语音识别装置有数据输入型、自然口语输入型和发音人辨认三种。

2.1 数据输入型

语音识别装置首先在美国开始实用并最早出现商用产品的,现在实用的语音识别主要采用的还是对专人的并基于以单词为单位的离散信息的识别方式,识别率达99%以上,适用于识别语句较少而且在较肃静的室内场合使用。作为一般用户为对象的(例如:旅客问询)系统,则要求使用“可更换发音人”方式的语音识别装置。

2.2 自然口语输入型

对于自然口语输入型的语音识别,美国国防部作为ARPA计划,进行了大量的研究工作。在日本也以电子技术综合研究所为中心,作为图形识别研究大型计划的一环进行了研究。目前已有声音打字机那样的应用。

2.3 发音人辨认

“发音人辨认”是语音识别最完善的方式。由于不同的发音人在发同一语音时,可以产生有显著差别的声学图案,这种差别便体现了个人的特征。人的听觉区别个人特征的能力是很强的。目前用电子设备辨认发音人常用的简便方法是:检出语音基频随时间变化的图形作为辨认的依据。它的应用前景是相当广泛的,比如用存储某人的语音代替签字(有人称之为“声纹”)进而利用电话等实现远距离的身分确认将成可能。

3 语音识别在铁路系统的应用

语音识别装置按应用分类:有控制、指令型,利用电话(包括无线电话)型,OA(事务自动化)应用型和“发音人辨认”型等。

3.1 有控制、指令型

在控制、指令型的应用方面,采用“专人”语音识别装置可以进行选排调车进路、调车机车的无人驾驶、行包自动分拣等;采用“可更换发音人”的语音识别装置可以实现自动售票、行包受理和列车紧急停车等。

3.2 利用电话(包括无线电话)型

在利用电话型的应用方面,采用“专人”语音识别装置可以进行在危险处所工作的机械操作(高空作业等)、火车司机的模拟训练和列车到发时刻通知等;采用“可更换发音人”的语音识别装置可应用于指定票(指定乘车日期和车次的车票)发售情况的问询和预约及列车运行情况问询。

3.3 OA(事务自动化)应用型和“发音人辨认”型

在OA型应用方面,适用于编制口述程序、语音打字机、图书及文献的检索等。

例如在车站上的调车作业中,以往是按照作为高度作业指挥者的调车员的指示,由扳道员(电气集中车站是由信号楼的信号员)扳道岔来办理进路的。若将站内联络用的无线通信设备附加选路用的语音装置,则可由调车员在站内任意地点直接指挥进行调车作业。

再比如利用主意控制的电磁客票预售自动化系统,在国外也已使用。这样在一些预定将来也不设置“绿色窗口”(售票窗口)的沿线小站上,可通过联机的形式向旅客发售指定票。站务员按旅客的要求,只要用电话以语音输入的方式向售票中心站申请发售指定票,当得到由中心站发出的确有该指定票座席的话音应答之后,站务员即可向旅客发售指定票。

语音识别技术作为一门成熟的技术,已进入实用化阶段,应用范围也越来越来广泛,随着电子技术的飞速发展,它的技术将越来越成熟,应用领域也将不断地扩大,从而更好的服务于各行各业。

参考文献

[1]高新涛.语音识别技术的发展现状及应用前景[J].甘肃科技纵横,2007.

[2]马志欣.语音识别技术综述[J].昌吉学院学报,2006.

语音输入篇5

关键词: AMBE算法编码/解码数字语音传输

中图分类号: 文献标识码:A文章编号:1007-9416(2010)01-0000-00

0 引言

目前,语音处理系统中基于对语音构成的分析,产生了多种压缩编码算法。其中,美国DVSI公司的先进多带激励(ABME,Advanced Multi-Band Excitation)算法具有较大优势。相比其他算法,它不仅码率低,同时在低波特率下能保持优良的语音合成的自然度效果,还具有良好的抗背景噪声能力。如果加上FEC前向纠错编码,可对信道误码进行一定程度的纠错。正因为AMBE语音压缩编码的这些优点,AMBE语音压缩编码方式在野战综合通信网、卫星网、移动通信网等专业网中得到了广泛的使用。

AMBE-1000是DVSI公司开发的基于AMBE算法的一种高性能的多速率语音编码/解码芯片,非常适合于数字语音通信及处理的场合。本文基于AMBE-1000设计了一个语音压缩系统,该系统具有设计简便、语音编码速率可变、音质良好、功耗小等优点,可应用于多种需要。

1 AMBE-1000的工作原理和模式

1.1 AMBE-1000的工作原理及特性

AMBE-1000是基于AMBE算法的语音编码/解码芯片,其语音编码/解码速率可以在2400~9600bps之间以50bits的间隔变化。在芯片内部有相互独立的语音编码和解码通道,可同时完成语音的编码和解码任务;并且所有的编码和解码操作都在芯片内部完成,不需要外扩的存储器。AMBE-1000最基本的组成部分就是一个编码器和一个解码器,两者相互独立。编码器接收8KHz采样的语音数据流(16bit线性,8bit A律,8bit u律)并以一定的速率输出信道数据。相反,解码器接收信道数据并合成语音数据流。编码器和解码器接口的时序是完全异步的。AMBE-1000采用A/D-D/A芯片作为语音信号的接口。送往解码器用于控制的数据和语音数据是不同的。输入输出的语音数据流的格式必须是相同的(16bit线性的,8bit A律,8bit u律),信道接口采用8位或16位的微控制器。

芯片可选择的功能包括回声抵消,VAD(语音激活检测),电源模式,数据/前向纠错率的选择等,这些功能由管脚或输入到解码器的命令帧来决定,值得注意的是,软件命令可覆盖硬件设置。

1.2 AMBE-1000的工作模式

通道接口:

通道接口用于描述从编码器输出的压缩比特流和输入到解码器的压缩比特流。该接口也可输出状态信息,例如可以检测是否有双音多频的语音信号(DTMF)输入。此外,该接口可对编解码器执行更复杂的控制操作(通常在初始化时)。这些控制功能包括语音和纠错码速率的选择、A/D-D/A芯片的设置。

在多数的语音传输系统中,实际编码比特流以一定格式从通道中摘录出来,并和系统信息合在一块构成系统传送数据流,通过传输通道发送,在接收端又被摘录出来,并通过解码器构成AMBE-1000所需格式的数据流。通道接口流图如图2所示。

AMBE-1000有多种工作模式:并行和串行,有帧和无帧格式,主动和被动。其中,并行被动帧模式是最灵活和实用的一种工作模式,本文设计方案采用的就是并行被动帧模式。我们可以通过上拉电阻和拨位开关与相应的接口选择引脚相连,就可以选择相应的工作模式,我们还可通过类似的方法来选择语音和纠错码速率。这样,只需设计相应的串行和并行接口,用户就可以根据预定的格式对数据进行处理。AMBE-1000的数据在有帧格式下,每帧由17个16位字组成。编码器每20ms输出17个字,同样解码器则要接收17个字。当编码/解码的数据率低于9600bps时,不足的位补0。需要注意的是,无论AMBE-1000工作在什么速率,所有272位(17字*16 bits=272 bits)的帧数据(包括任何未用的结尾零)都必须从编码器输出或输入解码器。无帧格式只能用于串行模式。

当编码包就绪(EPR)信号变高时,表明有一编码的数据帧等待输出。当CHP-RDN下沿信号到来时,8位并行数据就锁存到数据总线上,此时微控制器可以读取数据总线上的数据;并且根据CHP-RDN下沿信号依次读取34字节的一帧数据。CHP-OBE则用来说明输出缓冲区是否有数据。当CHP-RDN信号的脉冲间隔大于AMBE-1000工作时钟的350倍时,可以忽略CHP-OBE信号。当AMBE-1000工作在并行被动输入模式时,则微控制器可以根据DPE、CHP-WRN信号往AMBE-1000写数据。在随后的20ms,微控制器应该准备读取该帧34字节数据。

时钟和复位:

AMBE-1000的输入时钟频率范围为26~30 MHz。它有三种输入方式:一、TTL时钟源直接输入;二、CMOS时钟源或振荡器直接输入;三、采用晶体振荡电路输入。有效的复位信号应该是低电平,并且须持续最少6时钟周期。

2 AMBE-1000的A/D-D/A接口

模拟语音信号与AMBE-1000芯片之间要通过A/D-D/A芯片来连接。A/D-D/A芯片的选择要慎重,最好要选16位线性的器件。另外也要考虑这些器件的信噪比和滤波特性。

MC14LC5480是MOTORORA公司推出的一款通用单信道PCM编码解码滤波器。它有一个输入运算放大器,运算放大器的输出输入到编码器。解码器接收到PCM数据后使用一个差分D/A转换器加以扩展。D/A的输出是3400Hz以下的低通滤波输出,信号再由有源R-C滤波器滤波以消除开关电容滤波器的能带输出。

AMBE-1000在使用时与任一A/D或D/A接口的语音采样率都是8KHz,这8KHz的语音数据通过串口来输入输出。串口的控制信号可以完全由使用者来设定。最灵活的办法就是向解码器输入一帧ID=0x03H的命令帧来设置这些控制信号,使用者可以对SIOC进行全部的配置。为了简化A/D-D/A芯片的配置,一组预设的配置值可以通过管脚C_SEL[2~0]来配置。这些预设的配置值,指明了接口的方向以及可编程器件的程序字的顺序。AMBE-1000的A/D-D/A接口电路如图3所示。

3 系统分析

考虑到系统语音信号要有足够大的增益,需要加上必要的高性能放大器芯片,采用了AD8542。系统的结构框图如图4所示。

图4 系统结构框图

系统上电后,微控制器AT89C51复位,MC14LC5480进行语音的A/D-D/A转换和PCM编解码,AMBE-1000负责压缩编解码过程。AMBE-1000每完成一帧语音数据的编解码运算,与AT89C51交换一次数据。而AT89C51通过串行或并行接口与别的节点交换数据,从而完成数字化语音的通信过程。而软件编程主要是对AT89C51进行编程。在电路设计时,尤其注意模拟地与数字地的分开,模拟信号和数字信号的隔离,以避免背景噪声和相互干扰。

4 结语

目前,语音通信的应用极广泛,对传输质量和流量提出了越来越高的要求。本文介绍的由AMBE-1000构成的语音传输系统,不但满足了较低流量下具有良好的通话质量的要求,同时也具有低成本、低功耗的优点,在诸多场合下具有较大的应用前景。

参考文献

[1] MC14LC5480 PCM CODECD Datasheet.1999.

语音输入篇6

1 概述

根据对语音构成的分析,应运而生了多种对音频信号的压缩编码算法,如CELP、RELP、VSELP、MP-MLQ、LPC-10MBE等,它们通过不同的算法,实现对音频信号的压缩。这些压缩编码算法的压缩率、语音质量各有所长,其中美国DVSI(Digital Voice System .Inc)公司提出的先进多带激励AMBE(Advanced Multi-Band Excitation)压缩编码算法是其中的杰出代表。AMBE是基于MBE技术的低比特率、高质量语音压缩算法,具有语音音质好和编码波特率低等优点,并植于DVSI公司的AMBE-1000语音压缩芯片内。该芯片是一高性能的多速率语音编码/解码芯片,其语音编码/解码速率可以在2400~9600b/s之间,以50b的间隔变化。在芯片内部有相互独立的语音编码和解码通道,可同时完成语音的编码和解码任务;并且所有的编码和解码操作都在芯片内部完成,不需要外扩的存储器。AMBE-1000的这些特性使它非常适合于数字语音通信、加密语音通信以及其它需要对语音进行数字处理的场合。

2 AMBE-1000的工作原理及硬件接口

2.1 基本工作流程

简单地说,AMBE-1000的工作过程如图1所示。AMBE-1000可看成由两个分开的编码器和解码器组成。编码器接收8kHz的语音数据采样流(如16位线性的,8位A律的或8位U律的)和输出一个期望的波特率的信道数据流。反之,解码器接收一个信道数据流并合成一个语音数据流。AMBE-1000的编码器和解码器的接口时序是完全异步的。

2.2 信道接口

信道接口用于描述从编码器输出的压缩比特流和输入到解码器的压缩比特流。该接口也可输出状态信息,例如可以检测是否有双音多频(DTMF)的语音信号输入。此外,该接口对编/解码器执行更复杂的控制操作(通常在初始化时)。这些控制功能包括语音和纠错码速度的选择、A/D-D/A芯片的设备。在多数的语音传输系统中,实际编码比特流以一定格式从信道中摘录出来,并和系统信息合在一起构成系统传送数据流,通过传输信道发送;在接收端被摘录出来,并通过解码器构成AMBE-1000所需格式的数据流。

AMBE-1000有多种工作模式:并行和串行、有帧和无帧格式、主动和被动。其中,并行被动帧模式是最灵活和实用的一种工作模式。通过上拉电阻和拨位开关与相应的接口选择引脚相连,就可以选择相应的工作模式。通过采用上述的方法,就可通过选择开关在2400~9600b/s和50~4750b/s间自由选择语音速率和纠错码速率。在串行主动模式下,AMBE-1000的工作时钟为27MHz,CHS_O_CLK的时钟为4.5MHz(27MHz/6),即在0.22μs内需读取1位数据。即使单片机工作在24MHz下,也无法读取该数据,故须采用被动方式,这样就可以自己设置CHS_O_CLK的时钟,可该时钟也需要满足在20ms内能够读取34字节的数据(即1帧数据);同时并口占用较多的接口资源,故采用串行被动帧模式,其硬件连接如图2所示。

    2.3 数据格式

AMBE-1000的数据在有帧格式下,每帧由17个字组成。编码器每20ms输出17个字,而解码器则要接收17个字。每帧的前5个字由帧标志(Header)、识别标志(ID)、状态(输出)或控制(输入)信息组成,其余的12个字构成编码/解码数据。这12个字共192位是AMBE-1000以9600b/s方式工作的最大数据率(192b/帧×50帧/s=9600b/s)。当编码/解码的数据率低于9600b/s时,不足的位补0。需要注意的是,无论AMBE-1000工作在什么速率,所有272位(17字×16b=272b)的帧数据(包括任何未用的结尾零)都必须从编码器输出或输入解码器。无帧格式只能用于串行模式。

图4

    2.4 AMBE-1000和TLC32044的接口电路

AMBE-1000要求A/D、D/A的语音数据与串行的方式输入、输出。该接口电路的关键是语音数据的帧同步,其硬件接口电路如图3所示。其中5.184MHz作为TLC32044的工作时钟,同时也作为D触发器的触发脉冲。由TLC32044产生的移位脉冲(SHIFT CLK),用于实现比特位的同步传输。通过设置C_SEL0-2为010,来选择TLC32044芯片。

2.5 时钟和复位

AMBE-1000的工作时钟为26~30MHz。它有3种输入方式:TTL时钟源直接输入、CMOS时钟源或振荡器直接输入、采用晶体振荡电路输入。在此系统中,时钟采用晶体振荡电路输入。有效复位信号为低电平,并且须持续6个时钟周期以上。

3 接口电路

3.1 TLC32044的工作原理

语音信号的数字处理少不了语音信号的A/D与D/A转换。在本次设计中,选用美国TI公司生产的一种14位动态可调的高精度可编程A/D、D/A的TLC32044芯片。如图4所示,TLC32044由反混迭输入滤波器、A/D、D/A、输出重构滤波器等组成。模拟和数字地、模拟和数字电源的分开可降低噪声和保证一个宽的动态范围。模拟电路部分采用差分电路以使噪声达到最小。TLC32044还具采样频率可编程,其采样频率可在7.2kHz~19.2kHz范围内用软件控制,它可工作在同步字、字节传输和异步字、字节传输等4种工作状态,分别采用16bit字或8bit字节串行通信方式,最高具有14bit的转换精度,只需外部提供一个5.184MHz的时钟便可工作。该芯片通过编程可同时容纳2路模拟信号输入。系统上电(或复位)后则按其默认的工作方式工作,即按16bit字或8bit字节串行通信方式,最高具有14bit的转换精度,只需外部提供一个5.184MHz的时钟便可工作。该芯片通过编程可同时容纳2路模拟信号输入。系统上电(或复位)后则按其默认的工作方式工作,即按16bit字同步串行通信,采样频率为8kHz。欲改变TLC32044的工状态,可通过编程并把控制字经由DX脚送入TLC32044。

图5

    在DR时序中的D1、D0位是空的,A/D转换的有效精度是D15~D2;而DX时序中的D1、D0位是作为控制位用的。FSR和FSX分别为接收与发送帧同步信号,为8kHz。在同步工作方式下,两者完全相同。

3.2 TLC32044的接口电路

为了实现系统的语音输入和输出,同时保证有效的增益,须对输入输出的语音信号进行放大,电路如图5所示。在该系统中,采用高性能低噪声的LM1458放大器,通过20kΩ的可调电位器来调整输入输出语音信号的增益。在该电路中需要-5V电源,而一般电路仅提供+5V电源,故在电路设计上采用MAX660芯片,实现+5V~-5V电源的转换。这样,整个电路就可用单一电源供电。

图6

语音输入篇7

【关键词】单片机;语音信息;语音信号

0.引言

随着数字化信息处理、合成技术和大规模集成电路的不断进步,各种语音合成芯片应用不断扩大。在其控制之中大多都是采用PC机或微控制器的方法,这种方法的控制手段不但需要硬件的支持,同时也需要对软件系统和各种指令进行严肃处理。伴随着目前社会技术的不断发展,语音信息采集与处理措施要求不断增加,在处理之中,是通过将模拟语音信号通过相应软件和系统转变形成数字信号,再由单片机控制储存在存储器中,形成一套系统的工作流程。

1.芯片介绍

单片机作为一种集成电路芯片,是通过采用各种超大规模的集成电路技术将具有各种数据处理和函数计算能力的中央处理器、随机处理器以及定时器等终端系统和功能集成到一个完整的硅片之中形成一个完善而又系统化的微型计算机系统措施,这种电路芯片在目前被广泛的应用在各种工业生产和控制领域之中。伴随着社会的进步,单片机呈现出其顽强的生命力,以高速发展的优势迅速的应用在各个信息处理之中。

1.1 ISD4OO4芯片介绍

ISD公司多电位直接模拟量存储的专利技术是目前单片机的主要制造技术措施,在单片机的制造中成功的将模拟语音数据写入芯片之中的存储单元,不需要进行其他转换便可形成自然而又清晰的语音信号。ISD4OO4语音芯片采用C14OS技术,通过在内部装置韩警惕的振荡器和防混叠过滤器等方式来扩大存储器容量,增加计算效率和准确度,因此只需要很少的器件就可以在其中构成一套完整的声音录入系统和回放体系,这在系统设计中不但能够节约设计消耗时间,同时能够避免设计中其他元件的增多。

在目前ISD公司的单片机构成中主要是通过信号输入系统、信号输出部分、存储系统、采样时钟部分和SPI部分六部分构成。其在构成中信号输入部分—音频信号放大器和五极点抗混叠滤波器:而信号输出部分在控制的过程中是通过平滑过滤器和自动静噪处理器来实现的。存储部—非易失性多电平模拟存储阵列;采样时钟部分一内部时钟振荡器和调节器:SPI—录、放、快进等操作的SPI接口;电源接口部分。

1.2 AT89C52芯片介绍

AT89C52芯片是一种低功耗、高性能的片内含有8KB快闪可编程/擦除只读存储器的8位CMOS微控制器,使用高密度、非易失存储技术制造,并且与8OC31引脚和指令系统完全兼容。芯片上的FPEROM允许在线编程或采用通用的非易失存储编程器对程序存储器重复编程。

2.系统方案设计

ISD器件在录音存储操作之前,要对信号作调整。首先将输入信号放大到存储电路动态范围要求的最佳电平,这主要由内部放大器来完成。放大后的信号进入五级抗混叠滤波器进行调整。模拟信号的存储采用采样技术,利用抗混叠滤波器可以去掉采样频率I/2以上的输入频率分量,使所有采样数据都满足奈奎斯特定理,滤波器是一个连接时间五极点的低通滤波器。录音时,输入信号通过模拟收发器写入模拟多电平存储阵列中。将采样信号经过电平移位生成非易失性写入过程所需要的电压。采样时钟同时用于存储阵列的地址译码,以便将采样信号顺序地写入存储阵列中。放音时,录入的模拟电压在同一采样时钟的控制下顺序地从存储阵列中读出,重构原来的采样波形,输出通路上的平滑滤波器去掉采样频率分量,并恢复原始波形,ISD器件的采样频率通过内部温度补偿的基准振荡器来控制,这个振荡器不需要外接元件,采样频率取自内部振荡电路之后的一组分频器。平滑滤波后的信号经过自动静噪处理传送入放大器作为输出音频功放的输入信号,推动扬声器。

2.1语音输出电路

LW386是一种集成音频功放,同时其中具有着自身功能消耗低,电压的增长稳定,对电源电压的控制范围较为合理,单片机在应用的时候失真效率和要求较低。尽管LM386的应用非常简单,但稍不注意,特别是器件上电、断电瞬间,甚至工作稳定后,一些操作(如插拔音频插头、旋音量调节钮)都会带来的瞬态冲击,在输出喇叭上会产生噪声。

2.2录音电路

ISD器件采用录音时间为8分钟的ISD4OO4-8器件,以单片机AT89C52为微控制器,外接语音段录放控制键盘和LED显示器,外部存储器24CO2用于保存各语音段首地址及总语音段数,为了改善语音量,要提高输入端信噪比,因此在ISD语音输入端采用放大电路单端输入。

2.3放音电路

本系统可以主要分为三部分:单片机的控制部分、放音部分和显示部分。本文的控制部分主要由单片机89C52构成,包含必要的按键电路、复位电路和看门狗电路等电路,放音部分主要由ISD4OO4构成。

3.软件设计

3.1 SPI口设计思想

模拟元件正常连接后,对芯片内部信息进行分段管理的操作。从上面的分析可知,只要给语音芯片的MOSI引脚输入8位控制命令就可使ISD芯片从当前地址执行相应的录放操作;同样使用8位的读指令,就能在串行输出MISO弓{脚获得VOF和EOM信息。在时钟输入SCLK弓{脚端输入8个串行时钟就能保证5位指令的输入和芯片内部8位信息的输出。但是,MOSI、MISO、SCLK、SS的各引脚,必须满足SP的时序关系。

3.2上电顺序

程序工作思想电路上电后,程序首先完成程序的初始化,随后查询按键状态,进入系统待机状态。如果有按键按下,则转去执行按键指向的工作程序。按键包括放音键,程序将首先判断是去还是回,并点亮相应的指示灯。自动读出第一段的放音内容。如果不是首次按下,程序则首先判断当前位置,并以该位置为依据获得存放该站放音内容的首地址。调用放音子程序,读入前面获得的本次放音内容首地址,开始放音。

4.结束语

在传统的语音录敖过程中,语音信号要经过设备豹接受后再转化为模拟电信号,遥过前置放大器把语音信号放大,通过带通滤波之后。去掉多余的干扰,再经过A/D转换为数字信号,控制器对其进行处理和存储。之后再由D/A转换为模拟信号,达到放音的目的。使用这种方法既复杂又容易使声音失真。所以,本文介绍了一种单片语音处理芯片ISD4OO4。通过对ISD4OO4语音芯片的简单介绍,熟悉了ISD4OO4的基本应用。通过对基于单片机控制系统的设计实现了语音的录入和播放。并阐述了系统工作各部件的性能特性,基于微处理系统的设计实现了录音和放音。此系统设计灵活,成本低,语音器件抗干扰性强,应用效果良好。 [科]

【参考文献】

语音输入篇8

经过微软亚洲研究院与微软中国Office商务软件部1年左右的联合研发,微软终于推出了自己的第一款云输入法——“英库拼音”。该产品基于微软的“英库(Engkoo)”技术。“英库”是微软于2009年推出的自然语言领域的技术集合。它借助云计算平台以及先进的自然语言处理技术和语音处理技术,为中英文词典、机器翻译、语言辅助学习、中英文输入以及写作等语言相关的应用提供基础技术。英库拼音输入法是继英库词典(现名必应词典)之后,微软亚洲研究院在“英库”技术基础上的又一项研究成果。通过云计算技术提供的强大存储和处理能力,英库拼音不仅让中文输入更快捷、精准和智能,而且创新性地将输入由文本扩展至更为丰富的多媒体信息,为用户带来了与众不同的使用体验。

基本输入命中率

对于汉字输入系统而言,准确性是最核心的竞争力。在包含“非主流、微电影、火星文、 秒杀、人肉搜索、经济适用男、萝莉、腐女、伤不起、凤凰男、裸婚、御姐、穿越、吐槽、车震、跑酷、基友、你懂的、腹黑、正太”在内的20个当前最热门的搜索关键词的输入测试中,英库拼音测试版将其中的18个热门词汇排列在了候选词的首位,只有“腐女”的默认排序是第3位,“基友”的默认排序是第12位。而目前国内用户量最大的输入法搜狗拼音将17个热门词汇排在候选词的首位,“腐女”、“基友”和“你懂的”都排位靠后。

在最容易写错的20个成语测试中,英库拼音的准确率为100%,而搜狗拼音在保证首个候选词正确的同时,画蛇添足地将括号中的错误写法排在了候选词的第2位,例如按部就班(按步就班)、别出心裁(别出新裁)和矫揉造作(挢揉造作)。另外,从实际体验来说,英库拼音在整句输入上的准确率之高也令人刮目相看。

不难看出,还处在公开测试阶段的英库拼音的中文引擎核心性能拥有极高的水准,甚至在一些关键指标上优于已经“出道”多年的主流拼音输入法。但英库拼音输入法真正的独家秘笈并不在于此。

增强的字词输入

云计算技术使英库拼音输入法创新性地实现了更自然的中英文混合输入,用户无需通过额外按键(通常是[Shift]键)反复切换中英文的输入模式,拼音和英文即可被准确识别,而且能够很自然地融合在一起输入。例如可以直接输入“weiruankinect”得到“微软kinect”或者输入“chipxindiannao”得到“chip新电脑”。英库拼音输入法的这一功能对于用户,尤其是有双语输入习惯的用户而言有重要的意义,目前还没有任何其他产品可以做到这一点。

另外,英库拼音还能够更智能地输入英文单词。开启“英文输入小帮手”功能后,在英文输入模式下,英库输入法可以智能地辅助我们完成英文输入任务。像其他英文输入法一样,它拥有最基本的单词自动补充和纠正功能。更特别的地方在于,如果我们一时想不起单词的拼写,那么直接按照汉语拼音的拼写方式将单词的读音大致拼出来,英文输入助手就会提供读音相近的词供我们选择;如果完全不知道要用哪个单词,那么直接输入该单词的汉语拼音,英库拼音还可以为我们提供英文单词的建议。例如输入“feiniks”就可以得到我们想输入的单词“phoenix”(凤凰),输入汉语拼音“hangtianfeiji”,就可以得到单词“space shuttle”(航天飞机)。

懂你的输入法

传统的中文输入法只能输入文字和一些简易的表情。但是英库拼音输入法创新性地将输入由文本扩展至更为丰富的图片、地图和网页等多媒体信息。

输入字母[v],然后选择第一个候选种类“图片”,接下来输入想要的关键词,例如“超极本”,就可以得到来自必应图片搜索引擎搜索到的图片“候选词”,我们不需要打开浏览器就可以将搜索到的图片(缩略图)插入到正在编辑的文档中;选择第二个候选种类“地图”,然后输入想要的地名,例如“奥体中心”,就可以得到当地奥体中心的地图位置信息;选择第三个候选种类“网页”,然后输入关键词,例如“新电脑”,就可以得到从必应搜索中截取的搜索结果摘要和网址。

除了能帮助用户输入更丰富的信息之外,英库拼音还能更好地解读用户的输入意图,它可以智能地识别用户所处的情景和输入习惯。例如在MSN聊天窗口中输入“哈哈”,就会出现表情图片,但在记事本中输入相同关键字,表情图片这种候选结果则不会出现;在Word中使用“V模式”搜索地图可以得到地图的图片截图,但是在记事本中输入相同关键字则能得到该地图的链接地址;和朋友聊天时说到想去看最近流行的电影(例如“看变形金刚”),就可以在候选词中看到电影视频的缩略图,将鼠标放在缩略图上,视频即可自动播放。

另外,聪明的输入法还应该会不断地“自学习”。例如,当英库拼音输入法发现很多用户选择进入“V模式”搜索某个词条的图片时,它就会知道并记录下来,下一次直接输入这个词条即会显示出图片候选项。

结论

虽然英库拼音输入法刚刚推出第一个公开测试版本,很多创新的功能还处在雏形阶段,还有许多难题需要攻克,例如目前的“V模式”还有很多限制,实用性有待考验,但是它的设计理念为我们带来了惊喜。随着后续版本功能上的不断完善和设计上的进一步优化,相信微软产品的中文输入体验将会迎来大幅度的革新。不过更重要的是,它意味着更智能的云输入2.0时代即将到来,借助云计算、数据挖掘和机器学习技术,更懂用户的输入体验就在不远处。

让输入法更聪明

微软的基础研究之一就是千方百计通过网络挖掘来发现刚刚出现的新词汇。网络挖掘与机器学习也是相关联的。他们教会机器,什么是词汇,什么是语言,其中的基本内容之一是建立语言模型。这也是输入法的核心。基础研究的意义在于从最基本的层面上改善IME体验,让它更加精确、速度更快。

英库是以前的工作和现在的工作之间的一次过渡。他们希望把顶尖的研发成果带给大家,这也是英库拼音输入法的重要差别化因素之一。未来版本中,英库拼音还将增加更多的功能,让它变得更聪明,这样用户就可以集中精力进行交谈或者完成写作任务,而无需担心其背后的细节。

研发挑战

在基础研究过程中,你必须沿着一条从未走过的道路前行,如何判断自己所走的是一条正确的道路,这是最主要的挑战。但幸运的是,车继伟的Office团队在工程设计方面为我们提供了极大的支持,让我们判断出自己是否在朝着正确的方向前进,因此我们能够按时,甚至提前交付高质量的产品。

——Matthew Scott

微软亚洲研究院创新工程中心高级研发主管

用户行为调研是一个很复杂的过程,我们有传统的行为调研、数据分析,也会做前一版的数据分析,看现在的设计模式。微妙之处在于,有些决定是设计主导,有些决定则是数据或者行为分析主导,我们需要在两者之间取得平衡。同样,在用户选择和机器智能之间取得平衡,也是比较大的挑战。

语音输入篇9

摘 要: 为了提高语音识别的可靠性和高效率性,设计了以“MCU+DSP”的双CPU结构为核心的语音识别系统,其中以DSP[1]芯片作为硬件平台的主处理器,完成语音识别所需的计算。MCU用以完成对DSP运算的协助工作,控制机器人各部分动作,其性能达到了实时处理的要求。

关键词: 拟人机器人; 双CPU; 语音识别系统; 硬件设计

中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

(North China of Technology, Beijing 100144, China)

Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words: humanoid robot; double CPU; speech recognition system; hardware design

0 引言

随着超大规模集成电路和数字信号处理器(DSP)的快速发展,DSP的应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、实时、精确处理的要求,所以很适用于语音识别。

1 拟人机器人语音识别方法概述

语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质特征的参数,才可能利用这些参数进行高效的语音通信,才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性,虽然语音信号具有时变特性,但在一个短时间范围内其特性相对稳定,因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上,一般认为语音信号在10-30ms的短时间内是相对平稳的。

拟人机器人语音识别方法如图1所示,采集到的语音信号输入后,首先对语音信号进行预处理,预处理主要包括:语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节;然后是信号特征量的提取(本文对信号的特征量进行Mel频率倒谱系数[2](Mel-Frequency Cestrum Coefficients)处理);最后对建立好的参数模板进行对比,测试的依据是失真度最小准则,如本文用到的动态时间规整DTW[3](Dynamic Time Warping)。

2 系统硬件设计

通过针对拟人机器人的特点,对系统进行分析和方案设计,最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP(TMS320VC5416)为主处理器的硬件平台,硬件平台主要包括:语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出;主处理器DSP模块(TMS320VC5416)主要完成语音识别所需的计算,其性能能够达到实时处理的要求;存储器模块包括一片FLASH和两片SRAM,用FLASH作为DSP的可编程存储器,SRAM分别作为DSP的数据和程序存储器;单片机MCU模块完成对拟人机器人的运动控制;485串口通信模块实现单片机MCU和PC机之间的通信。

2.1 主处理器DSP模块介绍

TMS320VC5416(简称VC5416)是TI公司的C54X家族的成员之一,它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点,高性能低功耗,具有高达160MHz的主频,核心电压1.5V,运行于此频率时功耗仅为90mW;拥有一条程序总线和三条数据总线,片内集成有高度并行性的算术逻辑单元(ALU)、专有硬件逻辑、片内存储器和片内外设等。

片内可屏蔽ROM中固化有启动装载程序(BOOTLOADER)和中断向量表等。系统上电时,BOOTLOADER自动把用户代码从外部存储器搬移到程序空间。复位以后,中断向量表可被重新映射到程序空间的任何(128Word)的开始处。为了与慢速的外设通信,VC5416提供了等待状态发生器,通过软件设置等待周期的个数,不仅降低了系统硬件设计的复杂性,而且为系统带来了很大的灵活性。VC5416片内集成了软件可编程的锁相环时钟电路,它只需要一个参考时钟输入就可以得到31种不同频率的输出时钟,最大的乘率因子(在寄存器CLKMD中设置)为15,最小的为0.25。这样,一方面可利用较低频率的外部时钟源产生较高频率的CPU时钟,另一方面在不工作时可降低CPU时钟频率至外部频率的四分之一,从而降低了CPU的功耗。  2.2 语音输入输出模块介绍

语音输入篇10

【关键词】智能报警 语音播报 语音合成

【课题项目】2012年地方高校部级大学生创新训练计划项目《语音提示自动复位限电控制器的研究与设计》(项目编号:201210324010)的研究成果之一。

【中图分类号】TP 332 【文献标识码】A 【文章编号】2095-3089(2015)09-0040-03

随着人们生活水平的不断提高,各种大功率家电走进千家万户,用电量急骤增加,而供电线路所能通过的电流容量是有限的,一旦超载,轻则导线发热,重则起火。嵌入式语音播报自动复位限电系统,具有体积小、功耗低、可靠性高、安装灵活等特点,语音合成结果清晰自然准确,特别适用于智能家居服务、学生宿舍用电服务等领域。在家庭、 医院、学生宿舍、商场等场所使用这种限电报警系统可以有效地减少电流过载带来的危害。

1.语音提示自动复位限电控制器设计方案

本设计的目的是提供一种语音提示自动复位限电控制器,当家庭、 医院病房、学生宿舍、商场等场所用电量超过导线的负荷时自动断电,并用语音提示,当导线的负荷减轻后自动复位供电。

图1是本实用新型电路的原理图。图2是本实用新型电路的外壳结构示意图。220V交流电输入端(1)经过电阻(R1 )、电容(C1 )、二极管(VD2 )、稳压二极管(VD1 )变压整流稳压后向后级电路供电,三极管(VT1 、VT2 )及其电路组成二级放大电路,其特征是:电压取样电感(L)和继电器常闭触点(K-1)串联,电压取样电感(L)的一端通过二极管(VD3)、可变电阻(RP)接三极管(VT1 )的基极, 电压取样电感(L)的另一端接电源的负极,继电器线圈(K)的一端接三极管(VT2 )的发射极,另一端接电源的负极, 语音固化集成电路(IC)电源输入端与继电器常开触点(K-2)串联。其它电子原件按图1电路原理图顺序连接。

在图2的实例中,线路板放在装有接线排(7)的绝缘外壳(4)中,安置孔(6)放置发光二极管(VD4),声孔(5)内侧放置喇叭(A),220V电源输入端(1)和220V电源输出端(2)接在接线排(7)上,固定孔(3)用于安装时固定。

图1 电路原理图

图2 外壳结构示意图

采用上述技术方案的优点是:低成本,微功耗,高灵敏,杜绝了火灾隐患。

2.语音合成技术和文语转换系统

嵌入式语音播报系统的一个重要工作是语音的合成。语音合成就是将一系列的输入文字信号序列经过适当的韵律处理后送入合成器,产生出具有尽可能丰富表现力和高自然度的语音输出,从而使计算机或相关的系统能够发出像“人”一样自然流利声音的技术。这里的关键是“人”字。如何让电脑发出像“人 ”一样高度灵活性、强适应性、鲜明个性、丰富表现力的语音是语音合成研究的目标。而且还希望合成系统能够超越一般人的发音状况,如实现多个发音人的输出或者声音转换等[1]。它涉及声学、语言学、数字信号处理、计算机科学等多个学科,是中文信息处理领域的一项前沿技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成是人机语音通信的一个重要组成部分。语音合成研究的目的是制造一种会说话的机器[2] ,它解决的是如何让机器象人那样说话的问题,使一些以其它方式表示或存储的信息能转换为语音,让人们能通过听觉而方便地获得这些信息。

文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此,一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持[3]。

文语转换系统分三个部分:语言处理、韵律处理和声学处理。语言处理在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程――文本规整、词的切分、语法分析和语义分析,使计算机对输入的文本能完全理解,并给出后两部分所需要的各种发音提示。作为一种有调语言,汉语韵律特征非常复杂。古汉语的平仄以及现代汉语拼音,对于同样一个音节,出现在不同的环境下,其韵律参数都是各不相同的。用有限的存储单元存储基本汉语基本语音单元,进而从有限的存储单元中合成出无限词汇,组成连续汉语语句。必须在一定的韵律规则下对音库单元的韵律参数进行调整,以得到符合当前语言环境的语音库单元。韵律处理为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。声学处理根据前两部分处理结果的要求输出语音,即合成语音。

TTS(文语转换)在国内外发展得十分迅速[4],我国的研究己逐步从理论向研制开发方面发展,国内许多单位纷纷开始研制中文TTS系统,并已进入实用阶段,其应用领域十分广泛,技术也日趋成熟。目前在嵌入式应用领域,具有代表性的有:科大讯飞的XFS4243CE和语音天下的SN6658。本文的嵌入式语音播报系统是以嵌入式微处理器为核心,加入语音合成板卡及相关电路构成。中文语音合成板卡选用科大讯飞的XFS4243CE。

3.硬件电路的设计

本嵌入式语音播报系统的硬件电路主要由4个模块组成,即主控制器模块、语音合成模块、音频功放模块和电源模块。上位机发送指令到主控制器模块,主控制器分析指令,通过SPI接口将含有文本信息的指令发送到语音合成板卡,语音合成板卡通过TTS技术把文本信息转换为语音信息,送往音频功放电路,主控制器模块也会监测系统的运行情况,并向上位机返回当前系统的运行状态,遇到紧急情况时会进行语音提示。

3.1主控制器电路设计

本系统选用STM32F103C8T6作为主控制器,STM32F103C8T6是增强型,32位基于ARM核心的带闪存的微控制器,工作频率最高达72MHz,高达90DMips,1.5DMips/ MHz。

图3 主控制器设计原理图

其单周期硬件乘法和除法可以加快计算,内置闪存存储器容量达128K字节,可以用来存放程序和数据。

图3为主控制器设计原理图,参考了意法半导体公司的STM32F103C8开发手册。

3.2语音合成电路设计

主控制器通过SPI接口和XFS4243CE模块相连接,主控制器可通过SPI通讯接口向XFS4243CE模块发送控制命令和文本,XFS4243CE模块接收到主控电路发来的文本后,合成语音信号并输出,输出的信号进过功率放大器进行放大后连接到扬声器进行播放。

3.3 XFS4243CE与上位机通讯的电路设计

XFS4243CE以单片机作为上位机时,可通过SPI 串口相连。XFS4243CE模块的SPI接口是4线全双工同步串行通讯接口,XFS4243CE 语音板卡在 SPI 通讯中设为 Slave 身份,上位机作为SPI通讯中的Master身份,上位机提供SPI 通讯所需的时钟信号。

SPI通讯是同步串行通讯,当上位机和XFS4243CE的通讯时,上位机提供同步时钟信号,在同步时钟的上升沿时,XFS4243CE 锁存1bit数据,每传输8bits数据就完成一个字节数据的传输。

3.4电源模块电路

XFS4243CE语音板卡的工作电压为3.3V,以5V外部电源作为输入通过电源转换模块转换得到3.3V电压。电源转换模块电路图如图4所示。

图4 电源转换模块

4.软件系统设计

语音播报流程为:上位机发送给XFS4243CE模块的所有命令和数据都需要用“帧”的方式进行封装后传输[5],帧结构由帧头标志、数据区长度和数据区三部分组成,数据区是由命令字和命令参数组成的,上位机使用命令字来实现语音合成模块的各种功能,传输过程中,主控制器首先查询状态管脚RDY输出工作状态,当引脚处于低电平时,表明板卡处于空闲状态,没有合成文本,可以发送文本信息;当引脚处于高电平状态时,表明板卡处于合成文本的工作状态。在发送前,将SPI_SSEL置为低电平,发送一个字节后将SPI_SSEL置为高电平。

XFS4243CE模块支持任意中文文本、英文文本的合成,可以采用GB2312、GBK、BIG5和UNICODE四种编码方式。每次合成的文本量最多可达4K字节。如果在语音合成的过程中又接收到一帧有效的合成命令帧,模块会立即停止当前正在合成的文本,转而合成新收到的文本。若上位机需要确保上次文本被完整合成之后,再发送合成命令帧合成下一段文本,则需要通过回传确定模块的工作状态。 程序过程如下:1、上位机先给XFS4243CE模块发送一个文本合成命令帧,携带不超过4k个字节的文本;2、上位机等待XFS4243CE模块自动返回的回传信息,直到收到“0x4F”回传,说明前面的文本已合成完毕;3、上位机向模块再次发送一个文本合成命令帧,发送出剩下的文本。在整个软件系统中,XF-S4243CE接收含文本信息的语音合成命令。命令和数据需要用“帧”的方式进行封装后传输,帧结构由帧头、待合成文本的长度、文本合成命令字、文本编码格式、待合成的文本组成。传输过程中,主控制器首先查询状态管脚 RDY输出工作状态, 当引脚处于低电平时,表明板卡处于空闲状态,没有合成文本,可以发送文本信息;当引脚处于高电平状态时,表明板卡处于合成文本的工作状态。传输时,SPI 使能选择信号 SS L 保持低电平。程序中文本信息采用GBK编码。当XF-S4243CE正在合成文本的时候,如果又接收到一帧有效的数据,板卡会立即停止当前正在合成的文本,转而合成所接收到的最新的文本。

5.性能测试

为了保证语音合成系统播报的清晰度和正确率,本文对所描述的语音合成系统做了一系列的测试。测试平台选用了模拟学生宿舍因使用大功率电器导致电路过载的情形,分使用女声普通话和英文播报10次,测试中,中文播报虽语句正确,但是基本是平铺直叙,一字一顿。而英文播报更为流畅,语句富含感情,测试结果较为理想。

参考文献:

[1]刘浩杰,杜立民.语音合成技术的发展与展望.微计算机应用,2007,7.726-730页

[2]李涛.基于MIDI的汉语普通话语音合成算法 .复旦大学硕士论文.2007

[3]wikipedia.语音合成. http:///wiki/语音合成

[4]Manduchi,Flores,Cizdziel,Obraczka,Do,Esser.Transit Information Access for Persons with Visual or Cognitive Impairments.UC Santa Cruz Previously Published Works.2014

[5] http:///index.php?a=down&catid=15&i d=1148&name=XFS4243CE中文语音合成芯片用户开发指南1&path=upload/contents/2013/07/51f7611c9c64e.pdf

作者简介: