语音合成技术十篇

时间:2023-03-15 13:26:55

语音合成技术

语音合成技术篇1

摘 要 本文就语音合成系统,特别是在文语转换方面的一些关键技术及实现做了详细的描述和介绍,并且给出了一个实际文语转换系统的实现方案。该语音合成系统作为一种新型人机界面已经成功的应用在多型号卫星测试系统中。 关键字 语音合成,文语转换,语音人机界面

语音合成技术篇2

【关键词】智能语音技术;双语教学;普通话

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2011)11---0091―04

引言

随着信息技术的发展,信息技术已经被广泛地应用到教育教学中,它丰富了教学资源、改善了学习环境、使学生的学习方式和教师的教学方式发生了根本的变化。智能语音技术作为一种已经成熟的新型的信息技术也开始在教育教学领域大展身手,但如何把智能语音技术恰当地融入到我们的教学之中,帮助我们解决教学之中的问题,以进一步提高我们的教学效率,这是我们所有教育工作者都需要解决的一个重要问题。

一 智能语音技术的概述

智能语音技术的研究是以语音识别技术为开端,可以追溯到20世纪50年代,当时AT&T贝尔实验室实现了第一个可识别十个英文数字的语音识别系统――Audry系统。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段,其应用已经深入到社会生活的方方面面。

智能语音技术是实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS),语音识别技术是指让计算机能接受、识别和理解人的言语信息,将语音信息自动转换成相应文本信息或命令的技术,实现人机交互的输入;语音合成技术是指让计算机像人一样能够说话,将文本信息自动转换成语言信息,实现人机交互输出的一种技术。智能语音技术就是让计算机像人一样能听能说,实现“文字信息一一语言信息”、“语言信息――文字信息”的转换,使计算机更加智能化、人性化。

二 智能语音技术在教学中应用的可行性

由于语音识别率较低和语音合成自然度的效果不够流畅,再加上教育是对人进行培养的特殊性,所以智能语音技术一直没有很好地应用到教育教学之中。直到第三代嵌入式语音合成引擎的到来,使语音识别率和语音合成的自然度得到提升,合成效果更好。通常认为MOS(主观印象评测)分3.5分左右称作通信质量,MOS分4.0~4.5分为高质量语音编码,达到长途电话网的质量要求(如表1所示),而目前的语音合成自然度MOS分达到了4.5分,因此可以说目前的智能语音技术已经达到了高清晰度、高自然度的连续读音的水平。

第三代语音技术突破了语音合成的自然度不流畅和语料库过大的限制,与一般用预先录制的声音文件实现发声的应用程序相比,智能语音技术的发声引擎只有几兆大小,不需要大量的声音文件支持,因此可以节省很大的储存空间,并且通过输入文本可以朗读预先未知的任何语句。

智能语音技术最大的优势在于能更有效地促进语音的学习,在双语教学和普通话教学中,其中语音的学习在教学中占极其重要的部分,因此以双语教学和普通话教学为例更能全面的揭示智能语音技术在教学中应用的功能。

三 智能语音技术在双语教学中的应用

双语教学是利用母语以外的第二门语言开展教学的一种教学方式。在我国双语教学可分为两大类:一类是指目前我国内地广泛开展的汉英双语教学,另一类是针对少数民族地区以母语和汉语作为教学用语而言的双语教学。以少数民族的双语教学作为实施双语教育的途径,就是用两种不同语言进行学科教育的教学活动,一般是指用母语进行部分学科教学,用汉语进行部分或者全部非语言学科教学的模式,在我国少数民族地区主要有藏汉、、蒙汉等双语教学,但是长期以来双语教学效果较低,双语教学处境一直令人担忧,老师教得很辛苦,学生学得很吃力,但教学质量始终没有根本改变。教师自身水平有限、缺乏高质量的双语教学资源是双语教学效果较低的主要原因。把智能语音技术应用于双语教学之中可以利用现有的师资力量迅速提升教学质量、提高教师自身水平,从根本上改变双语教学效果较低的现状。

1 智能语音技术的运用改变了课堂教学方式

在双语教学中,由于语言的障碍使得教师的教与学生的学都具有一定的困难,在教学过程中,教师教得很辛苦,学生学得很吃力,特别是在少数民族地区,由于师资力量缺乏,其教学的效率较低。智能语音技术具有语音识别、语音合成、语音评测的功能,把智能语音技术应用于双语教学中,能够改变课堂教学方式,提高教学效率。

(1)即点即读,实现课堂标准带读

“芝麻开门”、“畅言智能语音教具”等都是利用智能语音技术开发的教学辅助工具。我们可以利用语音识别和语音合成技术开发智能语音双语教材,通过识别隐藏的标识码,进行标准发音。智能语音教材具有即点即读、即点即译的功能,与磁带和光盘相比,智能语音教材具有存储内容量大,发音清晰,操作方便的特点。通过即点即读,能够实现课堂标准带读,课堂标准带读一方面能够解决课堂教学中教师发音不标准的问题,改变信源的质量,使学生接受更具有科学性、教育性的知识;另一方面能减轻教师的负担,使教师方便地走到教室的任意角落进行教学,能亲密接触学生,更多地了解学生,实施因材施教,提高教学的质量。

(2)即点即译,辅助课堂讲解

通过即点即译,能照顾不同层次的学生。在双语教学中,教师主要采用汉语进行知识的讲解,对于汉语水平较低的学生,学习起来比较困难。在智能双语教材中提供了汉语和母语分别对知识的解释和翻译,通过即点即译,学生能够学习到两种语言对知识的讲解。通过即点即译,学生既能够理解知识点,又能增强汉语水平的学习。

例如“畅言读书笔”,具有教材同步、携带方便的特点,通过识别笔在对文章进行点击读取时,可以对课文内容中的任意一段句子进行即点即读,即点即译,还可以随时暂停穿插课堂讲解。智能双语教材的即点即读,即点即译功能改变了教师在课堂上的角色,教师不再是信息的主要传递者,成为教具的使用者和课堂教学的组织者。

2 智能语音技术的运用优化了教学环境

在双语教学中,师生间存在第二语言交流的障碍,特别是在低年级教学阶段,另外中小学学生的思维形式主要是形象思维,致使学生对知识的理解存在一定的困难,很难激发学生的学习兴趣,从而使得双语教学中教师的教和学生的学都非常吃力,导致教学效率不高。语言障碍使得师生交流存在一定困难,但语言障碍问题不是在短时间内能够解决的,需要长时间的学习和锻炼,而提高双语教学的教学效率又迫在眉睫,利用智能语音技术能够开发多种多样的教学资源,例如:“大嘴学英语”、“随心所欲说英语”、“芝麻开门”、“畅言智能语音教具”等,这些智能语音教具能够优化教学环境,为双语教学创设生动的情景。

(1)教师自制智能语音教具,创设教学情景

智能语音技术中的语音识别和语音合成技术,使得教师可以自己制作符合实际教学的智能语音多媒体教具,丰富了教学资源。教师自己制作的智能语音多媒体教具,能够让黑板可以说话、让图片可以唱歌、让布娃娃可以交谈、让动物来到课堂,使课堂变得更加直观形象、生动活泼,给学生创造了一个生动鲜活的有声交互世界,学生们在这种情景中去学习,会更加深入地走进这个情景去学习知识,能够激发学生的学习兴趣,有利于学生感知、理解、记忆知识。双语教学中应用智能语音多媒体教具创设情景,符合学生的思维形式,一方面能辅助第二语言促使学生对知识的理解,另一方面能强化学生第二语言的学习,从而形成一个良性的循环。

例如:“畅言智能语音教具”的有声教具制作功能(如图1所示),教师可以自己录制或下载各种声音文件,经过后期加工可以调整语速、语调,形成各色的声音,保存到主机的存储卡中,通过贴上识别码,把任意图片、实物等制成生动有趣的有声教具辅助教学,使抽象的、枯燥的学习内容转化成形象的、有趣的、可听的动感内容,这也是新课改理念下课堂教学发展的新趋势。

(2)智能语音教具为学生第二语言的培养提供了优越条件

双语教学中最主要的因素是语言交流,在双语教学中教师主要采用第二门语言开展教学,只有当师生之间能够运用第二门语言进行自由的交流,双语教学才能有效地开展。美国心理学家“杰明斯”的研究指出,儿童时期是智力发展最快的时期,同时也是语言技能发展的关键时期,因此在双语教学中我们应着重在低年级阶段培养学生的第二语言,为高年级阶段复杂知识的学习提供保障。利用智能语言技术开发的智能语音教具和玩具为学生的第二语言的培养提供了优越条件。

智能语音教具或玩具利用语音识别技术和语音合成技术能够实现人机之间的对话,可以对儿童进行启蒙教育,通过智能语音对话娃娃、听从指挥的小汽车等对儿童进行游戏教育,通过寓教于乐,在儿童幼小的心灵里播下了科学的种子,给小朋友带来无限的新奇感,从而也能够促进儿童的思维和语言的发展。例如“芝麻开门”就是一款使用智能语音识别技术的教育软件,只要孩子对着麦克风说“鹦鹉”,在屏幕上就会出现鹦鹉的画面(如图2所示),说“长城”就会有长城的画面出现,虽然“芝麻开门”是一个很简单的看图识字软件,但是在双语教学低年级阶段有利于学生汉字的学习,为汉语的学习奠定基础。

3 智能语音技术利于师生的自我提高

利用智能语音技术开发的智能语音教材提供与课程同步的学习内容,并且携带方便,学生只需点击要学习的内容,就能通过智能语音识别和语音合成技术将要学习的内容读出来。通过即点即读、即点即译,不仅方便了学生课上的学习,更是有利于学生课前预习和课后复习,方便了学生的课下学习,通过智能语音评测技术能够实现实时反馈指导,让学生在家也能体验真实的双语学习环境,学生会因为得到评价而感到高兴,他们会一步一个脚印的朝着积极的方向发展,成为学生的智能家庭辅导教师。

在教育资源比较匮乏的地区,双语教师缺乏、教学水平有限,是影响双语教学效果的重要因素。教师可以通过智能语音技术开发的教学产品进行自修,来提高自身的素质。这样可以有效地解决中小学双语教师缺乏、教师发音不准等问题,提高双语教师的素质,从而提高双语教学的效果。

四 智能语音技术在普通话教学中的应用

语言是通过声音进行思想交流的工具,而语音则是语言学习中最基本的部分。掌握准确的发音不仅有利于确切地表达思想,而且还有利于能够准确地捕捉信息。2000年10月31日,全国人大审议通过了《国家通用语言文字法》,其十九条中明确规定:“以普通话作为工作语言的播音员、节目主持人和影视话剧演员、教师、国家机关工作人员的普通话水平,应当分别达到国家规定的等级标准;对尚未达到国家规定的普通话等级标准的,分别情况进行培训。”由此可见普通话学习日益重要。

1 普通话学习中运用智能语音技术能帮助学习者正音

正音是普通话教学的基础问题,也是重点和难点问题。在普通话的学习中一定要有良好的语言环境,勤开口,多练习,最主要的是能听出自己或别人的发音错误,这样便于纠正自己的错误发音。在传统的普通话教学中,主要是通过教师示范,在模仿中学习,然而学生根据教师的语音来揣摩发音部位和发音方法具有较大的盲目性,学习效率低,花费时间长,并且简单重复的动作最容易让学生产生疲劳和厌恶情绪,故传统教学很难达到理想的教学效果。

采用智能语音技术开发的普通话学习系统,通过智能语音评测技术,能自动对学习者的发音水平进行评价,及时对错误的发音进行缺陷定位和问题分析,使学习者及时了解自己发音中存在的主要问题,然后根据发音中存在的问题,自动生成有针对性的学习语料(为学习者量身定制的单字、词语、文章等),并通过语音合成技术产生标准语音为学习者提供发音指导,使学习者在问题定位和标准音带读的封闭式反馈环境下不断提高自己的普通话水平。同时,智能评测技术还可以使学习和测试有效结合,帮助学习者实现真正意义上的自主学习、自主测试。通过先进的智能语音技术,实时指出发音中存在的问题,帮助学习者进行针对性的训练,快速提高学习者普通话的水平。

“畅言普通话在线学习系统”(如图3所示)是利用智能语音技术开发的普通话学习系统,该系统利用语音识别技术将学习者的读音录入系统内,通过语音评测技术对学习者的读音进行评测,然后通过语音合成技术为学习者提供正确的读音,该系统通过人机交互不仅为学习者提供了良好的普通话学习环境,而且还能为学习者提供及时的信息反馈(如图4所示)。另外,一些智能语音软件系统还提供仿真的社会实践环境,学习者可以进行虚拟对话,使学习者摆脱枯燥无味的训练。如“普通话智能学习软件”,其学习内容丰富,具有朗诵跟读、角色扮演、人机对话等功能,通过三维动画演示声韵母发音口型,通过“情景对话”提供感兴趣的聊天话题,为学习者提供一个逼真的普通话学习环境。

2 普通话测试运用智能语音技术能促使考试的可靠性与公正性

目前普通话水平测试主要采用主观性测试,主观性测试的评分完全依赖于测试员的主观判断,尽管有统一的评分标准,但由于受到测试员本人的主观看法、观点、印象以及自身的语言水平等诸多因素的影响,不可避免地会出现评分偏差,从而影响该测试员测试评分的稳定性和可靠性,当然不同测试员之间也存在一定的评分差异,这样就会造成普通话考试的不公正性。

采用智能语音技术开发的普通话水平测试软件能够实现普通话水平测试的可靠性和公正性。普通话水平测试软件利用语音识别和语音评测技术,将测试者的读音与系统内部的标准读音进行对比,可以对测试者的普通话水平给予客观性的评定,这样即能减轻测试员的负担,又能保证普通话水平测试的可靠性和公正性。“国家普通话水平智能测试系统”已经通过国家语委批准在山东、上海、辽宁、江苏等省市正式采用,进行普通话水平的测试。

语音合成技术篇3

此时,我们不妨用另一个角度来思考投资方向:即纵向深度开发的科技。阿里巴巴,不过是利用现有互联网技术整合现有资源,百度不过是利用现有计算机语言搜索社会既有的资源,腾讯不过是利用现有的技术为人与人的沟通搭建了一个桥梁,从这个意义上讲,这些企业称之为高科技企业真是勉为其难,因为这些所谓的高科技企业虽然改变了人们的生活方式,但也都不过是利用现有的计算技术对现有资源进行的整合,即科技的横向利用。

那么重点来了:纵向深度开发的科技,相对于横向资源整合的科技来说,更能从根本方式上改变社会的全方面。语音识别,你没看错,语音识别技术正是一项纵向开发的科技,这种语言的发明、发展、完善,以及语音识别技术的深入,必将深度影响人们社会生活的方方面面,同时也将引领社会各行业的新发展。语音识别技术的应用被美国新闻界评为计算机发展十件大事之一。苹果Siri的出现,语音识别技术迈着花哨的小碎步走进大众视野。这种语音识别技术让机器通过识别和理解过程,把语音信号转变为相应的文本或命令,从而解放双手和眼睛,实现随时随地的人机交互。在未来商业领域,语音识别技术将逐步进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域,并且最终会成为人工智能的一项基础科技。

语音识别技术作为科技纵向开发的一项科技手段,成为人工智能和机器学习应用的一个重要方向,并将发展为一个具有广阔前景的新兴高技术产业,具有敏锐嗅觉的商业巨头们也在加速语音识别行业的布局。普强信息作为一家以智能语音识别和语言处理技术产业化为主要发展方向的新锐科技公司,成立于2009年美国加州硅谷,2010年于北京中关村设立中国运营公司,其业务定位是以中文为主的智能语音和语言核心技术的提供商、应用方案提供商、云平台服务提供商。经过几年时间的潜心研发和积累,普强信息正在成为众多商业领域应用中不可小觑的龙头企业,其发展趋势和市场份额的井喷式增长,似乎预示着其角逐中国语音识别领域皇冠的决心。

技术为王

普强信息的创始人兼CEO,何国涛可谓是技术研究出身的管理人,作为一个具有管理上亿元营收公司规模又具有跨国技术经验的美籍华人,何国涛先生在普强信息创立伊始,就将目光锁定在中国刚刚起步的语音产业,并将“核心技术的研发”视为企业发展之灵魂。“之前普通大众对普强信息的熟知度并不高,普强信息从成立到现在已经成功走完了初级阶段,这一时期我们专心做的是技术研发、定制化应用以及市场拓展,只是踏踏实实的做好技术提升和专业服务。”企业以此为经营理念的前提下,何国涛携手联合创始人李全忠博士(现任普强信息CTO,负责公司语音识别及语音分析技术)蒲瑶女士(现任普强产品副总)开启了中国语音行业的征程。

普强信息在硅谷和中关村均建设有技术研发中心,集合了语音识别、语言处理和云计算技术领域世界级专家,拥有一流的研究及工程团队。研发团队占公司人员的80%左右,其士、硕士以上占团队人员30%以上。

何国涛向《融资中国》记者介绍到,除此强大技术团队之外,普强信息还与多名国内外技术领域专家以“技术顾问”形式展开合作,共同保障技术的领先性和前沿性。据了解,技术顾问大多来自国内外知名大学从事语言学研究领域的专家,他们研发的成果大多被谷歌、微软等科技巨头公司所采用,技术方面的投入和研发正在为企业提供源源不断的发展动力和商业价值。

核心产品

“千语”语音识别引擎和“千语千寻”语音分析系统是普强信息自主研发的核心产品,普强信息拥有其全部的知识产权和专利。针对不同的行业,普强信息进行垂直化定制服务,除了可以支持大词汇量连续语音在线识别等语音服务外,还可以根据企业特有的应用环境优化识别模型和相关语音服务定制。其语音模型和声学模型业务覆盖金融、保险、银行、电商、教育、政府、运营商等行业,并提供定制化的SDK和接口调用。在中文系统的研发领域,普强信息已经达到国际领先水平。“一些国际型巨头公司可能会有多语言的语音识别,普强信息专攻中文语音领域的识别和分析,要好于国内外技术水平。在某些技术上,与科大讯飞基本属于持平状态,在一些方面,甚至优于国内龙头企业。”何国涛介绍说,普强信息全文识别率可达85%以上,关键词识别率达95%以上。

语音平台是构建一个可扩展的大数据分布式语音数据处理的平台。该平台既可以部署在一台服务器上运行,也可以扩展到几百台服务器上分布式运行,其设计思路一开始就是针对处理大量的语音数据。基于此项设计特点,该系统的很多组件都经过精心设计,可以轻易扩展到分布式模式,以便减轻核心系统的负担。系统中被经常调用的部件也经过优化,使其对系统资源的占用减至最少,让系统具备良好的封装性和可扩展性。

“‘数据’已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”何国涛向《融资中国》记者介绍说,在大数据的浪潮下,联络中心的客户关系管理变得从未有过之近,也从未有过之重。企业借助普强信息的 “千语千寻”语音分析系统,对联络中心庞大的客户对话录音内容进行全面质检和挖掘分析,感知客户情感倾向,建立客户主评测模型和外呼实践知识应用管理体系,在激烈市场竞争中迅速出击。

“千语千寻” 360度语音大数据分析系统建立的更深层意义在于支持数据的深度挖掘,具有对话信息分割、语速信息、静音时长、识别可信度、声纹信息、音素信息、时间边界、情绪分析等功能,将运营中心座席与客户的对话实时接入千寻系统的算法和模型,不仅能将不同地域口音的来电转换成文字,还能根据不同的系统用户需求,标注出关键用词。这一分析系统支持市场上主要厂家的录音系统,既可以实时接入,也支持批量导入。该系统在识别率和处理速度上稳居于行业优先水平,目前公司客户覆盖金融、保险、汽车、教育、互联网、政府、运营商等行业。目前,北京银行、招商银行、招商信诺、华安保险、中荷人寿、众泰汽车、北汽、四维图新、世纪高通、尚德教育、奇虎360 、酷我音乐盒、我的南京、中国电信、中国移动、中国联通、联想等国内外著名企业已经和普强信息建立了合作关系。

产品优势成就企业价值,普强信息是全球领先的中文语音及语言技术提供商,作为技术原厂商,可保证项目达到最好的核心效果,公司具有中国大陆地区最好的语音分析、文本产品咨询顾问,具有丰富的行业应用案例,以及项目管理经验;庞大的本地化技术团队,从核心到应用均为自主研发,可快速根据客户的实际业务优化语音识别效果和系统二次开发。

公司成立七年来,普强信心语音识别技术和应用已经在合作客户企业中产生了强效应。据可依据资料可以看到一组数字:通过将所有结构化和非结构化(录音数据、随路数据)的数据标签进行整合化分析,打造所有数据的可视化分析,为运营中心各类人员提供基于客户心声的360度视图分析数据利用率达到 100% ;通过对所有录音的自动识别分析,各级质检、运营、营销、管理人员的工作效率提升16倍;通过对业务(话术)流程的改进,使各项营销业务的成单转化率提升10%;通过对坐席服务能力和业务能力的改善,使客户流失率降低5%;通过超长通话分析、重复来电分析、静音时长分析降低来电量和平均通话时长,转人工来电量降低3%, 平均通话时长降低10S左右。

普强信息通过语音识别和语音分析领域的深耕,目前拥有其全部的知识产权和专利,其研发的多种语音技术均是业界领先的技术,目前已经获得9项国家专利,13个计算机软件著作权登记证书并参与制定2国家行业标准。

车载语音助手

普强信息作为四维图新战略布局重要一环,以“千语”语音识别引擎和“千语千寻”语音分析系统为基础支撑,着眼中国车载语音市场,通过普强信息车载语音助手,使驾驶者彻底解放双手,真正实现让汽车听清楚并理解人类语言,听语音指令进行硬件控制、通信、信息查询,最终实现智能驾驶和车联网。对于这一目标的胸有成竹,普强信息的自信和底气来自于与四维图新的战略合作。

从2011年四维图新首次成为普强信息的合作伙伴,到2015年普强信息再度获得由四维图新领投的新一轮融资,从另一个侧面看到了双方在全面布局车联网领域布局的决心和普强信息的竞争力优势。通过四维图新的战略布局,针对智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子系统企业的布局,形成产业链闭环和强有力的壁垒,普强已经把车载语音做到了同属四维旗下的杰发科公司的公版上,完成了芯片级语音的第一步。

普强信息把注意力放在通话、导航和音乐等最基本的功能上,确保这些功能在驾车环境中稳定而可靠,把在智能手机上非常熟悉的应用和界面搬上车载显示屏,整合各个汽车厂商定制的操控功能,采用智能语音技术进行智能化控制;针对车载语音识别由于容易受到外部环境噪音、引擎噪音和车内环境噪音影响,普强信息在降噪技术上,一方面使用了DSP 降噪芯片进行硬件去回声降噪,另一方面通过定制化采集不同车型上的胎躁,发动机噪音,风噪等噪音数据训练声学模型,进行软件降噪;同时还有2-4个的阵列硅麦麦克风方案,实现声源定位和声源追踪的功能。

随着公司不断的积累,语音识别的技术和产品都相应获得了全方面领先优势的发展。在产品的声学建模上,开发使用了深度神经网络技术;公司研发的语音切分技术及识别结果的置信度算法,不但为企业级应用提供准确的识别结果,同时也提供了精确的说话人分割、时间边界以及识别结果的置信度等信息,这些信息使企业在应用中,更加便捷和准确地利用语音作为主要的交互方式,并且可以进一步挖掘、分析和利用海量语音数据的内容。

高科技+互联网的生活总是让生活变得简单、智能。车载语音助手针对驾驶环境设计最人性化交互体验,保证驾驶安全的同时又可以用最自然的语言进行打电话、导航、音乐等。在未来,只要你对它说你要的命令,普强语音助手就可以理解并执行,既可收听股市、查询天气、周边查询、还能新闻阅读、车辆控制等。未来,通过普强信息与客户需要的深度整合,车载语音助手可通过车窗,座椅加热等接口开放进行控制。

对于语音识别技术,口音和方言一直是其挑战的诟病。普强信息主攻技术为中文识别,语音分析系统在大数据语音分析的时候,积攒了大量的口音数据,目前市场上见到的口音基本都已经支持,针对个别方言需求也可以进行定制开发。

普强智能车载语音助手意在解决驾驶员的“手忙脚乱”,从前装客户提供完整、高效的车载语音交互,帮助车主实现真正的“全程脱屏”,并立足于前装市场的云+端+芯方案,打造世界最好的中文车载语音交互系统。

未来发展趋势

语音识别技术最早起源于1960年,英国的Denes等人研究成功了第一个计算机语音识别系统,开启了人类与机器人的奇幻旅程。1986中国高科技发展计划(863计划)启动,中国开始了有组织的语音识别技术的研究,从此中国的语音识别技术进入了一个前所未有的发展阶段。

翻开人类语音识别发展历程,不得不提国际巨头Nuance,这家公司拥有世界上超过80%的语音识别,曾经在语音领域具有一统江湖的地位,几乎垄断了全世界金融和电信行业。就算现在Nuance依旧是全球最大的语音技术公司,掌握着全球多语种的语音技术专利。苹果的Siri算是鼎鼎大名了,其技术经过并购、研发逐渐走向成熟,算世界上语音识别的执牛耳者。除此之外,国际巨头微软、谷歌、Facebook、Amazon等更多大佬纷纷布局全球市场。

风景这边独好,随着国内创业热潮和资本驱使,国内语音市场近年来进入加速跑时期。面对未来市场的商业价值,每个人都想在巨大蛋糕前分得钵满盆满。

科大讯飞是目前国内最有影响力的语音技术公司,成立于1999年,在2008年挂牌上市,目前市值接近500亿,根据2014年语音产业联盟的数据调查显示,科大讯飞占据了国内超过60%的市场份额,绝对是国内语音技术的龙头企业;百度也在很早将语音确立为战略方向;搜狗开始采用云知声的语音识别引擎;但很快就搭建起自己的语音识别引擎。腾讯当然不会落后,微信也建立了自己语音识别引擎,用于将语音转换为文字;阿里,爱奇艺,360,乐视等等也都在搭建自己的语音识别引擎。

语音合成技术篇4

关键词:高校虚拟辅导员;语音识别与合成;语音对话;语音数据库

随着移动互联网技术的快速发展,尤其是语音技术的发展,人们更希望通过采取语音对话这样更加自然的方式去获取信息,达到对话交流的效果。高校辅导员作为高等学校教师队伍的重要组成部分,是高等学校从事德育工作,引导和陪伴大学生健康成长的骨干力量,也是大学生进行学风建设、日常管理的有力力量。

在20世纪50年代,美国AT&TBell实验室研究出了可以识别十个英文数字的Audry语音识别系统,打开了语音研究领域的大门。20世纪60年代,随着人工网络的引入,打开了语音识别的新思维,而其中的线性预测编码LinearPredictive Coding(LPC)和动态时间弯折Dynamic Time Warp两大技术更是奠定了神经网络在语音识别中的地位;美国佛罗里达州立大学教授贝勒从事RITL虚拟教师创新技术研究(Research of Innovative Technologies for Learning)。在内以中科院自动化所、哈尔滨工业大学、科大讯飞等为代表的一流大学和机构在语音研究中也投入相当多的研究精力。正是因为语音技术的发展,“虚拟人”概念应运而生。清华大学研究基于人工智能情感的机器人控制体系以及浙江大学研究的虚拟人物构造,由此可见,对虚拟人方面的研究正不断深入,从而奠定了本系统的开发基础。

本文通过研究语音识别与合成技术,嵌入科大讯飞提供的API作为支撑,采用Android移动开发技术,将语音识别与合成技术应用到当今高校教育中,打破传统人机交互模式,实现了高校虚拟辅导员智能语音对话系统,使得高校辅导员的工作以及高校学生的培养更加人性化,极大减轻我国高校辅导员作为大学生思想上的引路人、生活中的关心人、学习上的指导者、心理上的疏导者繁重的工作任务。

1.系统的相关技术

语音合成技术篇5

早在2011年,IBM的超级电脑“沃森”战胜美国智力问答节目《危险边缘》的两名冠军选手,引起极大轰动。从某种程度上说,沃森已经可以和人类实现自如语音交流,这离不开其背后强大的计算性能。据介绍,IBM耗费数年才研制出沃森,沃森拥有10组Power750服务器,运行linux操作系统,具有15TB内存,2880个处理器,每秒可进行80万亿次运算,而其体积有10个冰箱大小。

虽然要实现像沃森这样的自如地人机交互还挑战重重,但这并没有阻止语音技术在特定环境特定领域的应用,尤其是像车载、移动终端这样的嵌入式设备中,语音技术已经得到了消费者的认可。

StrategyAnalytics的统计表明,2012年,中国原始设备制造商(OEM)所提供的具备语音人机接口的信息娱乐和车载信息通信系统(telematics)的出货量达到300万台,并预期在2018年达到2000万台。在北美和欧洲市场,带语音交互功能的车载设备应用已很普及。福特SYNC系统,即专为手机和数字媒体播放器配备的福特车载多媒体通信娱乐系统,是目前车载系统中采用语音交互技术的成功的案例,已经广泛应用在福特多个系列汽车中。搭载SYNC系统后,配合汽车中控台上的显示屏,可通过语音控制、兼容并操控便携式通信/娱乐设备等方式,让驾驶者在开车过程中更轻松,便捷地实现诸如语音拨号、语音播出短信内容、语音控制音乐播放等功能。

汽车之外,移动互联网终端大概是目前最热衷采用语音交互的另一类产品,自从苹果率先在其iPhone4S中推出智能语音助理应用Siri后,Google公司也在其安卓智能手机操作系统中推出了GoogleNow智能语音搜索及问答服务,微软公司也将语音技术应用于其WindowsPhone。现在,几乎每一家手机厂商都试图将语音技术融于其移动产品、应用和服务中。这其中最主要的一个原因就是这类终端设备外型小巧,触摸输入很不方便,这种情况下,语音交互就变成了一种非常必要的人机沟通的补充方式。这一点,笔者深有感触,自从使用安卓手机后,笔者一度不再发短信(太麻烦),现在,安装了一个讯飞语音输入法后,又开始和朋友们短信交流了,语音输入真是又方便又快捷。

语音合成技术篇6

另一方面,苹果的老对手谷歌也已经宣称正在开发类似Siri的语音控制技术――Majel,用来替代Android系统中现有的Voice Actions。

毫无疑问,以去年10月Siri为时间界限,沉寂多年的语音交互技术正在重新回到业界的关注中心。

语音“国战”来袭

全球市场上,新一代语音交互技术的竞争已经在苹果的带动下全面打响。在今年年初的CES展上就可以看到,语音技术已成为各大巨头争相投入的重点,智能手机、PC、智能电视、汽车等产品均引入了语音服务功能。

而在国内,从各大厂商争相推出智能语音服务来看,中文语音市场同样暗流涌动。“目前类似苹果Siri的产品还没推出中文版本。所以,谁能更快开发出支持中文识别的版本,谁就能占据中文语音市场的高地。”艾媒咨询集团董事长张毅认为。

近日,优视科技推出的最新UC浏览器8.2 Android版,已经可以通过语音发出多种控制指令。优视董事长兼CEO俞永福表示:“手机天生就有眼睛(摄像头)、嘴巴(麦克风)、耳朵(听筒)、位置(GPS),围绕这些特性,手机与人的人机交互模式会发生更多革命性的变化。”

记者在体验该产品时发现,在浏览页面过程中,只要口头说出“前进”、“后退”、“加入书签”即能实现相应操作;所有的语音识别都会被上传到云端进行智能语义解析,再回到终端执行,识别的成功率相当高。

2月16日,天猫祭出了“新花招”,网友只要对着麦克风发出“喵”的声音,就有可能获得5元、1000元的现金红包。据天猫的工作人员介绍,“喵一声”的背后其实是“Flash声纹比对技术”,是一种“娱乐版”的语音识别技术――声音通过终端麦克风搜集上传,再通过云端提取声纹与标准值进行对比,最后反馈给终端用户。“使用起来非常简单方便,与以前那些需要手动操作的活动相比,这个形式就省事多了。”一位参加过活动的用户告诉记者。

此外,腾讯、长虹、TCL、百度等国内厂商也纷纷推出了基于云端语音识别引擎的产品。

“设想一下,如果所有的人机交互操作都可以通过语音完成,这将大大减少文本输入和功能之间的频繁切换。随着产品的更新换代,更多的应用程序会支持语音交互,最终有可能把终端变为智能机器人。”汉语语音技术企业科大讯飞公司董事长刘庆峰认为,随着消费者对语音技术认识的加深,这个行业正在迎来蓬勃发展的时间窗口。

移动互联的契机

其实,语音技术在IT界并不是一个新鲜的话题。

早在2000年,比尔.盖茨就曾提出“未来10年是语音的时代”。而IBM、英特尔和摩托罗拉等巨头也在语音领域有过多年的技术投入。不过,由于缺乏成熟的应用产品,功能上仅依赖于识别终端上原有的语音指令,因此长期以来都不是消费市场上的重要概念;而在PC时代,人机交互方式被更为精确、快速的键盘与鼠标所控制,这同样导致了识别度低下的语音技术无法获得市场的青睐。

现在,移动互联的兴起,加之相关技术的逐渐成熟,给语音这种交互方式带来了全新的契机。

事实上,新一代语音交互技术的崛起,并不是因为在识别技术上实现了多大的突破,更关键的是将语音与智能终端以及云端后台进行了恰到好处的整合。“前端使用了语音识别以及语音合成技术;重点在后台,集成了网页搜索、知识计算、资料库、问答推荐等各种技术,弥补了过去语音技术单纯依赖前端命令的局限性。”手机行业资深人士海东分析道。

此外,随着智能手机的大量普及、群体时间的不断碎片化,个人计算中心移动化的趋势已经开始出现。对于移动终端来说,传统的键盘与鼠标并不能很好地满足用户的输入需求;语音则能解放用户的双手,交互的方式更加直观简便,相对来说能够获得更好的体验。未来,随着交互技术的不断演进以及使用者对人机交互的兴趣逐渐浓厚,手机、电脑等电子产品也不再仅仅是一种工具,而是逐步转变为类似科幻电影中的机器人角色――“人类说话,机器理解”,交流协作的人机交流模式正在逐步实现。

乔布斯生前谈到对Siri的展望时就曾说:“虚拟个人助理(VPA)代表着下一代互联网交互方式。它通过分析交互历史,得出个人偏好,来帮助人们解决具体的事务,并通过经验积累变得更好。”

由此可见, 未来语音服务的准确度和服务质量将取决于和使用者的磨合程度――使用的时间越长,后台捕捉到的用户个性化偏好就越多,也就意味着“私人助理”的价值是和使用时间成正比的。

语音合成技术篇7

语音输入和语音命令

作为人性化的一个基本内容,智能化的人机交互技术最早应用在语音和手写识别。在语音方面,业界巨头IBM 和Microsoft的推广尤具代表性。

20 世纪50 年代就开始语音识别技术研究的IBM公司,最早推出了语音输入软件V i a V o i c e ,并且已经得到广泛应用。Microsoft也已经把语音识别技术集成到了其多个主力产品中,包括Office 和Windows XP,其最新的语音识别服务器软件SpeechServer 准备在2004 年上半年。该软件允许用户使用语音命令对PC进行操作,企业也可以利用它建立一种类似于自动电话系统的服务。Microsoft亚洲研究院大力投入到语音开发工具的研究和全力支持SALT 规范(语音应用语言标记标准)上。据BillGates 的设想,从2000 年到2010 年的这10 年间,软件的架构将由目前类似于Windows图形界面操作系统转向以语音输入为主、图文显示为辅的人机交流方式,也就是其所谓的N a t u r a lComputing。

在国内,已经有些应用软件可让用户通过语音来指挥PC进行相应的操作(例如语音上网等),例如“畅言2000”等;宏基Aspire 系列媒体中心PC 的“Speech E Agent”是基于语音识别的遥控技术,可让用户“动口不动手”、轻松地通过语音指令来遥控PC 的多种家电功能。语音输入解放了用户的双手,尤其是方便了不善于键盘和鼠标输入的人以及残疾人。

语音输出

语音应用的另一重要方面是计算机语音合成和输出,即Text To Speech(简称TTS),可以把计算机中任意出现的文字转换成自然流畅的语音输出。国内具有代表性的科大迅飞“KD系列汉语文语转换系统”,它能实时地将任何汉字文本转换成高自然度的连续语音输出,语音清晰、流畅,并实现中英文双语同音混和合成与相关技术的创新。与语音合成相关的应用软件早已在市面上流行,例如“畅言2000”、“播音王”等。这一技术的应用,不但可以完成文稿朗读、有声校对、学习标准普通话、学习汉语拼音等工作,还可以“听”邮件、“听”电子读物、“听”文件等,从而改变传统的电脑阅读方式,变“看”为“听”。

手写输入

由于汉字是独特的象形文字,其输入不能像西文那样通过数量有限的几个键盘字母来进行,因此手写输入技术对中国用户的意义更加突出,尤其是对于那些中老年用户非常有用。中文手写识别技术中,国内的IT企业具有得天独厚的优势,汉王手写笔是主要代表,它能够识别简繁汉字和各种字体。随着技术的进步,未来的手写输入技术将在识别率上大幅提高,其应用也将越来越受欢迎。

生物识别

随着计算机的普及,人们的生活和工作越来越依赖PC,PC数据的安全问题日益重要。数据保护的传统办法是密码,但越来越多的密码却给用户造成了新的负担。Bill Gates 在2004 年2 月的RSA 安全会议上表示:“无疑,在以后的日子里用户将更少地依赖于密码的保护。现在用户不得不记下用在不同场合的不同密码,而这一做法显然有悖于安全的初衷”。表明Microsoft 意在重视生物认证技术的应用。

语音合成技术篇8

【关键词】网络;文本;语音;转换;语音识别;应用;前景

一、语音技术

为了提高翻译质量和加快翻译速度,译者通常是倾向于使用有效辅助工具,机辅翻译工作台(综合许多计算机辅助翻译工具)将继续是专业译者的主要翻译辅助工具。除了此之外,语音分析和合成技术的发展也为专业译者的工作提供帮助。在过去,一些专业译者使用“录音电话机”记录翻译的初稿。然后,打印其翻译草稿,然后生成译本的书面版本。目前的“听写”技术是一种语音录入软件,省略了以前的输入工作,具有自动把录音转换成文本的功能。并且还能根据译者的语音指令来创建、编辑、校正和保存翻译文件。这样的设备可以减少听录音和录入的时间,但条件是系统可以识别说话者或终端用户的口音、音调和语气。

语音录入软件的发展归功于语音识别的进步,计算机识别语音信号(一种既定语言的人类的话语)然后转化成文本的过程。反过来也是可能的——文本也能转换成语音:基于语音合成的从文本到发音的系统。此外,计算机辅助翻译工具,譬如翻译记忆库与语音录入软件同时使用将对专业译者是非常有用,尤其当译者想要或需要同时运作多项任务,例如一边在利用听写系统软件翻译一个文本的初稿,同时一边运行翻译记忆库,为一个词或者是短语查找相应的译文。

二、研究现状

当前,从语音到文本和从文本到语音的技术主要适用于西欧语言,但是少数产品也适用于一些亚洲语言,譬如,印度语和泰语。语音录入软件具有很高的语言特定性——只识别特定的语言(Somers2003:17)。而且,在不同的译者对系统进行训练中发现,该系统只识别特定的语音和口音。很难预言何时语音录入软件将为除了西欧语言以外的更多语言所利用,但是近年来在中国、香港、日本、台湾和美国的研究人员已经开始从事汉语和日语在这方面的研究了。本尼斯(Benis:1999)回顾了早期几代英式英语、法语、德语、意大利语和西班牙语的听写系统。使用这些语言的商业听写系统软件包括包括美国NCH公司的Swift Sound的Express Dictate和荷兰Philips公司的FreeSpeech。

三、语音技术与翻译系统

最近几年,语音技术吸引了自然语言处理研究人员的注意力,尤其是来自加拿大、欧洲、日本和美国的研究人员。他们的总目标是,提供一种在同一语言或者不同的语言之间能把语音转换成文本、文本转化成语音、以及一种语音转化成另外一种语音的技术。传统意义上来说,笔译是指基于文本的翻译,而口译则是基于语音的翻译。但是,这条界线已经由语音技术以及屏幕翻译的发展打破了。(Gambier2003)

译者可以综合利用当前单音(随时)听写软件和现有的计算机辅助翻译系统来完成某些任务的。同时,译者也可以将语音技术与计算机辅助翻译和机器翻译系统综合起来运用。

“语音到文本翻译”、“文本到语音翻译”以及“语音到语音翻译”涉及一种语言输出和另一种语言输入的文本与语音对话翻译系统。语音到文本翻译是指把一种语言的语音(原文输入)翻译成另一种语言的书面文本(译文输出)形式,在这过程中,声音信息被转换成书面文本形式,以方便有听觉障碍或马达技能残障人士。语音到文本翻译系统包括IBM公司的ViaVoice以及Dragon NaturallySpeaking,两者都能翻译七种语言。

对语音到文本技术的最近一项应用就是为那些听障和半听障群体把电视上的语音话语转化成“字幕”。严格的说,这不是一种翻译活动,但是这与口译有着明显的联系。该系统当前依靠一种语内翻译——一个经过培训的中介体把现场直播的内容进行改述和简化,例如,作为原文输入语音技术软件的新闻节目被简化,并且有意把话语单调化,然后被转换成文本字幕形式(但是仍然有一定数量的错误)。这种限于少数人使用的闭路字幕是文本形式,不仅叙述了电视对白的内容,而且还叙述了相关的声音,譬如,“电话铃声”和“脚步声”,以方便听障人士。观众可以激活这些字幕,有时是用一个特殊的解码器。这项技术也许会很快就能应付现场实时电视转播和电缆/卫星传输。具有这种能力产品可能很快就要面世了,因为已经在网络上做广告了,譬如,由SoftNI公司制造的SoftNI实时字幕系统。

文本到语音翻译是指把文字文本(原文输入)翻译成语音文本(译文输出),文字文本被转换成语音信息,这主要为了视障人士。文本到语音翻译系统包括,AbhiSoft科技公司研制的能翻译八种语言的Talking Translator Pro和美国电话电报公司实验室研制的能翻译五种语言的Natural Voices?。

语音到语音翻译是指把一种语言的声音文本(原文输入)翻译成另外一种语言的声音文本(译文输出),从而满足为不同语言国家的说双语和多语的人。语音到语音翻译系统包括,IBM公司研制的MASTOR(多语种自动语音到语音翻译器),用来促进没有共同语言(不会讲同一种语言)的个人之间的交流,和Spoken Translation公司研制的“保健医疗交流平台”(HealthComm Healthcare Patient Communication Platform),用作说西班牙语的患者和说英文的医疗保健工作者之间提供交流媒介。双语或者多语种语音到语音系统口译人员的功能相似,例如,在彼此不懂对方语言的商业谈判中。当然,文本到文本翻译系统才是常规机器翻译系统。

四、语音识别

涉及到语音与翻译,就一定离不开语音识别。在其早期阶段,语言识别研究焦点是为那些有身体缺陷的终端用户提供非手动控制计算机和其它电子设备的一种单语言系统。后来才研究了关于计算机接受和理解口述指令来执行某些任务的可能性,譬如,在做文字处理的时候删除一个词或保存一个文件。随后,研究活动转向了多语种语音识别,譬如德国的卡内基梅隆大学和卡尔斯鲁厄大学开发的Global-Phone系统,能处理至少15种语言。该系统包含一个由说母语的人录制的政治和经济报纸文章的语音文本数据库。数据库的目的是要通过大量的词汇来训练和测试语音识别系统,让其不受说话人限制。通过欧洲语言资源学会和语言数据联盟可以获得更多的语音语料库录音数据库。这些语科库包括至少十种语言的录音语音数据和发音词典,以及至少二十种语言的文本语科库(Somers:2003b:7)。

在语音识别方面有许多研究项目,其中许多仍在发展阶段,还有一些只能在特定的环境中使用。以下是一些比较有名的项目:

松下电力工业有限公司和大阪城市大学开发的日英和日汉多语种语音翻译系统。这个实验系统对在包括运输、酒店、餐馆和其它游客感兴趣领域的1,000多个表达式做过测试。

Speechlator,一种配备一套由卡内基梅隆大学巴比伦项目开发的翻译系统手持式双向阿拉伯和英语语音到语音个人数字助理(PDA)设备。是设计用来帮助说英文的医生和说阿拉伯语的患者之间语言交流的。

LingWear,是由卡内基梅隆大学来发的,为在国外工作的军事人员和人道主义援助工作者设计的一套包括翻译、协助定位和存取信息的语言支持系统。可以通过声音或手写指令进入系统。

TONGUES(Act II Audio Voice Translation Guide Systems),一套语音到语音系统,包含一台语音识别器,通过它把塞尔维亚-克罗地亚语的语音文本转换成文字文本,并把该文本翻译成英语,然后通过语音合成器广播。这个系统是首先由卡内基梅隆大学的DIPLOMAT(Distributed Intelligent Processing of Language for Operational Machine Aided Translation)项目开发出来的,现在第二个阶段在Lockheed Martin Systems Integration-Owego进行。它是为美国陆军神父设计,用来提供宗教支持和人道主义者援助。这个系统现在有了其它语言,譬如,阿拉伯语,达里语,波斯语,库尔德语和帕施图语,在美国建有军事基地的国家(地区)使用。

曼陀林(Mandolin),是由美国电话电报公司的Government Solutions部门开发的一套自动化文本和语音翻译系统,可以集成电话系统、互联网、广播和电视电话会议。

受“9.11事件”的影响,对语音文本录制自动化的研究数量增加了。卡内基梅隆大学的巴比伦项目在开发一种便携式的语音到语音翻译设备和开展EARS(Effective,Affordable Reusable Speech-to-Text)项目,目的是把语音录音变成数字文本,用来搜集信息,尤其是阿拉伯语信息。

翻译技术还设计用来把原文输入为手语翻译成译文输出为语音文本或文字文本。在美国,由DePaul大学开发的一套称为“保拉(Paula)”的系统,通过计算机合成口译——把翻译的声音语言转化成美国手语以供机场安全检查站使用。其它实例包括18岁的莱安·帕特森在2002年在西门子威斯丁豪斯科技竞赛上的得奖设计——一幅单语种手语翻译手套,它通过感觉手语字母的手上运动而工作。同样,AcceleGlove也是2003年由乔治·华盛顿大学博士生Jose Hernandez-Rebollar研制的一副布满传感器的美国手语手套。这幅手套使用计算机把信息转换或“翻译”成口头和书面英语。也有其它语言的相似工具,例如,西里西亚科技大学开发的一个叫做THETOS(文本到手语自动译码器)的设备,以前称为TGT-1(文本到手势译码器),用来把书面波兰语翻译成波兰手语;以及卡内基梅隆大学为中国手语翻译开发的实验性自动手语识别和翻译设备。

五、结论

使用语音技术,或者是语音技术结合机辅翻译系统,一些商业公司研发了更为一般用途的的便携式翻译系统,这些系统赢得人们的青睐,例如,深受游客青睐的便携式个人电脑的Ectaco Partner? Voice译码器和深受英语学习者喜爱的Lingo-16便携语言译码器。2003年初,NEC公司开发了一种英日文自动翻译程序,这种程序可用于旅行者的移动电话、掌上电脑和互联网终端。

语音技术在开发新的翻译工具的过程中是尤其重要的,也让研究人员和专业译者对未来的机辅系统和机器翻译系统前途充满希望。目前,多数语音技术只在某些特殊用途方面融入机器翻译系统。但是,一些大的在线机器翻译系统,如Google、Babelflsh、WorldLingo以及Promt-Online这样的在线机器翻译系统提供语音翻译服务仅仅只是时间问题。在未来,不仅仅是专业译者这样的特殊团体会中获利,这些用途将惠及普通大众。

参考文献:

[1]Arnold,D.,L.Balkan,R.Humphreys,S.Meijer and L.Sadler

(1994)Machine Translation:An Introductory Guide.Manchester and Oxford:NCC Blackwell.

[2]Austermuhl,F.(2001)Electronic Tools for Translators.Manchester:St Jerome publishing.

[3]Benis,M.(1999)’Unlocking Your Potential:Talking Yourself Out of Trouble’,in Bulletin of the Institute of Translation and Interpreting.12-16.

[4]Gambier,Y.(ed.)(2003)Screen Translation,Special Issue of the Translator:9(2)Manchester:St Jerome Publishing.

[5]Hutchins,WJ.and H.L.Somers(1992)An Introduction to Machine Translation.London:Academic Press Limited.

[6]Melby,A,and C.T.Warner(1995)The Possibility of Language:A Discussion of the Nature of Language with Implications for Human and Machine Translation.Amsterdam:John Benjamins.

[7]O’Hagan,M.and D.Ashworth(2002)Translation-Mediated Communication in A Digital World:Facing the Challenges of Globalization and Localization.Cleveden:Multilingual Matters.

语音合成技术篇9

阿里巴巴说出“芝麻芝麻,开开门”,宝库的厚重石门便自动打开了。这个古老的阿拉伯神话,在如今数字时代语音技术的帮助下,完全可能成为现实。在多年的技术积累后,时下语音技术的春天正“千树万树梨花开”。

当前,智能语音应用已是移动互联领域的绝对热点之一。除了国外Siri、Google Now、微软必应添加的语音搜索功能外,近一两年,国内市场也陆续出现百度语音助手、搜狗语音助手、盛大的百灵语音助手、讯飞语点与讯飞语音助手、灵犀助手、虫洞语音助手、智能360语音助手等语音搜索工具。其中既有国际IT巨头、互联网大佬,也有二三十人的创业团队,市场堪称火爆,愈演愈烈。

智能语音交互技术日新月异

时下,语音应用分为三大技术环节:语音识别、语义理解、搜索,每个环节的技术难度系数都很高。以百度的语音助手为例,用户对它的需求大致分为三类:第一类是指令性的需求,包括打电话、发短信、发微博等。第二类是搜索需求,其中分为垂直搜索需求、通用搜索需求、知识类搜索需求,例如用户如果希望播放某首歌,就进入百度音乐等垂直搜索;如果是综合类的搜索需求,就进入百度的搜索引擎;如果是知识类需求,例如问“世界最长的河流是哪个”,语音助手就会进入知识库给出结果。第三类是调侃类的需求,百度有互动性资源,例如“小黄鸡”等。

自苹果iPhone 4S内置语音助手Siri以来,语音识别技术近年来经历了前所未有的繁荣。穿戴式设备、智能家居和车载设备的兴起,更是将语音识别技术推到应用的台前。语言的创造原本就是人类历史的一个拐点,而当将语言与科技结合时,所谓的人机交互的革命史又翻开了新篇章。

可以说,智能语音交互首先改变的是移动互联网,语音识别在移动终端上的应用最为火热。语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。在国内,目前除了手机内自带的语音助手,不少第三方语音助手应用也如雨后春笋般涌现,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。以iPhone中内置的Siri为例,这是一个很炫的功能。用户以自然语言的方式对智能手机下达指令,而手机根据用户语音和用户当前的环境及上下文对用户意图进行理解,并按照用户意图执行命令。如用户说“查找附近的闽菜馆”,则手机会搜索用户当前所在位置附近的闽菜风味餐厅,并将列表显示出来供用户选择查看。

腾讯公司将智能语音整合到手机上网领域,让打开网页、控制浏览器等功能操作“口语化”。只要你叫一声“搜狐网”,手机就会自然跳出搜狐网来,用不着用手输入网址。

很难想象会有用户通过手机打上五六百字向自己的领导论述某个项目的可行性,这样的工作通常是在有实体键盘的电脑上完成的。语音输入使得通过手机完成上述行为成为可能。

在未来的物联网时代,“说出需求得到落实”的互动模式将进一步延伸,届时所有的手机、电器等都将拥有“听”甚至是“说”的能力,语音控制将成为构建智慧城市的重要手段,人们美好的生活将再次“传为佳话”。用户躺在沙发上,对着手机就可给各种电器下达命令,电器就能自动完成操作,随着物联网的发展成熟,这种看似奇幻的情景正愈来愈广泛地变为现实。

而未来,借助语音识别技术,可实现“只动嘴不动手”的智能化支付,更能让用户体验到高速便捷。比如,消费者可对着手机发出命令――“请转账500元到××账户”,手机就能帮助消费者轻松实现口述化转账、付款。

近日,去哪儿携手百度,在其App加入语音功能,用户只需要对着手机说话,即可完成旅游出行搜索和预订、支付。该功能是去哪儿旅行与百度语音共同打造的智能语音产品,标志着百度和去哪儿在语音技术领域再上一层楼,“只动嘴不动手”的智能化,让用户“说去哪儿就去哪儿”,“想付多少钱就付多少钱”。

去哪儿无线高级产品总监杨昌乐表示,他非常看好智能语音的未来发展前景,智能语音最终必然会成为手机端的一个重要输入手段,并且会对现今的使用环境、支付环境造成很大的冲击。尤其多交互语音技术的出现,完全令用户有不同于以往的使用感受。未来去哪儿希望能够打造出仅依靠语音技术即可完成各种操作的App产品,将手指输入和语音输入并行提供给用户。

而目前国内最大的独立第三方支付平台支付宝,也已逐步针对全国手机用户推出独创的语音支付方式。此举将令国内数亿手机用户有机会通过手机终端随时随地完成语音支付行为。

一项公开调查的数据显示,除了通常网上购物之外,40%的消费者会选择电视购物,34%的消费者会选择目录购物,在这些人中,65%的消费者表示愿意在一定条件下使用语音支付进行付款。语音支付“钱景”十分诱人。

基于这种高智能化的技术进化,Enfodesk易观智库研究发现,语音必将成为日后移动互联网的最重要入口之一。手机和PC相比有着先天的操作和视觉劣势(手机屏幕面积小、操作输入繁琐),而语音输入无疑是比较好的替代输入方式之一,它使得操作者开始逐步摆脱双手与机器的操控交流,让手机成为更智能化、更人性化、更通用的工具。Enfodesk易观智库调查数据显示,到2015年全球智能语音交互技术市场将达到600多亿美元,未来三年年复合平均增长率高达15%以上。

无缝语音交互境界还有多难

不过,有些业界专家认为,语音应用能否成为下一个移动应用重要入口,还要经过技术和市场的双重考验。无论是类似苹果的“大牛”,还是口碑相传的智能360,目前均尚未带动语音成为移动互联的入口,迎接语音技术全面春暖花开的春天还要克服一些难关。

虽然苹果、谷歌、百度等这些巨头纷纷以非常认真的态度投入语音应用,语音用户市场还是发展不太快,离达到流量变现的程度还有一段距离。而目前国内手机语音搜索市场虽然已具备一定的用户需求与初步的技术积累,但仍处在市场导入期阶段。

近年来语音技术门槛逐渐降低,但不可否认的是,语音技术在人机交互中仍有一些尴尬局面。比如语音识别的正确率,其在实际应用中依然不够“听话”。一些专家认为,中国地域辽阔,光方言就有成百上千种,而且即便是同一种方言被不同的人说出来发音上也会有差距。机器系统哪怕采样再全,识别率也不会太理想。比起其他语种,中文的识别难度会更高。在中文中,同样的一句话,在不同的语境中,具备了不同的含义,识别难度会更大,甚至同一句话的不同语气,其表达意思也不同,这就让语音技术难以识别其准确意义,甚至可能“失之毫厘,谬以千里”。

有业内人士坦承说,语音识别的遗憾是再努力也做不到百分之百。这或是整体语音技术应用中的一个最大痛点。不过,业界专家对此进行反驳,任何事物没有所谓百分之百完美,语音识别准确率达到90%以上就算成功,不能吹毛求疵。

还有,为了调用语音、语义库,以更加精准地理解用户的意思,目前不少语音技术服务商的做法是将用户所说的语音上传到服务器,由服务器进行识别,但这对服务商网络的速度、服务器的处理能力、数据库等提出了很高的要求与很大的挑战。

因此,从某些技术上讲,未来要达到无缝的语音交互境界,难度还是相当大的。

语音合成技术篇10

关键词: 术语 音译 意译 规范

1.前言

术语是在特定学科领域用来表示概念的称谓的集合,或者说,是通过语音或文字来表达或限定科学概念的约定性语言符号。在我国,人们习惯称其为“名词”。术语是传播知识、技能,进行社会文化、经济交流等不可缺少的重要工具。作为科学发展和交流的载体,术语是科学研究的成果,是人类进步历程中知识语言的结晶。从某种意义上说,术语工作的进展和水平直接反映了全社会知识积累和科学进步的程度。术语和文化,如影之随形,须臾不离。不同的文化要用不同的术语来说明,吸收外来文化,同时必须吸收外来术语。这种特殊的文化表现,是两种语言文化的融合。语言总是在不断发展创新的,因为产生和使用它的社会是在不断发展创新的。语言也会随时新陈代谢,而且会长时间地和其他语言共同存于同一社会,同时在主流语言中留下属于自己的痕迹,这是语言的发展规律。那么这些术语是如何移植的呢?人们又是如何翻译术语使其不仅能表意而且能成为大家所接受的规范语言呢?

2.术语的翻译

2.1音译

音译是翻译英语专业名词的一种常用方法。科技英语中某些由专有名词构成的术语、单位名称、新型材料的名称等,在翻译时都可采用音译法。考虑到译名的规范化和通用性,用词要大众化,读音应以普通话的语音为标准。

1)新发现的自然现象或物质名称。例如:gene(基因);quark(夸克)。

2)计量单位名称一般用音译。例如:hertz(hz)(赫兹)(频率单位),lumen(流明)(光通量单位),calorie(卡路里)(热量单位),var(乏)(无功功率单位)

3)新型材料的名称,一般采用音译。例如:celluloid(赛璐璐),nylon(尼龙)。

2.2意译

这里的意译是指根据某种语言词语的意义译成另一种语言的词语,区别于“音译”。意译法也是最常用的翻译方法,它能使读者直接了解术语的含义。就英语而言,有不少专业术语是由派生词或复合词构成的,必须确切了解原文术语的构词手段及含义,才能译成相应的汉语术语。由生词或复合词构成的,必须确切了解原文术语的构词手段及含义,才能译成相应的汉语术语。例如:input(输入),output(输出),holography(全息摄影术),monopole(单极),bandwidth(频带宽度),walkie-talkie(步话机)等。

2.3音意兼译

传统意义上的音译兼意译词,也就是音译加义标(义标表示这一个词的类属),词的前一部分借用原外族词的读音,后一部分采用汉语固有的语素表明词的类属,音译部分为三音节或多音节的。在使用过程中,义标有时可以省略不说。例如:“艾滋病”(AIDS)、“桑拿浴”(sauna)、“芭蕾舞”(ballet)、“踢踏舞”(tittup)、“蹦极跳”(bungee)、“啤酒”(beer)、“酒吧”(bar)等。

将原外语词的一部分音译,另一部分意译。这些词语中的语音形式一部分借用外族语词相对应的部分而另一部分则意译外族语词相对应部分。例如:“因特网”(Internet)、“摩托车”(motorcycle)、“新西兰”(New Zealand)等。

3.术语翻译的规范

随着中国的崛起,随着全球化程度的不断提高,有关术语的规范和翻译需要跟上。经济全球化、科技社会化、计算机网络化迫切需要术语的规范化和术语翻译的规范化。中国加入世界贸易组织后,全球贸易发展急需术语的规范与统一,亦不可避免地需要该领域术语翻译的规范与统一。海峡两岸合作交流发展急需语言文字(含名词术语)的规范与统一和名词术语等翻译的规范与统一。为了使术语更国际化,在音译和意译的争论上应采取音译为主,意译为辅。原因有以下三点。

3.1音译使术语更国际化

关于术语的国际化,我想先举一个例子。penicillin译为“盘尼西林”,后又改为“青霉素”。这两个译名一开始对我们来说都是新名称,而“盘尼西林”在音上可以让我们联想到英语单词penicillin,我们知道,英语在现在并且在可预见的将来仍然将是世界语。所以说比起“青霉素”“盘尼西林”更合适,还有助于术语的国际化。

在欧洲,美国、苏联术语的翻译一般都采用音译手段。因而术语常常具有国际性。为了跟上快速发展的世界科技,日本、韩国等汉字文化圈的国家相继采用了音译法。尽管汉语中没有日语的假名或韩国的谚文那样的表音符号,但汉语有拼音,可以根据拼音找出同一拼音下哪个汉字在意上更适合翻译。这样的话术语经过汉语的吸收、使用和同化后,往往会改造成地道的汉语词汇,有的就演化为“外来概念词”,有的保留外来语的形态,但大都变成了汉语的基本词汇。

例如大家所熟悉的“可口可乐(Coca Cola)”,《牛津现代高级英汉双解词典》中将其解释为“流行的非酒类充碳酸气的饮料”,而音译汉字则表达出了“可口美味,饮而生乐”的含义;同为饮料的“雪碧(Sprite)”则从另一个方面让人感到“清爽似雪、晶莹如碧”。不仅音译词如此,某些音译兼意译词的声音部分也有这种情况。如“保龄球(bowling)”,选取“保龄”二字,其“保持青春年龄”使人不由联想到了“保健、青春永驻”等意思。

3.2音译可以创造和派生新词

英语作为一种快速传播的国际化语言,深刻地影响着当今中国社会生活的各个领域。大量不同形态外来词的引入和使用对汉语言文字产生了全面而深刻的影响。普通百姓平时口头交际用语中不难发现,说“拜拜(bye bye)”的似乎比说“再见”的多,况且从幼儿时期就开始操练;年轻人见面看到对方穿着入时,一定会赞叹地说“哇塞(Wow),好酷(Cool英语表示好,棒)啊!”;技术人员往往说的是“IT行业”的词;官员们说“亚太经济合作组织会议”可能就会直接用“APEC”表达;“麦克风”(microphone)作为一种外来的新事物,中国原来没有,“麦克风”是最早的音译,后来改用“话筒”,“麦克风”几乎已从我们的语言中退出,但现在人们又开始越来越多地用“麦克风”,还发展出“耳麦”、“麦霸”等;同样,“巴士”(bus)也是一种车的音译,早已被“公共汽车”、“面包车”取代,但现在又“卷土重来”,有“大巴”、“中巴”、“小巴”,还有的城市成立了“巴士公司”。人们通过看电视认识或户外广告记住很大一部分商业品牌词语外来词,例如:“金利来、耐克、潘婷、松下、雪碧、舒肤佳、高露洁、乐百氏、可口可乐、百事可乐、皮尔・卡丹”等。

由于国外新名词的渗透,现代汉语词汇的构成在某种程度上也受到英语的影响,大量新兴类词缀的出现是英语外来词影响下出现的一大特点。一部分外来词进入汉语后参与构词,从而成为汉语的词缀。如“卡”(card)是早先就引进的外来词,可是随着各式各样的卡在中国频频出现和使用,利用这一词语再次参与构词,形成了一个“卡”词族,如“借记卡、提款卡、银行卡、金融卡、社保卡、电信卡、条码卡、电子贺卡、手机卡、电话卡、积分卡”,以至于社会上出现了专门的“持卡族”。

再如最初只是为了记录英语当中“bar”这一词语的发音,由于与表示义标的“酒”字组合在一起表示“西餐馆或西式旅馆中卖酒的地方”,由于这一个词语的高频使用,“吧”意义渐渐泛化取得了“小型的休闲场所”、“地方”的意义,在这一意义之上构成的新词有“咖啡吧、冰吧、果吧、玩吧、书吧、画吧、氧吧、网吧”。再如由“disco”音译过来的词“迪斯科”舞,利用它的第一个音节“迪”字与其它语素组合而成新词,如“迪厅、蹦迪、迪吧”,从而使得“迪”获得了自由语素的身份。“啤酒(beer)”中的“啤”字也参与构成新词,如,“冰啤、听啤、散啤、罐啤、扎啤”。

3.3科学术语的翻译大多以音译为主

科学术语的分类有数学类、物理类、化学类、天文类、气象类、地理类、生物类、工业类、农业类、交通类、医药卫生类、军事类、社会科学类等。基本上都属于专业学科。实际上,在很多音译仍然是科学术语翻译的主线,原因有三:

首先,由于语言的日渐国际化,当一个新词语刚刚出现时,人们对它尚缺乏全面深入的了解,这时科学术语的翻译大多以音译为主。实际上在我国翻译史上也有这种现象:当某一个新科学术语出现时,往往使用音译,然后才逐渐使用意译。比如当西方的democracy刚刚进入中国大陆的时候翻译成“德谟克拉西”,把bourgeoisie翻译成“布尔乔亚”,直到20世纪50年代才分别改译为“民主”和“资产阶级”。

其次,在品牌商标翻译中,音译起着非常重要的作用,有非常好的修辞效果。比如,人们把汽车轮胎Goodyear翻译成“固特异轮胎”,这样它的坚固、耐磨性就跃然纸上。最有意思的是“昂立1号”营养保健品的原名是Only One,这个“昂立1号”给人的形象是多么逼真。

下面术语的音译都有各自不同的修辞效果:

Compass康巴斯石英钟

Unique优力康

Bird波导牌手机

Xerox施乐

最后,一些以发明者或发现者命名的科学术语只能以这些科学家的名字命名。这种命名发也属于音译法。例如,Ampere,Watt和Volt分别翻译成“安培”、“瓦特”和“伏特”。这些科学术语只能用音译方法。

4.结语

尽管语言具有政治性,但我认为音译并没有使汉语完全丧失自身的纯洁性,相反可以使汉语跟随科学技术的发展。为了跟上快速发展的世界科技,日本、韩国、越南等汉字文化圈的国家相继采用了音译法。20世纪初,日本的术语翻译出现了重大转变:放弃了明治时期汉字意译,采用假名音译。汉语也可以用汉字音译代替日语的假名或韩语的谚文来音译各种术语。现在世界上各种文字都是拼音的,只有汉字是例外,因而在我国和外国的文化交流上是一个不大不小的障碍。我们需要翻译外国的科学、技术和其他资料,如果直接音译文字,人名、地名,许多国际通用的术语也可以不翻译。如果以意译为主,全得翻译,于是译名统一成为很严重的问题。科学技术语用意译法,对于理解和记忆是有些帮助,可是从事科学技术工作的人,除了一套汉文术语外,还免不了要记住一套国际术语,成了双重负担,对于我国科学技术的发展也不无影响。

参考文献:

[1]范仲英.实用翻译教程.北京外语教学与研究出版社,1994.

[2]杨跃.实用科技英语翻译研究.西安交通大学出版社,2008.