首页资料文库正文

语音视频十篇

时间：2023-03-15 02:11:16

语音视频

语音视频篇1

关键词：语音视频交流；传统二语课堂教学；二语习得

1 研究目的

本文试图研究传统的第二语言一对一授课课堂的语言交流与通过skype软件进行的语言交流的差异，从中发现这两种交流方式对学习者习得以及对教师教学行为的影响，并讨论两者的利与弊。本研究的目的是通过对这两种二语交际的描述、解释与比较，探讨语音视频交际的可推广性。

为此本文设立了如下三个具体的研究问题：

教师在单班课与语音视频教学中的提问频率与改错是否存在差异？

学习者在单班课与语音视频教学中的主动提问频率是否存在差异？

学习者对单班课与语音视频教学的评价是否存在差异？

2 研究方法

2.1 参加者

本研究的参加者包括八名2013年春季在北京美国各大学联合汉语中心（associated colleges in china， acc）留学的美国大学习者。acc成立十余年以来，以其高强度、高标准的课程设置以及只说中文的语言誓约（language pledge）而著称。同时为了实现高度个人化的教学，acc每天设置一堂50分钟到80分钟的一对一课程，称为“单班课”。在单班课课堂上，学习者有大量的机会与教师展开讨论，进行互动。

本研究的研究对象大部分（ 87.5%）为20与21岁，（平均年龄=20.7， sd = 0.5463）；均以英文为母语。75%的学习者在来中国留学之前接受过一至两年的大学程度中文正规教育。可以说，本次研究的研究对象具有非常相似的背景。

2.2 研究程序

本研究采用录像、录音以及调查问卷的方式收集数据，所有录像、录音收集数据的工作在2013年2月完成。参加者填写调查问卷的时间没有限制，大致在十分钟之内填写完毕。

2.3 研究材料

单班课录像材料与语音视频交际录音材料

单班课的录像资料来源于学习者与任课教师的真实课堂录像，教师与学习者的讨论内容均按照当天的授课进度严格执行。当天下午，同一个学习者与同一位任课教师利用skype语音视频软件进行30分钟的讨论与互动，讨论的主话题与当天上午单班课的相同。从这些录像与录音材料中，我们得到了如下变量：

1 教师在单班课与语音视频教学中的行为变量：

a.教师提问频率 the frequency of teacher’s questions.

b.教师改错频率 the frequency of teacher’s corrections.

2.学习者在单班课与语音视频教学中的主动提问频率 the frequency of student’s initial questions.

调查问卷

调查问卷请学习者就他们所经历的单班课与语音视频课在如下方面分别给予评价：

1.听力理解

2.自我表达

3.师生互动

4.教师改错

此外，学习者被要求用文字形式回答他们更喜欢哪种授课方式，同时给出理由。

3 研究发现

研究问题1：教师在单班课与语音视频教学中的提问频率与改错频率是否存在差异？

本研究对教师提问频率与教师改错频率变量实现配对样本t-test后获得结果如下（见表一、表二）：

如表一、表二所示，两组的t-test结果差异不显著（sig. of t >α 值0.05），此外该两组变量的置信区间包含零数值。由此得出结论，教师无论在单班课上或是语音视频教学中的教学提问频率与改错频率无显著差异。

研究问题二：学习者在单班课与语音视频教学中的主动提问频率是否存在差异？

本研究对学习者主动提问频率变量实现配对样本t-test后获得结果如下（见表三、表四）

如表三、表四所示，该组的t-test结果差异不显著（sig. of t >α 值0.05），此外该组变量的置信区间包含零数值。由此得出结论

，学习者无论在单班课上或是语音视频教学中的主动提问频率无显著差异。

研究问题三：学习者对单班课与语音视频教学的评价是否存在差异？

本研究对学习者给予的单班课与语音视频教学的评价实现四对配对样本t-test后获得结果如下（见表五、表六）

如表五、表六所示，第一组及第三组的t-test结果差异显著（sig. of t <α 值0.05），此外该两组变量的置信区间不包含零数值。由此得出结论，学习者对单班课与语音视频课堂上的听力理解、师生互动评价的差异显著，而对自我表达与教师改错的评价差异不显著。

4 讨论与结语

以上三个研究问题的数据分析显示，教师在单班课与语音视频授课时，他们的提问频率与改错频率没有统计学意义上的差异，也就是说，同一位教师保持了相似的教学与交际行为，并未因为语音视频这种远程的交流环境而减少自己对学习者的提问数量或者改错的次数。学习者的主动提问频率在这两种课堂中的差异也不显著，并不因为缺少了面对面的真实交际环境而不愿意主动向老师提问。

在比较单班课与语音视频授课时，学习者对语音视频交际过程中的听力理解与师生互动的评价均低于单班课（分别下降了1.6250与1.8750）；而对自我表达与教师改错的评价却无统计学意义上的差异。这说明在学习者看来，单班课在第二语言输入与互动上较语音视频授课更胜一筹，但是在自我表达与接受纠错方面，学习者并未感到明显的不同。

由此可见，虽然所有的学习者都声称他们更喜欢传统的面对面的一对一交流方式，然而本研究的数据显示教师的提问频率与纠错频率在单班课与语音视频授课时并无显著的差异，学习者的主动提问频率也保持了一致性。此外，学习者自我感知中的表达和对教师纠错的反应也无显著差别。因此，在面对面交流无法实现的情况下，语音视频授课不失为一种理想的二语交际手段，也可以成为对传统的二语课堂有益的补充。

参考文献

[1]brown， d. （2001）. teaching by principles： an interactive approach to language pedagogy. new york： longman.

语音视频篇2

古时候人们都梦想长一双千里眼和顺风耳，迅速了解千里之外的事物变化，神话小说中身居天宫的玉皇大帝想知道人间的事情，派出千里眼和顺风耳一听一看就什么都知道了。随着科学技术的飞速发展，计算机、互联网技术日益普及，21世纪的每一个公民都能够获得一双实实在在的千里眼、顺风耳，只要使用合适的终端设备和网络，配合相应的软件，在地球任何一点只要有人配合，实现千里眼顺风耳功能易如反掌。远程实时视频语音技术应用为当代民众提供了切实可行的实施方案。

在计算机、互联网的使用过程中PC与PC之间视频通话软件如雨后春笋般的不断涌现，世界PC（Personal Computer，个人计算机）机软件开发的先导者微软（Microsoft，NASDAQ：MSFT，HKEx：4338）开发的Windows Live Messenger（MSN），腾讯公司软件QQ，新浪开发的UC以及五花八门的远程视频会议软件早已使远程视频通话成为现实，天地之间实时视频通话技术也已经十分成熟。对于贫民百姓而言，实现不受固定地点限制的远程视频通话如今已经能够顺利实现，本文将以全球第一大手机、PC生产厂商，世界上市值最大的上市公司苹果股份有限公司（Apple，Inc）开发的FaceTime视频通讯软件应用做一个简单的介绍。

FaceTime苹果股份有限公司（Apple，Inc）开发的实时视频通话软件。借助功能强大的智能手机iPhone4、iPhone4S、Ipad2以及MacBook Air实现各种终端设备之间的实时视频联系。以上三种终端设备均可使用正面相机进行面对面的交谈，或者使用背面相机来分享您周围的人或物。

一、FaceTime软件适用机型

目前FaceTime软件适用机型为智能手机iPhone4、iPhone4S、平板电脑Ipad2以及MacBook Air笔记本电脑。

二、FaceTime软件适用条件

智能手机iPhone4、iPhone4S或者具有GPRS的Ipad需要开通GPRS，或者接入无线局域网络（Wireless Local Area Networks;WLAN）。Wi-Fi技术是一种可以将电脑、笔记本、手持设备（如PDA、手机）等电子通讯终端以无线方式互相连接的技术。由Wi-Fi联盟（Wi-Fi Alliance）持有。这项技术能够改善基于IEEE 802.11标准的无线网络产品之间的互通性。平板电脑Ipad2以及MacBook Air笔记本电脑没有GPRS功能的机型只能接入无线局域网。使用Wi-Fi不消耗GPRS流量。若要使用FaceTime，您需要iPad 2和接入互联网的无线局域网连接。您呼叫的联系人必须也有可以使用FaceTime的设备或电脑。需要说明的是FaceTime并非在所有国家或地区都可用。目前FaceTime在大陆地区适用。

三、FaceTime应用前的准备工作

1.注册Apple ID。使用FaceTime软件首先必须注册一个Apple ID，如果已经注册了一个iTunes Store帐户、MobileMe帐户或其他Apple帐户，则可以配合FaceTime使用该Apple ID。如果没有Apple ID，则可以在打开FaceTime时创建一个。打开FaceTime，点击“创建新帐户”。按照屏幕指示执行操作。输入的电子邮件地址将变成新帐户的Apple ID。

2.登录FaceTime软件。打开FaceTime，输入个人Apple ID和密码，然后点击“登录”。登录后输入对方的Apple ID电子邮件地址或者对方iPhone4、iPhone4S手机号码，点击视频通话图标即可发起视频通话邀请，只要对方接受邀请即可进行视频通话。

3.发起FaceTime呼叫。若要发起FaceTime呼叫，请打开FaceTime应用程序，从通讯录、个人收藏或最近通话列表中选需要视频通话对象的ID，点击FaceTime拨出图标即可。FaceTime通话时过程中可以切换前后相机，更改相机方向，使麦克风静音，移动您的画中画显示，打开其他应用程序，最后还可以结束通话。

如果通话过程中需要使用其他应用程序，按下主屏幕按钮，然后轻按应用程序图标。您仍可以与朋友通话，但你们彼此看不到对方。若要返回到视频，请轻按屏幕顶部的绿色条。

结束通话：轻按end，结束。

四、改善FaceTime质量

若要在使用FaceTime时获得最佳体验，可以尝试以下建议：

①如果视频显得忽动忽停或较慢，请确定您和您呼叫的人都已连接到可用的最快的无线局域网络。

②如果图像呈颗粒状，则相机需要更多光线。如果传入的图像呈颗粒状，则需要主叫方调整光线。

③如果横向握住iPad，则图像不会填满整个屏幕。与您进行视频通话的人可能也需要转动他的设备以便向您发送较大的图像。

五、iPhone4智能手机终端FaceTime功能激活和使用方法

（一）FaceTime功能激活

1.激活方式可以选择连接iTunes激活和iPhone4手机直接激活，激活过程中iPhone4手机系统会向苹果服务器发送注册短信，苹果公司服务器接收到注册短信后进行验证，验证通过后给予注册并向注册用户手机号码发回注册成功短消息，注册完成FaceTime功能亦被激活，激活后的iPhone4手机用户可以使用FaceTime进行可视电话。

2.如果注册失败，苹果公司为iPhone4手机用户提供了手动激活FaceTime的方法。操作程序是，进入“设置”点击“电话”菜单，将FaceTime开关按钮开关由“关闭”置于“开启”状态。这时侯注册的iPhone4手机会向苹果服务器发送注册短信，苹果服务器验证通过后完成注册，与此同时FaceTime功能被激活，用户激活后的iPhone4手机可以使用FaceTime进行可视电话。

3.iPhone4手机进行系统升级问题。iP-hone4智能手机用户可以通过iTunes对iPhone4进行系统级，也可以选择从不带wifi的iPhone 3GS里恢复备份，如果出现iPhone 4手机菜单中的FaceTime开关会无法进行设置问题时。可以按照如下步骤进行操作：点击“设置”再点击“通用”再点击“还原”选择“还原所有设置”。这个过程中iPhone4界面如壁纸可能会恢复成出厂状态，但内容不会丢失。完成系统升级以后即可进入“设置”，点击“电话”菜单打开FaceTime开关，通过以上步骤重新激活FaceTime功能。

4.用户如果通过iTunes对智能手机iPhone4进行系统升级，并且选择从带wifi的iPhone 3GS里恢复备份的话，智能手机iPhone4菜单项中将不会出现FaceTime开关选项。用户可以按照如下步骤操作恢复系统：将智能手机iPhone4连接iTunes，选择iTunes软件左侧的iPhone设备，再点击iTunes右侧的“恢复”按钮，将iPhone4恢复到最新版本后，激活FaceTime功能。

（二）智能手机iPhone4使用FaceTime功能

用户使用一台iPhone4手机，给另外一个用户的iPhone4手机拨打语音电话时，在通话面板上有一个FaceTime软件图标，这个图标开始时呈灰色并且不可点击状，当被叫方接听FaceTime视频通话后，主叫方的FaceTime图标变为高亮;主叫方可以点击FaceTime图标向被叫方提出可视电话申请，被叫方可以选择接受或拒绝接听，在被叫方点击接受后便可成功建立FaceTime连接，进入视频通话状态。在FaceTime接通后，语音电话会自动断开，并且不再产生任何话费。

（三）FaceTime软件在智能手机iPhone 4进行可视电话的必要条件

1.FaceTime软件只能在苹果设备iPhone 4、ipad2、MacBook Air间应用。

2.使用设备必须成功在苹果服务器上完成注册并且开通FaceTime功能。

3.如果在两个iPhone4之间使用，设备必须同时开通蜂窝信号。

4.ipad2与ipad2、MacBook Air与MacBook Air以及ipad2与MacBook Air、MacBook Air与ipad2之间拨打视频电话设备必须都成功连接上WiFi网络。

5.ipad2、MacBook连接上WiFi网络后可以与开通蜂窝信号的iPhone4拨打视频电话。

六、FaceTime注册短信费用和收费标准

iPhone4用户如果使用FaceTime可视电话功能，需要先进行激活注册操作，操作过程中iPhone4手机会向苹果公司服务器发送国际注册短信（号码为：+447786205094），该国际注册短信目前对中国联通用户（含2G、3G用户）免费。

语音视频篇3

论文关键词：基于网络的语音视频多人聊天系统

随着网络技术和多媒体技术的发展，网上聊天室已经不再局限于文字聊天，网民和聊友们更希望的是聊天有实时性，互动性、趣味性。在文字聊天的同时能够通过视频和语音更好的交流、增强实时性、互动性和趣味性已经成了一个很迫切的需要。

2课题的相关理论和技术

2.1 UDP协议

UDP协议是英文UserDatagramProtocol的缩写，即用户数据报协议，主要用来支持那些需要在计算机之间传输数据的网络应用。包括网络视频会议系统在内的众多的客户/服务器模式的网络应用都需要使用UDP协议。与我们所熟知的TCP（传输控制协议）协议一样，都属于传输层协议。

UDP协议使用报头中的校验值来保证数据的安全。校验值首先在数据发送方通过特殊的算法计算得出，在传递到接收方之后，还需要再重新计算。如果某个数据报在传输过程中被第三方篡改或者由于线路噪音等原因受到损坏，发送和接收方的校验计算值将不会相符，由此UDP协议可以检测是否出错。

2.2 MPEG4压缩算法

语音视频篇4

关键词：YY语音；网络教育；教育模式；应用模式

伴随21世纪学习型社会的到来，加上计算机和网络技术的发展，远程教育迎来了质的飞跃，逐步成为世界各国教育信息化发展的热点。但在远程教学中，教师与学生难免处于准分离状态，这种“物理远距离”导致了教师与学生之间互动困难，学生与资源之间互动困难，以及学生与学生之间互动困难。同时，教师及学生与无生命的计算机网络还存在“心理远距离”。长期进行非面对面的计算机网络远程教学，会影响师生之间交流的默契程度。缺乏情感交流的远程教学致使其教学质量大打折扣，阻碍了网络远程教学的深度开展［1］。因而，如何在网络远程教学过程中突破时空限制、增强师生情感交流成为一个亟待解决的问题。广州多玩信息技术有限公司研发的YY语音以其强大稳定的实时交互功能，极大满足了远程教学打破时空界限的迫切需求。本文主要介绍如何在网络远程教学中应用YY语音，并为教师和学生提供具有实时交互特性的远程教学模式。

1YY语音的特征

YY语音由广州多玩信息技术有限公司研发，它基于Internet团队语音通信平台，功能强大、音质清晰、安全稳定。YY语音作为一款免费团队语音工具，其客户端功能包括频道、Y友、Y群3个部分。

（1）“频道”。“频道”即YY语音主打的团队语音功能，每个频道都可视为一个语音聊天室，语音作为主要交流方式，同时具有文字、表情、图片等辅助功能。频道具有的功能特点有：①拥有丰富的教学工具，支持语音互动、讨论提问、举手发言、桌面分享、白板、教学课件、答题卡、教学视频、论坛、免费公开课、精品课程等强大功能；②课堂高清音质无延迟，教室上课时的音质清晰且流畅，配有混响、除噪、背景音乐播放、录音等音效功能；③方便简易的频道管理，用户能自主创建万人频道，灵活的马甲权限，可使管理方便有效；④操作简单易上手，YY语音的设计轻巧且人性化，操作简单易学。

（2）“Y友”。“Y友”具有满足个人之间实时沟通的功能，用户可以查询、添加好友，以文字为主要方式进行交流。

（3）“Y群”。“Y群”作为“Y友”功能的延伸以及频道功能的辅助，将更多的人聚集在一起交流，丰富了用户获得信息的内容量，同时也增加了Y友数量；对于频道，则使原频道内用户有了相对稳定的交流场所，使内容以文字形式保留。同时支持群内再分组，可对群内人员进行分组，每个小组相当于一个小群，形成金字塔式的管理架构，极大方便了群组的人事管理。YY语音为学生提供了便捷的学习途径，为教师提供了多元的教学工具，为培训机构提供了实时的教学平台。YY教育平台是2011年6月基于YY语音而推出的专业互动网络教学平台［2］，它聚集近800家国内外知名教学机构和2万著名讲师，已举行超过100000堂网络公开课，月活跃用户量超过600万。目前，进驻YY语音的教育机构包括新东方网络、沪江英语、华图、同信证券、文都教育等；同时与培训机构和大量高校合作，如北京外国语大学、四川外语学院、环球雅思北京总校等；也和一些留学机构和国外高校合作，如金吉列、维多利亚大学、圣地亚哥州立大学、悉尼科技大学等。由以上资料可以看出，YY语音在网络教育中的发展非常迅速［3］。随着YY语音在网络教育中的快速发展，基于YY语音的讲授、自学、讨论、辅导等网络教育模式逐步形成。

2YY语音讲授模式

基于YY语音的讲授模式可分为同步和异步两种。

2．1同步讲授模式

教师可根据自身所处环境，注册登录基于不同平台（电脑、网页）的YY语音，进入或创建教学频道。进入频道后，教师可根据需要采用适当的教学模式，有语音教学、模板教学、视频直播教学3种同步讲授模式。

2．1．1语音教学

语音教学指教师和学生在YY语音频道内以语音交流互动为主，文字沟通为辅的教学方式。在YY语音教学中，教师可通过语音交流进行课堂教学，为学生讲授新知，进行课堂提问、纠错答疑，同时采用文字沟通方式强调重点，引起学生注意。学生在听课过程中，可通过举手发言和文字沟通向教师提问、回答问题、发表观点、练习发音等。语音教学实现了教师与学生之间的互动以及学生与学生之间的互动，基本实现了传统课堂教学的基本功能，适用于语言类的教学。本文以LF外国语学院（频道号：5700）的语言教学为例进行阐述。LF外国语学院是YY语音平台最大的外语教学公会，公会目前主要免费教授韩、日、英、俄、粤、普通话等多种语言。在进行语言类教学时，课堂成员主要由教师、助教和学生构成。教师负责讲授新知，主要采用语音进行教学活动；助教负责将重要知识点显示在公屏上，回答学生发在公屏上的问题并控制课堂纪律；学生可以进行发音练习，也可举手发言。有时教师可同时承担助教的任务。

2．1．2模板教学

模板教学指教师在YY频道中应用频道提供的教育模板进行教学的教学方式。在需要使用教育模板的频道名称上单击右键，选择“频道信息”，在弹出的窗口中选择“频道模板”，即可开启教育模板（教育模板仅支持YY5．1之后的版本）。教育模板提供了白板、桌面分享、答题卡3个教学工具，其功能如图2所示。模板教学仍然具备YY语音教学中的语音交流互动和文字沟通功能。教师可通过使用白板、桌面分享和资料收集完成课堂教学过程。白板的PPT和图片播放、文字输入、画笔标注、擦除等功能可实现课程中基本知识和基本理论的精讲。桌面分享的资源分享和操作演示功能可实现课程中技能操作的精讲，尤其适用于Photoshop等软件的操作教学。教师通过答题卡以及学生在教学过程中通过举手发言和文字沟通可实现教学反馈。教师通过语音互动和文字沟通可实现总结评价。模板教学基本实现了多媒体课堂教学的所有功能，一般课程都可通过这种形式进行网络教学。

2．1．3视频直播教学

视频直播教学模式与网络远程教育中的基于网络视频会议系统的同步讲授模式类似，教师可在YY频道提供的视频直播间利用教育模板中的摄像头功能进行讲授，学生可以看到教师，并与教师进行语音和文字互动，与传统教学模式大同小异。视频直播教学模式与基于网络视频会议系统的同步讲授模式的不同之处在于，视频直播教学模式突破了共享带宽、视音频传输质量、网络负载等互联网络的条件限制，不需要租用专用线路，大大降低了视频直播的成本和费用。目前，视频直播间虽可用于视频直播教学，但较多应用于游戏和娱乐，并且开通维护视频直播间需要花费大量的时间，操作也没有模板教学方便快捷，因而利用视频直播间进行视频直播教学并不普遍。值得一提的是2014年上线的YY教育模板3．0中新增的摄像头功能，虽然使用时间不长，但是操作简单方便，视频流畅稳定，画质清晰，受到了师生的广泛欢迎，使得YY语音支持的视频直播教学得到了新的发展。

2．2异步讲授模式

YY语音为用户提供了录音功能，用户只需点击频道界面下方的录音键即可开始录音，再次点击录音键则结束录音，录音结束后会自动生成MP3格式的音频文件。教师可将课堂授课的语音录制下来，将生成的音频文件放在网上，供学习者收听。学习者也可以自己录音，利用录音进行学习。这样学习者就可以随时随地复习教师所讲内容。

3YY语音自学模式

网络远程教育中的自学模式是根据社会和自我需要，通过计算机网络运用远程教育工具，由学习者自我确定学习目标、组织学习内容、安排学习活动和自我评价学习结果的一种教育模式。这种模式的最大特点是充分考虑到学生个体之间的差异，学生可以通过Web在Internet这个巨大的信息资源库上漫游，浏览文本、图像、声音、动画、视频等多种媒体信息。基于YY语音的自学模式指学习者可根据自身需要，参照频道公告和课程表，通过频道论坛或YY群，获取课程录音、课件和上课笔记等多种资源，进行自主学习的学习模式。3YY语音自学模式在一般的网络远程教育自学模式中，学习者要根据自身需求在互联网这个巨大的信息库中不断地选择和寻找有用的学习信息和资源。信息量的庞大和资源种类的繁杂无形中拉大了学习者和资源之间的距离。而在基于YY语音的自学模式中，学习者在频道提供的一体化服务下，可以轻松找到所需的学习资源，这种模式大大增强了学生和资源之间的互动性和实时性，缩短了学习者和资源的距离，学习资源的利用率也得到了很大提高。一些教育频道专门设置了自主学习子频道，方便学习者自主学习。如大耳朵专业英语频道（频道号：2831）专门设置了“C22新概念四自主学习”子频道，在频道公告上列出了新概念四所有的课程录音网址，学生可下载学习，免去了查找资源的麻烦。

4YY语音讨论模式

通过YY语音进行讨论的学习方式有很多，在频道、Y友、Y群内均可进行讨论学习。基于YY语音的讨论模式如图4所示。YY频道提供的公屏可实现用户之间的多人讨论学习，包括一对多讨论、多对一讨论和多对多讨论3种形式。支持教师与学生、学生与学生和教师与教师之间的讨论。私信主要指用户在学习过程中向教师或同伴发起的即时的一对一讨论。频道论坛相当于BBS的功能，用户可以针对给定话题发表自己的观点。频道内的公屏多人讨论和私信讨论都是实时性的，频道论坛是非实时性的，具有用户留言的功能。上述YY频道讨论学习方式都是利用文字和表情进行的，YY频道同时也支持实时的语音讨论学习。Y友和Y群都是用户针对特定人员发起的即时讨论。Y友主要是个人与个人之间的讨论学习。Y群除了可以进行多人讨论学习之外，还可以在群内建立小群，形成讨论组，进行协作讨论学习，提高学生的学习效率和合作意识。需要注意的是，这种学习过程必须由该领域的专家或专职教师进行监控指导，以保证学习者的讨论和发言符合教学目标的要求，防止讨论偏离当前学习主题，当学习者无法讨论下去时，专家或教师可以给予适当的提示或指导，保证讨论可以继续下去。

5YY语音辅导模式

在基于YY语音的网络远程教育中，教师对学习者的个别辅导形式主要有两种：一是网络答疑方式，学习者在频道内通过公屏提问、私信、举手发言或通过Y友交流等方式提出自己的疑问，教师可以通过即时语音、文字回复等方式地进行释疑和辅导；二是网络作业方式，教师通过频道教育模板中答题卡或频道论坛收集查看作业，发现学习者在学习中出现的问题、困难和误区，并进行解释和引导。6结语本文提出的YY语音在网络教育中的应用模式对促进现有远程教学的发展具有重大现实意义。YY语音以其强大的语音交互功能和多样化的教育服务让学习者拥有了一个免费的，可与教师、学生和学习资源近距离交互的，开放、平等、多元化和一体化的教育平台。YY语音支持的远程教学有助于改变传统教育方式和渠道，降低教育成本，满足任何人在任何时间任何地点进行实时学习的需求，促进网络教学的全民化和全球化。就目前YY语音支持的远程教学发展情况来看，视频直播教学刚刚起步，虽然视频直播教学很容易实现，但其维护需要大量的时间与精力，且操作上比其它模式复杂，不利于推广，因此视频直播教学模式还需要不断地修改与完善。同时YY语音作为教育媒介，需要不断扩大其教育应用，使YY语音更好地为网络教学服务，从而进一步促进网络教学的发展，实现教育平等和教育民主。

参考文献：

［1］曾祥跃．网络远程教育生态学［M］．广州：中山大学出版社，2011：138－139．

［2］YY教育．关于我们［EB／OL］．http：／／edu．yy．com／contact／．

［3］百度百科．歪歪语音［EB／OL］．http：／／baike．baidu．com／view／2837539．htm？subLemmaId＝2837539＆fromenter＝YY％D3％EF％D2％F4．

［4］李玉斌，麻秀成．现代网络远程教育模式分析［J］．电化教育研究，2000（6）：28－34．

［5］张小红，许勇，刘林．从教学模式视角谈网络在远程教育中的应用［J］．广东广播电视大学学报，2008（1）：24－26．

［6］林廷劈．网络远程教育的制约因素和发展对策［J］．三明高等专科学校学报，2001（2）：97－99．

［7］徐四海．现代远程开放教育教学模式研究———“导学议练”互动教学模式的实践与思考［J］．江苏广播电视大学学报，2008（5）：5－8．

语音视频篇5

I空间――战队独享属地

何谓I空间？它就是ET为网游玩家们专门设计的一个独享的属地，除了独立的空间以外，还有多人语音及视频沟通，特别适合于战队使用。由于是一个战队独享的网络交流空间，不会为其它人所打扰。另一方面，战队非常需要一个在网络上的聚集地，就像现实中部队需要扎营一样，否则就会一盘散沙。无论是比赛开始前，还是平时训练，或者是比赛结束后的交流，I空间都为所有队员提供一个共同的家，大家不仅可以用文字聊天，更可以实现清晰、同步的语音视频聊天，这也是I空间区别于其它聊天室的最重要的部分。

多人视频――从虚拟到现实不再是梦想

北京的玩家和海南的玩家，大家可以通过I空间的语音视频聊天系统，即可以听见了声音，而且也看到了人，这个时候玩家与玩家之间的友情将变得更加真实。I空间可以同时实现十人在线同时进行视频聊天，而且画面十分淅流畅，几乎和电视一样。I空间将视频窗口引入群体聊天室，通过两个音视频窗口轮流进行多人音视频交流。这种全新的清晰音视频聊天气氛，与时下大部分文字聊天室具有截然不同的区别。

多人语音――游戏的临时指挥系统

I空间的多人语音与多人视频的原理几乎相同，只不过主角由摄像头变成了麦克风，可以支持10人同时在线语音。之所以单独提出来，是因为一些对操作要求较高的游戏，使得你不得不全神贯注于游戏，而只能采用语音来沟通。比如星际、帝国、魔兽以及目前火爆中反恐精英等网络游戏。现在一些CS战队在平常比赛时则采用了I空间的语音功能作为一个游戏“语音指挥平台”，队友们可以实时报告位置、敌情，以及指挥掩护、冲锋。

多媒体文件播放――游戏之外的友情世界

语音视频篇6

关键词：配音；高职日语；实训

中图分类号：G642 文献标识码：A 论文编号：1674-2117（2016）20-0097-02

根据观察，大部分高职学生自主学习日语的方式是观看自己喜欢的日本影视或动漫作品。如果教师能够将这些影视资源合理地引入日语教学，一定会更好地调动学生学习日语的积极性。因此，笔者在实际教学中，从提高学生学习积极性的角度出发，结合高职学生的学习特点，尝试将配音方法引入实训教学。

分组分工

配音实训的基本要求是在规定的时间内，学生通过小组协作学习并制作一个完整的日语配音作品。要完成配音实训的任务，学生必须自主地去学习音频剪辑技术和视频剪辑技术。由于学生信息技术素养有高有低，所以学习音频剪辑技术和视频剪辑技术所花费的时间不尽相同。因此，教师在分组时要实施“控制分组”，根据学生的特长分配具体任务，即每个小组都要有技术人员、文稿人员、声优人员及后勤人员（小组成员共同兼任）等。

收音（配音）准备

学习音视频剪辑技术和制作配音片段台词文稿，是配音实训的两个重要前提。

要顺利完成收音，学生应首先确定收音方式，这要求各组技术人员要掌握相应的音视频处理技术。实训开始前，教师应采用“导生制”，对每组的技术人员进行培训，使其能够对小组的成员展开技术指导和支持。技术人员掌握技术方法后，将所需要的视频片段从原视频中截取出来。

小组的文稿人员反复观看视频片段，写出配音片段的台词文稿。台词的准确度在很大程度上影响着配音作品的完成结果，因此，文稿人员需要耐心、细致地去听配音片段中的每一句台词，做到准确无误。台词听写的过程不仅锻炼了学生的听力，还能够拓展日语知识储备，从而达到促进学习日语的目的。

声优人员得到文稿后要尽快地熟悉台词，并展开练习。练习时要反复听取原视频中的发音、语气，要透过画面去揣测说话人的心理活动，并通过跟读来强化训练。这往往能够激发学生的学习兴趣，使其产生“沉浸感”，从而帮助学生更好地掌握日语真实的语用环境。同时，教师要定期跟进小组的训练进度，指导并纠正学生的台词发音。

收音（配音）环节

当声优人员完全熟悉台词后，后勤人员协同技术人员安排好场地、设备、收音环境，就可以集中组员进行收音了。

通过实训过程的分析，我们发现，根据每组技术人员和声优人员的喜好，学生们主要形成了集中连贯收音和组员分别收音两种收音方式。

集中连贯收音是指所有声优人员集中在同一场所，一边看着无声的视频片段一边按照台词的顺序进行配音，类似于拍戏时的“一镜到底”，技术人员得到的是一条完整的音轨。这种方式的好处在于，声优人员可以根据画面来判断自己台词的快慢和应该做出的情感表现，而且可以得到一个依照视频片段顺序排列的配音音频文件，进而减轻了技术人员后期制作的负担。但是，这种收音方法对声优人员的要求较高，一个地方错了可能就要整体重来。

组员分别收音是指每个声优人员单独完成自己所负责部分的配音，配音过程中可以看着视频片段，也可以不看。这就相当于拍戏时单独拍摄不同演员的戏份，技术人员得到的是多条零散的配音音轨（每个声优人员至少一条），因而后期需要花费大量时间来整理音轨，任务繁重。但是，声优人员在配音时如果出现错误，只需要把错的地方重新配音即可，不需要整体重来，节省了配音时间。

后期制作

收音工作结束后，技术人员需要将自己小组的音轨进行整合保存，进入后期制作环节。后期制作主要工作有对轨、原声消音、音频混缩、合成作品。

首先，需要在音频剪辑软件中同时打开原视频音轨和声优人员的配音音轨。处理集中连贯收音时，只需将原视频音轨和配音音轨同时播放，监测两条音轨的声音是否能够对齐。如果有偏移的地方，只需要略微拖动配音音轨调整即可。处理分别收音时，需要技术人员先边听原视频音轨边进行排序，若出现声音偏移的情况，要通过加减速、拖动音轨位置等方法对配音音轨进行调整。接着是对轨，对轨是整个配音实训中最耗时的操作，技术人员要反复听原视频音轨和配音音轨，不断地对比调整两种音轨。因此，在这个过程中，学生不仅能够锻炼听力，而且通过对比还能了解声优人员在日文发音上的问题与差异。原声消音的过程中，不同的技术人员根据自己掌握的技术，可以任意发挥，但基本要求是要对原视频音轨进行消音的声道重新混缩。消音完成后，将消音音轨和之前对好的配音音轨放在一起混缩保存，就可以得到一个成品的配音文件。最后，借助视频剪辑软件，用成品配音文件替代原视频的声音，保存压制，配音实训作品就正式完成了。

评价环节

实训的最后是集中评价环节，教师结合每个小组的表现，根据最终作品的配音水平、后期制作和台上发表情况综合考虑，将自我评价、小组自评、互评、教师评价按照一定的权重计算出相对公平合理的分数。

存在的问题及对策

1.技术指导问题

在技术指导环节，由于教师指定的相关软件相对专业，短期内技术人员并不能很好地掌握软件用法，因此，教师在进行技术指导时应及时调整策略。例如，在实训前，要求技术人员自选剪辑软件并自主学习教程，指导教师可以提供技术指导。

2.团队协作问题

协作能力在学生以后的就业中占有重要位置，而完成实训任务，除了培养学生的技术能力，最重要的是能够提高其团队协作能力。而在实训过程中，一定会出现因为组员不配合导致实训无法进行的情况，这时，教师就要积极指导，帮助学生重拾团队精神，从头再来，最终顺利完成配音工作。

结语

配音实训作为高职日语教学的一次创新尝试，利用了现代信息技术，将学生从传统的单一教学模式带到一个多维度的“立体化”教学模式。学生投入到实训中，不仅能锻炼日语听写、会话能力，拓展知识面，还可以通过画面了解日语的语言环境，借助实训的机会掌握音视频技能，并在互帮互助中体会团队合作的重要性，为将来走上社会成为成功的职业人打下基础。

语音视频篇7

关键词:媒体信号处理器数字视频记录系统 DVR

能爱畜数字信号处理器虽然具有很高的运算速度,但在多媒体信号处理领域,特别是视频处理方面,通常需要复杂的接口,性能不到充分发挥。媒体信号处理器针对多媒体应用优化了内核结构并提供丰富的媒体接口。与通用的数字信号处理器相比,媒体信号算是器在多媒体应用领域,性能更强大,使用更方便。本文介绍一种典型的媒体处理器MAP-CA,它是由美国Equator公司和日本日立公司联合开发的宽带高速媒体处理器;介绍应用MAP-CA设计的一个对视频、语音进行实时编解码处理的多媒体信号处理子系统,它与另一个嵌入式控制子系统配合,实现了一个完整的数字视频记录系统(DVR)。

图1 MAP-CA功能结构框图

1 媒体信号处理器MAP-CA简介

媒体信号处理器MAP-CA(Media Accelerated Processor for Consumer Appliances)是Equator公司继MAP1000、MAP1000A以后推出的一款高集成度的宽带数字信号处理芯片,特别适用于多媒体信号处理器的产品,如机顶盒、数字电视、视频会议系统、医用图像产品、数字视频编辑设备和办公自动化产品。MAP-CA是针对MPEG1、MPEG2、JPEG、H.263以及语音编码而优化设计的。由于媒体信号处理的核心算法都是基于MAP-CA的软件平台,可以通过增加、删除或者增强一些功能模块,比较容易对最终系统进行升级和改进。因此,MAP-CA是多媒体信号处理应用的一个现成有效的解决方案。

1.1 MAP-CA处理器结构

MAP-CA具有一个高度流水线的超长指令字(VLIW)结构的内核,每个时钟周期可以进行四次操作。具有支持32位和64位的数据运算单元以及专用多媒体运算而设计的128位运算单元。MAP-CA拥有较大容量的片内存储空间,包括32KB的指令缓存和32KB的数据缓存。它具一个非常性能的DMA控制器(DataStreamer)和两个为视频信号处理而设计的协处理器:一个可用来进行变长编、解码,另一个用来实现视频滤波。

MAP-CA的功能结构框图如图1所示。

MAP-CA媒体信号处理器自身拥有PCI总线、SDRAM总线和Flash ROM信号的接口,这些使它可以方便地构成一个独立的系统或者构成一个计算机的子系统,通过PCI总线与计算机主CPU通信。

1.2 MAP-CA处理器功能特性

区别于通用数字信号处理芯片,MAP-CA媒体信号处理器具有两个特性:

(1)针对多媒体信号处理设计的内核。工作在300MHz时,MAP-CA可以实现1800MIPS的运算能力。同时,它对多媒体信号处理的支持包括可以实现有两个为视频编、解码而设计的协处理器——一个变长编码协处理器和一个视频滤波协处理器;提供对视频层叠加的直接支持;同时它具有强大的DMA控制器(DataStreamer),为多媒体的大数据量提供了足够的带宽保证。

(2)丰富的媒体接口。包括视频和语音标准接口,如:ITU-R BT.256/601格式的输入、输出;MPEG-2的传输层接口输入TCI(Transport Channel Interface);IEC958和IIS数字音频输入、输出接口;支持外接RGB监视器。

由这两个特性可以看出,MAP-CA媒体信号处理器为以多媒体信号处理为中心的设计提供了一个非常强大又方便的解决方案;同时,作为一款数字信号处理芯片,它继承了DSP设计方案所拥的可以软件升级、灵活的优点。

图2 数字视频记录系统原理框图

2 基于AMP-CA的数字视频记录系统设计

数字视频记录系统DVR(Digital Video Recorder)是随着信息技术,特别是多媒体技术的发展而逐步发展起来的。它可以应用于任何需要对场景进行记录或监控的场所。视频记录系统包括模拟视频记录系统和数字视频记录系统。新一代的数字视频记录系统一般可以分为两类:一类是基于计算机(或工控机)的视频记录系统;另一类是脱机独立的(或嵌入式的)视频记录系统。后一种方案更加灵活、方便,可以实现DSP层面上的软件编、解码,针对不同的应用领域,给予特别的编码支持,实现最优效果。数字视频记录系统要求实现的主要功能包括视频、语音的采集、编码、存储、播放,并对记录下来的视频、语音的压缩信息进行解码、检索、回放。

采用MAP-CA媒体信号处理器,设计了一个脱机独立的视频记录系统。根据功能需要要,将本系统划分为两个子系统:一个是以MAP-CA处理器为中心的媒体信号处理子系统;另一个是用嵌入式芯片实现的控制子系统。图2为本系统的原理框图。

嵌入式控制子系统主要实现对系统工作流程的控制,实现数据记录、查询功能,提供用户交互接口和扩展通信接口。

以MAP-CA为中心的媒体处理子系统主要实现视频、语音信号的采集、播放和编码、解码。下面对媒体处理子系统做成一步的说明。

笔者充分利用了MAP-CA媒体处理芯片在多媒体应用方面的强大其内部结构对视频、语音信号编、解码的优化;提出了高效的视频编码方案;利用它提供的方便的视频、语音信号接口,实现了这个既可独立应用,又可以嵌入到主控系统媒体信号处理子系统。图3为系统的原理框图。

图3 基于MAP-CA的媒体处理子系统原理框图

本系统可在实现一路视频的编码、解码的同时,进行一路语音的编、解码工作。它包括两个子进程;编码进行和解码进程。编码进程工作原理:采集视频信号并转换成ITU-R BT.656格式数字码流,输入给MAP-CA芯片,对视频进行编码;同时采集语音信号并转换成IIS格式码流,输入给MAP-CA芯片,对语音信号进行编码;将视频和语音编码数据通过PCI总线传递给控制子系统。解码进程工作原理是:将控制子系统传递过来的视频音频码流进行解码,并转换成相应的ITU-R BT.656和IIS格式码流,传送给输出接口芯片,转换成相应的复合视频和模拟音频并播放。本系统还支持VGA显示,可直接连接监视器。

语音视频篇8

YY语音，手机端与PC端能同时登录。但是不能同时进入频道。PC端进入频道，手机端依然可以观看短拍，神曲等已经录制好上传的视频。直白的讲就是手机端与PC端不能同时进入频道。

YY语音最早用于魔兽玩家的团队语音指挥通话，逐渐吸引了部分传奇私服用户，最后发展为穿越火线游戏用户必备的团队语音工具，笔者曾在穿越火线游戏中目测，99%的战队收人广告后面都挂着YY语音ID。2009年初YY娱乐用户已经形成了可以和游戏用户抗衡的用户群，YY语音的娱乐公会开始逐步超越游戏公会，人气也日渐增长。时至今日，YY语音已经成为集合团队语音、好友聊天、视频功能、频道K歌、视频直播、YY群聊天、应用游戏、在线影视等功能为一体的综合型即时通讯软件。

由于YY语音的高清晰、操作方便等特点，已吸引越来越多的教育行业入驻YY，开展网络教育平台，比较著名的有外语教学频道、平面设计教学频道、心理学教育频道等等。

（来源：文章屋网）

语音视频篇9

在微视频的制作过程中,对于内容要有一定的筛选。课标要求的重点一定要讲、学生理解的难点一定要讲、学生平时练习时的疑点和易错点一定要讲,但是学生自己能看懂学会的一定不要讲[2]。本文作者在微视频制作的过程中也遇到过此类问题。例如人教版初中生物七年级上第二章第一节种子萌发的这节课,此节课的教学重点在于种子萌发的条件和种子萌发的过程。作者刚开始将这两个教学重点放入了一个微视频中,视频时间长达20分钟,知识点内容极为繁多。观看者在看完视频后,并不能完整地叙述出微视频中所讲的内容,并产生了知识间的混淆。之后,作者又将这两个教学重点分别制作成两个微视频,时间控制在了8—10分钟,再一次让观看者观看发现效果明显不同。观看者能够清晰地表述出学习到的知识内容,并对知识有一个较好的归类。这说明,微视频内容的容量不易过多,而是在于精。选取完内容之后,教师要对内容进行全面的了解。主要是为了微视频内容的呈现能够思路清晰,且有一条明显的教学主线。教师要为学生建立一个知识内容框架,以便于学生对知识的吸收理解。内容中不可出现一些与主题无关的信息,这会分散学生的注意力。整体内容要有较强的逻辑性,能让学生跟着微视频的思路,一步一步进行学习。

2课件制作

2.1课件简洁明了

课件最主要的是简洁明了,能够让学生以一目了然。课件制作一般教师都会使用PPT,本文作者制作课件的过程中也用到了PPT。制作PPT的过程中应该注意一下几点要求:(1)PPT的背景选择颜色不宜鲜艳,过于鲜艳的背景不仅会分散学生的注意力而且会造成视觉疲劳。(2)PPT背景中避免广告的植入,有些PPT背景上会有一些文字,这里建议可以使用美图秀秀软件进行处理。(3)字体的颜色要与背景相搭,字体大小适中,(4)同一张PPT中不能出现大量文字,要适当的留出一些空间,大量的文字会给学生带来压迫感。(5)尽量避免使用超链接,在后期的录制过程中,使用超链接可能会影响录制的进度,容易出现问题。

2.2课件的制作基于教学设计

制作一个课件,教师必须整体把握课件内容,这就要求教师能够在制作课件前做好教学设计。就像上课一样,教师要清楚明白每一个教学环节,把握好整体节奏。一份优秀的教学设计可以提高课件质量。

3语言表达

一个成功的微视频在很大程度上归功于教师讲解时的语言表达能力。微视频中不出现教师,只有课件和声音,所以学生完全是跟着教师的声音来学习课件。教师的语言表达也是极为重要的。然而很多老师已经习惯了传统课堂的教学模式,在讲解过程中会比较严肃,死板,甚至有些教师还会有一些口头禅。要把握录制过程中语言表达的感觉对教师来说有一定的困难。

3.1咬文嚼字清晰

咬文嚼字清晰是语言表达最基本的要求。微视频不同于传统的课堂,教师是不出现在视频当中的,学生只能听到教师讲解的声音,所以对于老师的发音有较高要求。避免出现读错字或是发音不标准,所以要求教师在录制前最好准备讲解稿,并对讲解稿中的每一字都有准确的发音。教师可以在正式录制之前尝试念几遍讲解稿,准确把握讲解稿中每个字的发音。

3.2节奏感

微视频的讲解全过程不可能只有一个节奏。节奏感包括语速和语气,教师要根据知识点的难易程度适当的调节讲解的节奏感,对于较为简单的知识点可以加快语速,对于较难的知识点则要放慢语速并适当加强语气让学生意识到该知识点的重要性。

3.3亲切感

教师在讲解过程中需要注意的是语气的亲切感,让学生有一种一对一教学的感觉,而不是严肃死板的感觉。对于亲切感的控制,教师可以去观看一些电视中的宣传片,模仿配音者的语气。尤其是在微视频刚开始的时候,用动听的声音去引领学生进入微视频的学习。录制后期处理录制过程中有很多细节需要注意。例如选择什么样的场所进行录制,是否使用麦克风,怎么控制麦克风距离等等,录制的过程要考虑到诸多因素。后期的处理包括视频的剪切视频,导出,渲染,加字幕等等,如何做才能提高微视频制作的工作效率呢？以下为本文作者在制作微视频过程中的体会。

4录制、后期处理

4.1场地的选择

录制过程是一个连续的过程,虽然可以通过后期的剪切来进行修改,但是若能一气呵成就能提高视频的流畅性。所以在场地的选择方面,教师必须选择安静的场所,要保证录制过程中出现其他的杂音影响微视频效果。本文作者在录制的过程中选取了较高楼层无人的空教室。

4.2软件的选择

随着微视频的发展,录屏软件也再不断的更新中,每个录屏软件都有其自身的优缺点。经过多次实践本文作者推荐使用CamtasiaStudio录屏软件,软件提供了录屏、视频剪辑和编辑、视频菜单制作等功能,教师可以方便地进行屏幕操作的录制和配音,还可将视频进行压缩,导出的视频也可以转化为各种格式。CamtasiaStudio录屏软件是目前使用频率最高的录屏软件,具体操作可以通过网络搜索得知。

4.3麦克风的使用

在微视频录制的过程中最好使用麦克风,减少杂音,收音效果也可以提升。一般教师录制微视频过程中会使用到笔记本电脑,若不使用麦克风会产生很多杂音,尤其是普通的笔记本电脑收音效果不好。选择使用麦克风,在讲解过程中要保持好麦克风与嘴之间的距离,太远则声音太小,太近会出现明显的呼吸声或是爆破音,影响微视频的声音质量。如何控制距离,就需要教师重复去试验,直到把握到最舒服的声音。

4.4适当停顿

教师讲解过程中要适当停顿,停顿时间不宜过长,控制在2—3秒较为合适。若停留时间过长,学生会产生疑惑,打乱思维。在遇到一些问题思考的时候,可以提醒学生先按暂停键,完成思考后在继续观看。例如作者在制作微视频“绿叶在光下制造有机物”时,其中有一个环节需要学生去对实验的流程去进行排序。这里就没必要留出一段时间,可以提醒学生先按暂停键思考完之后再继续观看。这样既不影响微视频的时间,而且也可以让学生自己去控制思考时间。

4.5后期处理

后期处理主要包括视频的渲染、导出、剪辑、加字幕,这一系列的操作都可以通过软件去完成。其中在导出的过程中,选择保存视频的格式一般选择MP4格式。选择大众的格式就可以在一般的电脑中进行播放。

5总结反思

语音视频篇10

关键词:广播电视;语音监测;海外广播网;测试

近年来，我国的广播电视监测事业发展迅猛，广播电视监测工作已经进入到了一个新的时代。广播电视监测工作已由过去被动的事后服务转变为积极主动的过程服务，由过去靠人工的、传统落后的手段变为数字化、网络化、自动化的方式，由过去单一的无线广播监测向广播电视全面、全方位监测发展。2002年，广电总局实施“走出去”工程，以加强我国对外广播电视宣传，同时，在海外建立了环球广播监测网，加强对中国国际广播电台对外广播效果和租机/互转的电台播出的监督、检查，提高对外广播效果。我国在各国的驻外大使馆都有相应的信号采集设备，收集当地的对华广播落地信号，然后对信号进行压缩，通过互联网传回到国内的监测中心，进行内容监测，从而发现对我国社会、经济、外交等有用的重要信息。截至目前，海外监测网已经在50个国家相继建立了54个无人值守遥控监测站点，每日可监测中国国际广播电台对外播出的32种语言、383个频率的广播效果。将音频识别、文本检索、图像处理等新技术实际应用于目前主要靠人工完成广播信号内容监测业务，充分利用计算机对于海量节目内容自动处理具有的速度快、效率高、可以控制漏检率等特点，将众多的先进技术服务与广电监测行业相结合。

一、音频内容综合处理技术

(一)广播音频信号介绍

真实应用环境下的语音现象非常丰富，以海外监测机房短波音质广播语音为例(如图1)。图1海外监测机房典型语音广播音频信号具有以下特点:1．信号在传送过程中，由于干扰使得包含的噪声很不稳定，主要表现在两方面:一是同一个音频片段里的噪声变化不均匀，时大时小;二是不同的音频片段的信噪比差别较大。这就使得有的音频片断的信号质量好一些，而有的音频片断的信号质量却很差。2．由于是电台节目信号，所以包含了各种各样的音频类型，既有纯净的语音，也有带音乐或噪声背景的语音，既有音乐歌曲，也有强噪声或者如鼓声之类的环境音，可以说是一种语音、音乐和噪声的混合音频信号。3．信号中含有大量的片头曲，这些片头曲多是一些具有音乐背景的报台信号，或者是不同节目的报幕信号。由于片头曲中含有一定的语言信息，所以即使是同一个电台或同一个节目，不同语言的片头曲也是不同的。此外，由于广播电台的节目时刻表比较固定，同一语言播出的节目中的片头曲相对也是固定的，这是一种固定音频信号。4．广播节目都是以一定的频率被播出的，在信号传送过程中，某一频率的节目信号有可能被其他节目的同一频率信号完全干扰或临界干扰，如果两个节目的语言不同，那么将出现两种或多种语言重叠或交叠出现在同一个音频片段中的现象。此外，一个节目中也有可能出现多种语言，比如一些语言教学节目。5．信号中的说话人不仅有主持人，也有大众百姓，大家说的话不仅有母语，也有方言，甚至还有非母语的外国人在说话，而且说话的内容和说话人的性别也是随机的。此外语音不仅仅是广播语音，在一些人物采访节目中常常出现电话或麦克风语音。6．由于广播节目是每天24小时不间断地播出的，所以采集的数据将是海量的，此外，虽然每段音频的采集时长约57秒钟，但是如果去除其中的非语音成分，剩下的语音时长却是不定的。从这些特点中不难看出，实际真实的音频信号是非常复杂的，这给语种识别系统的实际应用带来了很大的困难和挑战。音频内容综合自动处理系统的主要处理对象是语音，对其内容的分析和监测对象包括内容、关键信息、语种等。

(二)音频内容处理技术基础框架

当前主流语音处理技术主要基于统计框架，一般包括以下流程和处理步骤，如图2所示。图2基于统计音频内容计算技术框架1．建模数据库的建立:主流音频内容计算技术建立于统计理论之上。系统性能对建模数据的依赖很大，因此要求建模数据与测试数据在应用环境、说话方式等方面有一定的相关性，否则无法保证系统在应用环境下的性能。2．特征的选择与提取:特征是区分不同类事物最根本的属性，选用不同的特征将带来不同的区分能力使得类内高偶合、类间低聚合。因此对不同的识别任务，必须精细选择所使用的特征。3．建模技术:模型用于刻画不同类别之间的本质差异，一个好的建模方法会显著提高系统性能。目前主流的建模技术分为两类，一类基于最大似然估计方法，其本质是通过描述特征在空间中的分布参数来刻画类别统计特性，最常见的模型是高斯混合模型GMM;另一类是基于区分度的估计方法，其本质是通过描述不同类别的分界面信息来刻画类别间的特性，最常见的模型是支持向量机模型SVM。

(三)面向真实应用环境的音频内容处理框架

对真实应用环境语音的处理，需要包括以下流程和处理步骤，如图3所示。图3音频内容综合处理系统框架针对不同格式的输入语音进行格式转换，统一为wav格式。对于广告或含有片头曲检出的任务，可以采用固定音频检索技术，把片头曲或广告作为模板，从音频信号中检索，根据片头曲所对应的语种来确定整个音频片段的语种。由于信号中含有多种音频类型，而诸如音乐和噪声之类的音频几乎不含所需信息，所以需要把音频信号分成语音、音乐和噪声，以去掉这些不含语种差别信息的非语音信号。针对特定应用环境，需要对音频信号的质量进行评估，对信号质量较差的语音降低识别的置信度。由于音频信号含有噪声较大且不均匀，提取特征时需要采取一定的噪声消除技术。对于经过增强后的语音，进行内容识别、语种识别及敏感信息监测等内容计算任务。

二、音频内容综合处理技术测试

(一)场景分析

音频场景分析的目的是把输入音频文件分成语音和非语音，并把其中的非语音成分去掉，仅把语音提出来用于后续内容计算。建模数据库:从海外机房2月15号至28号不同语言播出的节目中人工整理用于音频分类的训练数据，考虑到训练样本的平衡，其中语音60M，非语音60M，非语音包括音乐和噪声各30M。整理时把带强音乐背景的语音归为音乐，带强噪声背景的语音归为噪声，而带弱音乐或弱噪声背景的语音归为语音。然后使用语音和非语音共120M数据训练第一个分类器，用来区分语音和非语音，使用音乐和噪声共60M数据训练第二个分类器，用来区分音乐和噪声。特征选择:常用的音频分类特征有16种，其中时域特征包括7种，即过零率(Zero－CrossingRate，ZCR)、高过零率帧的比率(HighZero－CrossingRateRatio，HZCRR)、短时能量(Short－TimeEnergy，STE)、低能量帧的比率(LowShort－TimeEnergyRatio，LSTER)、短时能量的均方值(Root－Mean－Square，RMS)、静音帧的比率(SilenceFrameRatio，SFR)、子频带能量分布(Sub－bandEnergyDistribu-tion，SED);频域特征包括9种，即频谱差分幅度(SpectrumFlux，SF)、频谱质心(SpectrumCentroid，SC)、频谱散度(SpectrumSpread，SS)、频谱截止频率(SpectralRolloffFre-quency，SRF)、子频带周期(Sub－bandPeriodicity，BP)、噪声帧的比率(NoiseFrameRatio，NFR)、线谱对(LinearSpec-trumPairs，LSP)、线性预测倒谱系数(LinearPredictionCep-stralCoefficients，LPCC)和梅尔倒谱系数(Mel－FrequencyCepstralCoefficients，MFCC)。而一些非常用的音频特征包括短时基频(Short－TimeFundamentalFrequency，STFF)和谱峰轨迹(SpectralPeakTrack，SPT)等。我们以高过零率帧的比率HZCRR和噪声帧的比率NFR为例，说明其对语音/非语音和音乐/噪声具有区分能力。图4HZCRR和NFR对语音/非语音和音乐/噪声具有区分能力如图4所示，对输入音频分别提取高过零率帧的比率HZCRR和噪声帧的比率NFR特征，可发现语音/非语音HZCRR特征、音乐/噪声NFR特征的数值范围具有明显差别，可作为特征区分两者。为此，根据不同特征间的区分能力及其互补性，系统采用了如下特征:表1音频分类特征集音频分类类型特征集语音/非语音BP、HZCRR、LPCC、LSP、LSTER、MF-CC、RMS、SBE、SC、SS、ZCR纯语音/非纯语音BP、LPCC、LSP、MFCC、RMS、SC、SF、SFR、SS、ZCR音乐/环境音BP、NFR、RMS、SBE、SF、STE建模技术:采用基于支持向量机的区分度建模方法。支持向量机(SVM)是一种基于现代统计学习理论的模式识别方法，在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。SVM是一种两类样本分类器，其目标是在超高维(一般几十万维)空间找到一个分类超平面，使得它能够尽可能多的将两类样本数据正确分开，同时使分开的两类数据点距离分类面最远。一般包括两个部分，即特征从原空间到超高维空间的映射和分类面学习。

(二)音频信号质量评估

音频场景分析的目的是按照我国《广播节目声音质量主观评价方法和技术指标要求》的规定，对广播节目语音质量进行自动评价。特征选择和提取:通过比较和分析，系统选择语音能量、噪声能量、信噪比、音乐/噪声/语音比例、基于谱熵的可听度估计几种特征。建模技术:采用多特征的线性加权分类技术，各特征的加权系数经验确定。测试原理如下图所示:图6测试原理性能分析:对于机器自动评分和人工评分不一致的结果，请值班员帮助判断。值班员的判断结果分为三类，即人工和自动评分均可、自动评分偏差和人工主观性因素偏差。对于自动评分偏差，其主要影响因素是算法参数，为此根据人工判断结果对算法参数做适当调整，再次迭代，直至过程收敛。首先对3月1日、5日、10日和14日的这4天采集的约6000个音频片段人工进行主观打分，然后由系统对这些音频片段自动评分，比较人工主观评分和系统自动评分的一致性，实验结果如下表所示。表3系统自动评分与人工主观评分的一致性日期3月1日3月5日3月10日3月15日评分一致性66．01%64．78%65．18%67．61%从总体实验结果来看，整体上人工和系统打分完全一致的比率为66．5%，对评分不一致的音频片段进行分析，我们发现:a)经人工确认，两种打分均可的约占16．2%;b)由于人工疲劳等主观因素使得人工评分不正确的约占9．7%;c)由于算法不够精致使得系统打分偏离人工打分1级的约占5．6%，2级及其以上的约占2．0%。为此，我们以系统评分与人工评分差半级为正确，差两级以上错误，重新统计评分的一致性时，上述4天打分一致性的整体平均正确率可达到98%。

(三)语音增强/去噪

语音增强/去噪的目的是增加带噪语音的信噪比，从而提高后续内容计算模块的识别准确性。方法:针对背景噪声在不同环境不同时刻下的变化特性，提出了在系统前端采用自适应滤波器来对语音信号进行降噪处理的方法，有效地提高了信号层的区分度。同时，我们在模型端对传统的基于匹配的声学模型训练算法(MULTI－TRAIN)进行了改进，吸纳了MULTI－TRAIN训练方法中在训练数据中加入应用环境背景噪声的做法，采集了大量不同种类和不同信噪比下的背景噪声，对训练数据进行“污染”，并用“污染”后的数据训练声学模型，增加了训练和测试环境下模型的匹配程度。进一步，我们在频谱域提出了一种基于功率谱密度最小均方误差估计(PSD－MMSE)的语音增强算法。该算法在功率谱域用指数分布来建模平稳随机噪声，并用混合指数分布来建模语音的能量谱，构建了纯净语音功率谱密度的最小均方误差估计器，显著地改善了语音质量。此外，我们还在对数谱域提出了一种采用高阶泰勒级数展开来近似对数谱域非线性环境函数从而寻求最合适的补偿形式以补偿对数谱域特征的方法。该方法还同时考虑了对数谱高斯混合模型的建模精度问题，并且引入了能量补偿的思想，提出了采用类似谱减的方式来补偿语音能量的方法，并研究了把对数能量和对数谱结合在一起补偿的可能性。特点:由于背景噪声在不同环境不同时刻下的变化特性，噪声的估计与补偿必须自适应地进行;另外，构造补偿滤波器时要尽可能精确。

(四)音频模板检索

音频模板检索的目的是根据对固定出现的音频片断，入广告、片头曲等，对广播节目进行定位。特征选择和提取:多个子频带的能量比率。模型:直方图重迭匹配。系统特点:1．抗畸变:首先采用频谱的掩蔽和增强技术对音频进行畸变消除和归一化处理，从而降低音频中的噪声、扭曲等畸变，提高了方法的鲁棒性，然后采用临界频带划分策略，提取多个子频带的能量比率作为基本特征，并建立每个片头曲的直方图模型;2．搜索速度快:基于直方图重叠相似度最小的快速搜索策略，并在搜索过程中选择多尺度步长预测技术提高搜索速度。性能分析:从2月15号至28号的部分音频片段中截取90个不同语种的片头曲模板，然后从3月1号至5号的部分音频片段中再截取77个与前90个没有重复的片头曲模板，每个片头曲模板的时长从2秒到20秒不等。基于上述片头曲模板，对3月6号至14号的13512个音频片段进行检索。检出2950个文件含有片头曲，检出率为21．83%，其中错误的有15个，误报率为0．51%。

(五)语种识别

语音识别技术可自动识别出语音段所属的语言。特征选择:采用美化感知线性预测系数(MF－PLP)和移动差分倒谱特征(SDC)，高维空间映射后增加长时平均，从而包含了更多的时序信息。建模技术:采用基于支持向量机的区分度建模方法。建模数据库:17个语种，如表4。每个语种经过自动去除片头曲、噪声和音乐处理，每个语种的训练数据约2－3小时。系统特点:反映语种间差异的是音素间的连接关系，因此必须增加特征的时间跨度已反映时序信息，系统征经过区分性变换后，做长时平均并增加SDC特征。性能分析实验1:识别性能随不同建模数据库规模的变化每个语种训练模型的数据量从1．5小时、2．5小时到3小时逐渐增大，，得到每个语种的模型之后，经过识别，实验结果如表5．5所示。从表中可以看出，随着训练数据量的增大，语种识别的性能也会相应地提高。实验2:识别性能随不同语种数的变化按照语种名字的汉语拼音字母的顺序，我们从6个语种开始，每次增加2个逐渐增加到16个直至17个语种，并且基于每个语种3小时的数据量训练模型，对相应的测试数据进行识别，识别性能如图所示。图7识别性能随不同语种数的变化从图中可以看出，随着要识别的语种个数的增多，识别性能逐渐下降，这主要是因为增加的语种容易和其他语种相互混淆。实验3:模型优化基于200M数据训练的17个语种的模型，对3月1日至14日的音频文件进行识别，识别过程中，每个语种都有部分语音，其信号质量不差(不低于3分)且时长也较长(不低于30秒)，但是该语种的模型得分有时候虽然是第一名却比较低，甚至有时候不是第一名，使用这部分语音更新训练相应的语种模型，上述思想称之为从错误中学习。下面我们使用3月6日至31日的语音句子，基于17个语种测试比较从错误中学习前后的识别正确率，实验结果为:原模型的识别正确率为90．85%，更新后模型识别正确率为93．58%，提高了2．73%，这说明从错误中学习是非常有效的。

(六)语音识别技术

语音识别技术可将连续输入的音频流中的语音部分，翻译成对应的文本信息。特征选择:采用美化感知线性预测系数(MF－PLP)。建模技术:采用隐马尔科夫模型(HMM)描述时序信息，采用高斯混和模型(GMM)描述音素特征分布信息。建模数据库:300小时广播语音，新唐人电视台120小时，美国之音、BBC、CCTV等节目180小时。系统特点:系统采用的关键词检出框架如图8所示。图8连续语音识别系统框架系统模型包括声学和语言模型两套，声学模型的作用为将语音特征转换为对应的声学音素序列，语言模型在此基础上完成音到字的转换。系统基于国际主流LVCSR技术，针对汉语语音做了具有创新性的贡献，突破了在汉语LVCSR总体框架、声调和声韵母联合建模、大规模语音语料库处理、系统搜索、网络语言增强的语言建模和无监督声学模型训练等方面的关键技术。

(七)敏感信息/时段监测

敏感信息监测技术可从连续输入的音频流中，发现预定的敏感信息。特征选择:采用美化感知线性预测系数(MF－PLP)。建模技术:采用隐马尔科夫模型(HMM)描述时序信息，采用高斯混和模型(GMM)描述音素特征分布信息。建模数据库:300小时广播语音，新唐人电视台120小时，美国之音、BBC、CCTV等节目180小时。敏感时段监测:在敏感词汇检出基础上，根据单位时间加权置信度信息分析某个时段的敏感程度。系统采用的关键词检出框架如图5．9所示。系统中采用了一种改进的两阶段处理架构的关键词检出方法。在第一阶段，系统不仅为词表中的词、静音和可能出现的噪声建立模型，同时还要为非关键词建立若干填充模型。在第二阶段，系统对检出结果的置信度进行计算，从而判断该结果是否可信。为实现在真实环境条件下的应用，我们在资源允许的条件下采用了尽可能精细的填充模型来解决填充模型选择困难的难题。同时，通过在一般情况下采取全局回溯技术，及在口语发音变异比较严重的场合采用局部回溯技术，有效的解决了关键词检出率不高这一问题。此外，我们还通过采用关键词网络和填充网络进行独立扩展裁剪，大大降低了系统性能对于进入填充模型的惩罚系数的敏感度，从而解决了调节进入填充模型的惩罚系数困难这一问题。图9关键词检出系统框架目前，国际上广泛采取的置信度估计手段主要有三类，即基于正确/误识两类分类器、基于对数似然比和基于后验概率的方法。考虑到对数似然比的方法和基于后验概率的方法在实际应用条件下具有很强的互补性，而基于正确/误识两类分类器可以作为上述两类方法有益的补充。我们在实际应用中，提出了综合利用上述三类方法。

(八)综合性能测试

在综合使用了音频信号质量评估、语音增强/去噪、音频模板检索、语种识别、音识别技术、敏感信息/时段监测。测试数据与环境:√2月1号－28号全部数据，共47960个文件，去掉临时测试文件，剩下46275个测试文件√17个语种模型√228个片头曲模型，其中包括集外语种(蒙、孟、乌、越)的40个片头曲模型√测试语音时长约72%为117秒，约28%为57秒√不限定话长和得分按天统计结果如下表所示:28天平均工作量减轻为46．84%，系统误报率仅为1．61‰。进一步分析可以发现，日减轻工作量与当日可进行处理的文件有强相关性，如图所示，说明系统运行性能稳定。

三、结语

音频内容综合处理技术在海外广播监测网中的成功测试，是先进的科学技术和实际应用的良好结合点。先进的技术结合了实际工作需求，反复测试和优化，系统的性能得到显著提升。将不能达到100%正确率的技术运用到需要100%准确的监测工作中，真正减少人工监测工作量50%。基于语种识别的国际台广播质量及效果综合评估集成技术，提出一套计算机自动打分方法并结合人工评分反复修正。并从真正减轻值班员工作量角度出发，综合利用语种识别结果的置信度技术，把识别结果分为确定而无需人工再次干预和需人工评判两类。另外，结合短波广播语音的噪声强、音乐多、存在片头曲等现象，不断增加和完善系统流程，集成了包括片头曲识别、音乐/噪声/语音分类、语音增强在内多项技术集成创新。基于语种识别的国际台广播质量及效果综合评估集成技术的研发进程显示，测试期间对数万个文件进行测试和分析，对常用的片头曲模型进行了重新优化和增减，对质量好识别性能差的句子针对性地进行了分析和试验，从错误中学习，进一步优化了模型。基于语音抗噪声技术，对信噪比较低的短波信道音质的广播语音实现了高可靠度的语种识别，在15个语种条件下识别准确率达到95%。同时应用基于似然比检验的识别结果置信度技术，对语种识别结果的错误部分进行自动剔除，使得置信度为100%的识别结果无需人工确认，将每天100小时的人工监测工作量减半，大大提高了监测工作的质量和效率。

作者:赵琰单位:国家新闻出版广电总局

参考文献:

［1］杜利民．自动语言辨识研究［J］．电子科技导报，1996(4)．

［2］高升，徐波，黄泰翼．基于决策树的汉语三音子模型［J］．声学学报，2000(6)．