大数据分析网络多语言探讨

时间:2022-11-12 10:11:30

大数据分析网络多语言探讨

摘要:由于网络多语言及时翻译系统受到字符串长度的影响,导致系统的翻译速度变慢且匹配率也比较低。为了提高网络多语言翻译系统在翻译速度和匹配率方面的性能,文中提出一种基于大数据分析的网络多语言及时翻译系统设计。将大数据分析应用到网络多语言及时翻译系统设计中,在大数据分析的基础上,通过网络多语言及时翻译服务器设计和网络多语言词法分析器设计,完成系统的硬件设计;采用特征提取算法实现网络多语言的语义特征的提取,结合设计网络多语言及时翻译算法,完成系统的软件设计。最终实现了网络多语言的及时翻译系统设计。进行仿真测试分析,测试结果表明,基于大数据分析的网络多语言及时翻译系统在翻译速度和匹配率方面性能均具有较好的提升。

关键词:网络多语言;及时翻译系统;大数据分析;语义特征提取;系统设计;仿真测试

在人类社会交往日益国际化的今天,英汉之间的语言翻译早已经成为学术界研究的热点,也引起了人们的关注,与此同时便产生了语言翻译系统[1]。对于网络上的多语言翻译来讲,提高其翻译质量,使得网络多语言翻译系统的使用频率逐渐升高,已经成为系统设计者和研发者需要思考的重点[2]。网络多语言翻译系统之所以能够被大多数用户认可,是因为很多研发者在设计过程中应用了机器翻译算法,从而有效提高了语言翻译的准确度。机器翻译是利用计算机编程软件将一种语言文本翻译成另一种语言文本的方式,实现多种语言之间的相互转换[3]。在大数据分析技术的背景下,语言翻译系统已经不仅仅局限于多种语音的在线识别,在语义、语境处理上也具有很好的应用效果。雷花等人对基于开源CMU⁃EBMT范例的机器翻译系统特性进行了深入的描述[4],包括词典归纳、单词和短语对齐、语料库索引和查找、语言模型、解码器和参数调整组件。为了说明CMU⁃EBMT最近增加的内容,给出的实验表明,当使用一组新的细粒度对数线性特征值来表示语言模型匹配长度以及语言模型概率时,在交叉验证的小数据英语⁃海地翻译任务上提高了0.16个BLEU点(相对值为0.9%)。余倩针对传统语言翻译系统存在语义语境模糊、准确度低的问题,将特征提取算法应用到交互式英汉翻译系统设计中,在引入特征提取算法的基础上,选取英语语义的最优翻译解,通过构建英汉语义之间的映射模型,实现英汉之间的交互最优翻译[5]。仿真结果显示,该系统可以在英汉翻译过程中寻找到语义之间的最优翻译解。基于以上研究背景,本文将大数据分析应用到了网络多语言及时翻译系统设计中,从而提高网络多语言翻译系统在翻译速度和匹配率方面的性能。

1网络多语言及时翻译系统硬件设计

1.1网络多语言及时翻译服务器设计

网络多语言及时翻译服务器由多个运行Moses程序的服务器和一个运行Apache程序的服务器组成,翻译服务器的种类不同,所承担的翻译服务也不同[6]。网络多语言及时翻译服务器通常由运行Apache程序的服务器进行统一管理,可以为系统客户端提供用户访问接口[7]。网络多语言及时翻译服务器结构如图1所示。网络多语言及时翻译服务器的设计分为两个步骤,先训练再解码,训练就是在庞大的网络多语言数据库中统计出用于求解最大概率的网络多语言数据,解码就是利用训练结果寻找出概率最大的解[8]。在训练过程中,通过对数据库中网络多语言数据的统计得到训练数据,解码是将输入的网络多语言数据通过解码算法找到最大概率的翻译结果。网络多语言及时翻译服务器的工作原理如图2所示。通过设计网络多语言及时翻译服务器结构,对网络多语言及时翻译服务器的工作原理进行详细设计,完成网络多语言及时翻译服务器设计。

1.2网络多语言词法分析器设计

网络多语言及时翻译系统中互相联动的功能模块一共有8个,构成网络多语言翻译流程的结构[9],如图3所示。在网络多语言翻译流程结构中,词性标注模块、词法分析模块以及浅层句法分析模块都能够分析网络多语言的源语言,而实例模式匹配可以将实例模式作为基础[10]。短语目标生成模块可以将翻译的译文输出。网络多语言翻译的知识源就是将真实网络多语言文本转变成词性序列的一个过程,因此需要设计一个词法分析器对网络多语言文本进行处理[11]。词法分析器的结构如图4所示。在网络多语言及时翻译服务器设计的基础上,设计了网络多语言翻译流程结构,利用词法分析器结构完成了网络多语言词法分析器设计,实现了系统的硬件设计。

2网络多语言及时翻译系统软件设计

2.1提取网络多语言的语义特征

在提取网络多语言的语义特征之前,先引入特征提取算法,将网络多语言的最佳语境提取到翻译过程中,实现网络多语言语义特征的提取。假设翻译过程中一共存在N种翻译语境,包括K类语义,网络多语言翻译语境的数量表示为Ni(i=1,2,⋯,K),K类网络多语言语义翻译用概率为Xi={X}i1,Xi2,⋯,XiN,其中Xij={i}=1,2,⋯,K;j=1,2,⋯,Ni为一个定向的n维向量结果。通过特征提取过程[12],将网络多语言翻译的语境翻译为:(1)式中αi表示能够达到网络多语言翻译的语义翻译语境。那么最佳翻译语境的选定过程为:(2)在式(2)的前提下,计算网络多语言非语义翻译的语境矩阵Sw和网络多语言语义翻译的语境矩阵SB,将其表示为:在网络多语言翻译的输出结果集中,求解网络多语言翻译输出的优化解向量R(X)。结合以下判决模型,来提取网络多语言的语义特征,具体步骤如下:

2.2设计网络多语言及时翻译算法

在设计网络多语言及时翻译算法时,利用大数据分析技术抽取出网络多语言文本,得到网络多语言长字符X,Y在文本中的相似程度,表示为:根据网络多语言词汇在文本中的具体位置,并与上下文相匹配,得到网络多语言翻译的模糊概念集。从网络多语言的语境出发,得到网络多语言文本语义和词性之间的关联性函数[15]。结合词与词之间的互信息特征,实现网络多语言的及时翻译,最后求解得到翻译规则的计算结果为:

3测试分析

3.1设定测试参数

为了验证基于大数据分析的网络多语言及时翻译系统的有效性,引入文献[4]网络多语言及时翻译系统和文献[5]网络多语言及时翻译系统,设定了测试参数,如表1所示。翻译系统测试实验需要注意测试对象选取的随机性,为了确保整个实验过程中的准确性,需要严格对实验对象进行条件限定,结果如表2所示。

3.2网络多语言翻译速度测试

以网络多语言句子数量为自变量,采用三种翻译系统测试了网络多语言翻译的速度,结果如表3所示。从表3的测试结果可以看出,文献[4]网络多语言及时翻译系统由于在硬件设计方面,没有对数据库中网络多语言数据进行统计,无法得到训练数据,导致该系统在翻译网络多语言时的速度变慢,经计算,网络多语言测试过程中的平均翻译速度为每秒4.275句子数;而文献[5]网络多语言及时翻译系统的性能相对要优于文献[4]网络多语言及时翻译系统,但是由于无法提取出网络多语言的语义特征,使网络多语言的翻译变得更加复杂,经计算,网络多语言测试过程中的平均翻译速度为每秒5.566句子数;而基于大数据分析的网络多语言及时翻译系统结合了以上两个系统的软硬件优势,加快了网络多语言的翻译速度,经计算,网络多语言测试过程中的平均翻译速度为每秒8.34句子数。

3.3网络多语言匹配率测试

网络多语言匹配率可以反映出网络多语言翻译系统的翻译准确性,分别采用文献[4]网络多语言及时翻译系统、文献[5]网络多语言及时翻译系统以及基于大数据分析的网络多语言及时翻译系统,测试了网络多语言的匹配率,结果如图6所示。从图6的测试结果可以看出,基于大数据分析的网络多语言及时翻译系统的匹配率是最高的,其次是文献[5]网络多语言及时翻译系统,而文献[4]网络多语言及时翻译系统由于没有计算网络多语言长字符在文本中的相似程度,导致匹配率的测试结果偏低。

4结语

本文提出一种基于大数据分析的网络多语言及时翻译系统设计,通过网络多语言翻译系统的硬件设计和软件设计,完成了系统的设计,实现了网络多语言的及时翻译。测试结果显示,该系统的性能是最好的。

作者:祁伟 牛欢 肖蕾 单位:广东技术师范大学 北京外国语大学