旅游文化法英翻译资源库构建方法

时间:2022-12-27 09:17:50

旅游文化法英翻译资源库构建方法

摘要:对于我国丰富的旅游资源,传统的人工翻译已经无法满足人们的需求,为此,基于机器学习构建陕西旅游文化法英翻译资源库。确定资源库的总体架构和功能架构,利用朴素贝叶斯分类算法对资源训练,根据计算得出的文本属性权重大小对资源文本分类划分,通过机器学习自学习过程补充和完善资源库中的资源属性,保证资源库中资源具有较高的准确性,至此完成资源库的构建。通过性能测试结果可知,应用所提方法后法英翻译资源库在忠实度、流畅度和可理解度方面均有了明显提升,为旅游翻译工作者提供了强有力的基础保障。

关键词:机器学习;法英翻译资源库;朴素贝叶斯分类算法;陕西旅游文化;资源训练集

语言沟通是人类交流的主要方式,但是各个国家和地区都有其当地语言风俗,这些差异导致旅游文化对外输出[1]遇到了巨大的阻碍。翻译是打破这个阻碍最有效的途径,但是这不仅要求翻译人员具备专业的翻译知识,还需对当地旅游文化资源具有一定的了解,否则就会出现景点介绍不到位、文化现象翻译得不够传神等现象。在当今信息快速发展的时代,人工翻译显然不能满足社会发展的需求,相关学者开始研究利用机器翻译替代人工翻译,于是构建关于旅游文化的翻译资源库,整合经过系统处理的高质量的翻译资源[2],如李华勇[3]重点研究了翻译汉语语料库TED-CN中构筑的语义韵与其在原创汉语语料库BJKY中构筑的语义韵存在显著性差异,为提高翻译质量提供了参考;严世芸等[4]构建中医药现代知识体系,确定中医药名词术语内涵,以推动实现中医药的现代化与对外传播。国外学者提出了一种将连续词嵌入与深度学习相结合的并行句子生成方法[5]。引入跨语言语义诱导双语信号,实验表明,对于低资源语言,在缺乏外部资源的情况下,可以取得较好的翻译效果。陕西西安作为六朝古都和世界四大古都之一,钟楼、雁塔、兵马俑、华清池等我国优秀历史文化,高度体现了我国古代劳动人民的智慧;关中盆地地势平坦、土质肥沃、水源丰富,号称“八百里秦川”。随着我国对外开放的不断推进,这些优秀的旅游资源也要适应跨地区、跨国家的需求。本研究在机器学习的基础上,提出了陕西旅游文化法英翻译资源库构建方法。根据对资源库的设计要求和应用目标分析,明确了资源库的总体架构和功能架构。通过构建资源训练集,为后续进行分类计算提供数据输入,利用朴素贝叶斯分类算法对资源训练集进行分类计算,找出概率值最大的资源文本,并根据机器学习过程,完成对资源库中资源的补充和完善,由此完成资源库的构建。通过性能测试结果表明,本研究所设计方法可保证翻译的准确性和流畅性,对于旅游文化翻译工作具有较高的参考依据。

1构建陕西旅游文化法英翻译资源库

基于机器学习的法英翻译资源库,是在机器学习的基础上,利用自学习特性不断分类处理资源,确保资源库具有极高的分类准确性。完善包含法英双语分词系统、机器自学习过程、资源训练集和词库的分布式并行计算等主要部分的资源库。

1.1旅游文化法英翻译资源库构建需求分析

旅游是一种特殊的跨文化交际类型。这项工作的主题是译者为了达到成功的交际而被要求进行的干预程度。他们的任务不是展示他们在特定主题上的知识,而是展示他们的调节能力,从而使之适用于与原著所针对的类型必然不同的旅游者。因此,翻译人员应该学会为旅游者提供足够的信息。同时译者在语言和解释层面的决定在一定程度上会让读者参与其中,从而影响旅游目的地的推广。国际外宣翻译工作在城市对外旅游宣传中起着非常重要的作用。但是目前对法英翻译资源库中资源分类方案和资源分类训练集的研究较少[6],本研究基于文本分类的思想,将机器学习和朴素贝叶斯分类算法结合起来建立了资源分类系统。与文本分类思想不同的是,由于旅游文化的翻译具有不确定性、复杂性和多变性,这使得本研究构建的分类系统应具备更强大的分类性能、自学习性能和过滤性能,以便更好地适应复杂多变的翻译内容。为了资源库的稳定运行,本研究设计的资源库隶属于分布式并行环境。该环境采用分布式并行计算框架DaSyx,该框架具备较高的计算性能,为资源库的稳定运行提供了强有力的保障。

1.2法英资源库架构

从对法英资源库的设计目标分析,将资源库的总体架构分为预处理模块、朴素贝叶斯分类模块、机器学习模块、资源训练模块、DaSyx框架模块和日志服务模块。总体架构构成如图1所示。DaSyx框架在法英资源库中的主要功能是为资源库提供分布式并行计算服务,确保资源库可以高效、稳定地运行。从法英资源库的应用目标分析,资源库的功能架构主要由机器学习系统、资源训练集、法英分词系统和朴素贝叶斯分类器4个部分组成。运作流程为法英资源库获取到待分类文本[7]后,首先通过法英分词系统对文本信息进行分词操作,并将无用信息滤除掉,完成分词后将结果传送至朴素贝叶斯分类器中;分类器通过文本训练集计算出文本信息的概率值,并将结果按照从大到小的顺序分类,匹配出最大概率值所属的资源类型;完成匹配后的结果集通过机器学习系统与初始训练集结合,共同对文本的字词结构和特征权重不断进行优化更新,以保证翻译的准确度。资源库的功能架构如图2所示。将资源训练集分为n个初始化资源,并以文件夹的形式存储,每个文件夹中包含所属该类型的资源文本。不仅如此,资源训练集中还包含着分类计算所匹配的文本信息和计算结果[8],当达到触发器设定的阈值标准后则启动机器学习系统,进入自学习过程。完成自学习后,评估系统自动对自学习结果进行测试评估,只有通过测试后才能被永久保存在初始集中。

1.3构建法英资源训练集

法英资源训练集主要包含初始集和扩展集[9]两部分。初始集为初始资源类别,扩展集为扩展的资源类别。初始集通过机器学习不断执行自学习过程,进行资源的优化和完善,初始集主要用于资源匹配中。扩展集是初始集的进一步完善和补充,主要对未定义的资源类别[10]进行资源扩展。法英资源类别由多个资源文本构成,这些资源文本又同时构成了资源训练集,具体如图3所示。资源训练集中资源文本均以结构化的方式直接存储在系统硬盘上,使用时直接调用即可。

1.4基于朴素贝叶斯算法的分类运算

朴素贝叶斯分类器是在朴素贝叶斯公式的基础上实现的分类运算。假设资源库获取的待分类文本属性为X,用特征向量将其表示为X(X1,X2,X3,…,Xj);假设类别集合为S,已定义的类别集合为Si,用特征向量将其表示为S(S1,S2,S3,…,Si)。把X和Si的特征向量共同输入朴素贝叶斯分类器中,计算过程如式(1)(1)式中,P(SiX)表示X属于Si的概率值;P(XSi)表示如果X不属于Si,Si中包含X的概率;P(Si)表示X属于Si的概率值;P(S)表示所有给定资源类别的联合概率值。根据式(1)中S的定义计算,可知属于该资源类别的P(S)值为一个固定值,求解资源类别的过程就是求解max(P1,P2,P3,…,Pt)的过程,由此可将式(1)简化为式(2)。max[P(SiX)]=max[P(XSi)×P(Si)](2)又因朴素贝叶斯分类算法独特的“朴素性”,其特征向量X(X1,X2,X3,…,Xj)均可为独立存在的状态,可以将概率计算转换为对每个文本属性特征概率分布的乘积计算,如式(3)。式(6)给出了分类算法输出结果为Xj属于Si的概率值,由此可获得朴素贝叶斯算法的函数原型,以此函数原型为基础展开的分类计算可直接用于法英资源库的构建。由于朴素贝叶斯分类算法没有考虑各个文本属性之间的关系,只是为了提升计算速度,简化复杂的计算过程。但事实上,各个文本属性之间存在着多种关系,而且每个文本属性对分类计算的重要程度也不相同,所以朴素贝叶斯分类算法会与实际情况产生一定的偏差。为了将这种误差控制到最小,本研究采用了基于特征权重的朴素贝叶斯分类器,对资源训练集中的每一个文本属性都进行一次权重计算,以便于更好地区分不同的文本属性对分类计算的重要程度。该方法可以在一定程度上提高算法的分类精度,构成如图4所示。基于特征权重的朴素贝叶斯分类算法主要由待分类资源文本、朴素贝叶斯分类器、资源翻译列表和具有TF-UIDF权重的文本训练集组成。计算流程如下:资源库获取到待分类资源文本后,朴素贝叶斯分类器根据资源训练集中文本属性的权重和数量,得到资源文本属于每个资源类别的概率,并找出概率值最大的资源类别,把待分类的资源文本划分到该资源类别中。本研究利用增加了TF-UIDF权重的朴素贝叶斯分类算法,对文本属性具有更高的分类准确性。

1.5基于机器学习的法英翻译算法

机器学习自学习过程主要由评估系统、触发器模块、贡献度计算模块和文本集维护模块4部分共同完成。自学习过程如图5所示。文本集维护模块整合了资源训练集和匹配结果集的所有文本资源,并采用文件锁的形式存储资源,保证整个资源库资源的完整性。触发器模块作为自学习过程的启动模块,本研究对该模块设定了2个触发条件:匹配结果集容量触发和循环时间触发模式。贡献度计算模块主要为资源训练集和匹配结果集中的支持计算其贡献度大小。在资源库中,某个单词的贡献度可以看作为在分类计算时的重要程度。评估系统根据贡献度计算模块得出的结果对自学习效果进行测试评估。该系统包含了预替换过程、效果评估和确认替换3个模块。如果测试通过,执行预替换操作,否则不予替换。式中,vc为单词的词向量;uo和uw分别为在单词作中心词时使用的向量表征和外部词语时使用的向量表征。根据计算结果,将概率值最高的作为翻译结果输出。机器学习的自学习过程,是补充和完善的过程,在资源库中,只有通过不断的自学习,才能保证资源库中的资源具有较高的准确性,以应变复杂多变的翻译内容。

2性能测试

为了验证本研究所设计方法的有效性,对本研究构建的英法翻译资源库进行性能测试,共有10名外语系专业学生参加测试。

2.1测试内容

对采用本研究所设计方法和未采用本研究所设计方法翻译的两种译文从忠实度、流畅度和可理解度3方面进行打分。忠实度为评判译文是否忠实地表达原文意思,分为0—5分5个等级,打分结果取小数点后一位小数。流畅度为译文翻译是否流畅、正宗,分为0—5分5个等级,打分结果取小数点后一位小数。可理解度为评判学生(用户)是否可以理解翻译后的文章,分为0—5分5个等级,打分结果取小数点后一位小数。

2.2测试步骤

(1)不采用本研究所设计方法,对陕西旅游文化资源进行法英翻译。(2)采用本研究所设计方法翻译同一篇文章,并对翻译后的文章进行人工校对,如表1、表2所示的忠实度、流畅度和可理解度标准对两篇译文进行打分。(3)完成测试,统计打分结果。2.3测试结果测试结果如表3所示。由表3可以看出,虽然本研究构建的法英资源库并没有得到满分,存在一定的分类优化问题,但是采用本研究所设计方法后,在忠实度、流畅度和可理解度方面均比未采用本研究所设计方法前有了明显提升,均保持在94%以上。

3总结

旅游文化的翻译工作和研究受到国内外很多学者的关注,在进行翻译工作之前,构建高效的翻译资源库是必不可少的。本研究在理论语言学的基础上,结合机器学习,构建了陕西旅游文化法英翻译资源库,填补了该领域语言翻译资源库建设的空白。将需要检索的信息输入资源库中,就可得到包含检索关键词的所有陕西旅游文化法英翻译的语句和相关文章,完成对陕西旅游文化法英翻译资源库。翻译资源库不仅可以为翻译工作者提供参考依据,还可以帮助翻译工作者在翻译旅游文化资源时了解特殊的语句结构和语法特征。不仅如此,还可以在本研究构建资源库的基础上,提高机器翻译在旅游翻译领域的效率。但是,本研究在研究过程中,发现资源库还有许多新的问题需要解决,如双语文本语义和句法标注技术的更新等,将以此为重点进行下一步研究,进行更深层次的研究工作。

作者:王玉 单位:咸阳师范学院 外国语学院