语料库范文10篇

时间:2023-03-23 12:46:22

语料库范文篇1

本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。

一、国外语料库概况

现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。

现在,国外的主要语料库还有:

London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodicmarking)。

AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。

OTA牛津文本档案库(OxfordTextArchive):英国牛津大学计算中心建立,有10亿字节。

BNC英国国家语料库(BritishNationalCorpus):1995年正式,使用TEI编码(TextEncodingInitiative)和SGML通用标准置标语言的国际标准(TheStandardGeneralizedMarkupLanguage,ISO8879,1986年公布)。

ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(TheassociationforComputationalLinguistics,ACL)倡议的数据采集计划(DataCollectionInitiative,DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。

LDC语言数据联合会(LinguisticdataConsortium):设在美国宾州大学,实行会员制,有163个语料库(包括Text的以及speech的),共享语言资源。

RWC日语语料库:日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文语料,语素标注量达1亿条。

亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参加。

为了推进语料库研究的发展,欧洲成立了TELRI和ELRA等专门学会。TELRI是跨欧洲语言资源基础建设学会(Trans-EuropeanLanguageResourcesInfrastructure)的首字母缩写,JohnSinclair担任主席,由欧洲共同体提供经费,其目的在于建立欧洲诸语言的语料库,现已经建成柏拉图(Plato)的《理想国》(Politeia)多语语料库,建立了计算工具和资源的研究文档TRACTOR(ResearchArchiveofComputationalToolsandResources),正在语料库的基础上建立欧洲语言词库EUROVOCA。TELRI每年召开一次Seminar。最近的一次Seminar在Lubljana,(Slovenia)召开(22.September–26.September.2000),主题是从语料库中自动抽取知识(Automaticknowledgeextraction)。ELRA是欧洲语言资源学会(EuropeanLanguageResourcesAssociationi)的首字母缩写,由Zampolli担任主席,ELRA负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。ELRA建立了欧洲语言资源分布服务处ELDA(EuropeanLanguageresourcesDistributionAgency),负责研制并推行ELRA的战略和计划。ELRA还组织语言资源和评价国际会议LREC(LanguageResources&EvaluationCongress),每两年一次。第一次会议于1998年在西班牙的Grenade举行;第二次会议在Athens(Greece)召开(31.May–02.June.2000),第三次会议于2002年在西班牙的LasPalmasdeGranCanaria召开(27.May–02.June2002)。

二、我国语料库的发展概况

(一)早期的汉语语料库

1、我国语料库研究的先河

在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河,在我国语料库的发展史上是功不可没功的。著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版,陈书前有“绪论”,说明“中文应用字汇”曾有多种,其中包括P.克仑茨(PastorP.Kronz)的研究和他自己的编写的《常用四千字表》。陈鹤琴做过两次统计,第一次统计使用了六种材料,包含554,478个汉字的语料,得不同汉字4261个;第二次使用包含34,818个汉字的语料,得出与4261个汉字相异的汉字458个。第二次统计所得的成果毁于战火,在《语体文应用字汇》中印出的只是第一次统计的结果。

陈鹤琴用的语料分如下六类:

儿童用书:127,293字;

报刊(以通俗报刊为主):153,344字;

妇女杂志:90,142字;

小学生课外作品:51,807字;

古今小说:71,267字;

杂类:60,625字。

书末附有“字数次数对照表”,这是按汉字在语料中出现的绝对频率排列的字表。

我国著名教育家陶行知先生为《语体文应用字汇》写了序言。序言中说:“他们(指“近代教育家”)对于一门一门的功课,甚至一篇文章,一个算题,一项运动,都要依据目标去问他们的效用。他们的主张是要所学的,即是所用的。......到了后来他们连学生学的字也要审查起来了。学生现在所学的字,个个字都是有用的字吗?自从这个问题发生就有好几位学者开始研究应用字汇。我国方面也有几位先生研究这个问题,其中以陈鹤琴先生的研究最有系统。他和他的助理九人先后费了二三年工夫,检查了几十万字的语体文,编成这本《语体文应用字汇》。这册报告未付印以前已经做了《平民千子课》用字的根据。将来小学课本用字当然也可以拿他来做一个很好的根据。虽然不能十分完备,但我想这本字汇对于成人及国民教育一定是有很大的贡献的。”(见陈鹤琴《语体文应用字汇》,商务印书馆,1928年)。

2、早期的机器可读语料库

从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:

汉语现代文学作品语料库(1979年),527万字,武汉大学。

现代汉语语料库(1983年),2000万字,北京航天航空大学。

中学语文教材语料库(1983年),106万8千字,北京师范大学。

现代汉语词频统计语料库(1983年),182万字,北京语言学院。

我们以北京语言学院的汉语词频统计语料库来说明早期语料库的情况。

1979年,北京语言学院(现在改名为“北京语言文化大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。

这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。

他们选取的语料可以分为如下四类:

报刊政论:44万字,占语料总量的24.4%。

科技和科普文章:29万字,占语料总量的19.8%。

口语材料:20万字,占语料总量的11.1%。

文学作品:89万字,占语料总量的48.7%。

整个语料共182万字。这样容量的语料,在当时已经是比较大的语料库了。

根据数理统计的原理,所统计的语料的总体个数必须达到一定足够的数量,才能保证统计结果符合客观实际。《现代汉语频率词典》的编者认为,如果常用词的出现频率不低于百万分之一,也就是在一百万次的场合,常用词的出现机会至少应该有一次,就可以保证统计结果的客观性。《现代汉语频率词典》实际上统计了182万个汉字的语料,因此,其抽样是合理的、经济的、适度的。

但是,国外在1971年进行英语词频统计时,所用语料量有5,088,721个词,包含不同单词86,741个,统计规模比《现代汉语频率词典》大得多。由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。与当前语料库的容量比较起来,《现代汉语频率词典》所依据的语料规模是小了一些。不过,尽管这样,《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。

这次词频统计得出了如下词表:

1、按字母音序排列的频率词表:共列出常用词16,593个,按音序排列,从中可以看出:

汉语中以Z、S、J、Y开头的词较多:以Z开头的词有1457个,占8.78%;以S开头的词有1327个,占7.99%;以J开头的词有1243个,占7.49%;以Y开头的词有1205个,占7.26%。

汉语中以E、O开头的词很少:以E开头的词只有64个,占0.38%;以O开头的词只有13个,占0.07%。

2、按频率递减的顺序排列的词表:在词表中,最常用词的使用频率相当高,前100个词占了语料总量的40%以上,前500个词占了语料总量的70%以上,前2562个词占了语料总量的85%,词表共有不同单词31,159个,这些词占了语料总量的100%。从前100个词到前500个词,不同的单词数增加了400个,百分比就增加了30%,而从前2562个词到前31,159个词,不同单词数增加了30,597个,百分比材增加了15%。由此可见,高频词对于百分比的增加有着很大的作用,而低频词对于百分比的增加,其作用是微乎其微的,往往要大量的低频词,才能使百分比增加一点点。

3、按使用度递降顺序排列的词表:

使用度是1954年尤兰德(Juilland)和洛德西盖(Chang-Rodsiguez)在计算西班牙语的词汇频率时提出的一个新概念,他们并且也提出了计算使用度的数学公式,根据这个使用度公式计算出的使用度,可以综合地反映单词在出现频率和分布率两方面的情况。

他们根据使用度的计算公式,计算了单词的使用度,并给出了按使用度递降顺序排列的词表。这个词表又分为两个表:使用度较高的前8000词的词表,使用度较低的词语单位表。

在使用度较高的前8000词的词表中,使用度在20以上的词共4186个,其词次累计占了全部语料(314,404词次)的90.1%。这说明,《现代汉语频率词典》所统计的语料中,有十分之九是用这4186个词写成的,这些词可以成为“常用词”的候选对象。

在使用度较低的词语单位表中,收入了使用度为5及小于5的词22,446个,这些词一般也都是低频词。在这种情况下,如果有的词的使用度和频率相匹配,则说明这些词的分布还是比较均匀的,这些词可以作为“通用词”的候选对象。

4、按语体分类的高频词表,又可再分为4个表:

a.报刊政论语体的前4000词的词表:本表共统计34种语料,29万词次(44万字),有不同词条数12,107个。前4000个词累计频率94.77%。其中一些政治词语,如“唯心、党派”等,在本表中出现频率都比较高,反映了政论语体的特点。

b.科普语体的前4000词的词表:本表共统计21种语料,20万词次(29万字),有不同词条12,364个。前4000个词累计频率92.27%。其中一些科技用语,如“纤维、合成”等,在本表中出现频率都比较高,反映了科普语体的特点。

c.生活口语中前4000词的词表:本表共统计18种语料,16万词次(20万字),有不同词条8263个。前4000个词的累计频率为96.65%。从统计数字可以看出,口语语体的用词量比前两种语体要少三分之一,但高频词出现的词次却相当多,前1000个高频词的出现频率比a表高出6%,比b表高出12%。这意味着,口语语体的用词量虽然不大,但是它们的出现次数对语料的覆盖面却相当大。

d.文学作品类前4000高频词的词表:本表共统计106种语料,66万词次(89万字),有不同词条23,622个。前4000个高频词累计频率为90.63%。这说明文学作品的用词量大,但是为了追求用词的多样化,即使是高频词的出现频率也比较低,这反映了文学作品词汇丰富多采的特点。

早期的这些语料库的具有如下特点:

①多数是采用手工键入的方式建立的,耗时耗力,缺乏规范,规模较小,重用性差。为了建设这样的语料库,需要付出艰辛的劳动,著名专家刘源教授(北京航空航天大学计算机系教授)在2000万字的语料库建设中积劳成疾,健康受到严重的损害。我国语料库的早期建设者的敬业精神是值得我们尊敬的。

②发现了汉语文本切分歧义的两种类型:北航和北语的语料库进行了词频统计,北航还进行了自动分词研究,发现了两种不同的分词歧义字段(AmbiguousSegmentationStrings,ASSs):交集型歧义字段和多义组合型歧义字段。

交集型歧义切分字段:例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,从而产生歧义。

多义组合型歧义切分字段:例如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。

梁南元(1987)对一个48092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个,多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。

③建立了初步的分词规范:1990年10月,在计算机界和语言学界的共同努力下,我国制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。

(二)部级语料库的建设

1991年,国家语言文字工作委员会开始建立部级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:

①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。

②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。

③使用领域的限制:语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。

这个语料库现在只完成了2000万字语料的输入和校对工作,尚未进行进一步的加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本很高,据说单是建立生语料库,耗资约200万人民币。

为了加工这个部级语料库,国家社科基金设立了社科重大项目“信息处理用现代汉语词汇研究”,希望利用该项目的成果来加工这个语料库。该课题分10个子课题:

①信息处理用现代汉语分词词表

②歧义切分与专有名词识别软件

③词的构造研究

④现代汉语词类及标记集规范

⑤汉语词类兼类研究

⑥现代汉语的语法属性描述研究

⑦现代汉语述语动词机器词典和槽关系研究

⑧汉语知识词典建立及词汇内部语义网络描述研究

⑨汉语文本短语结构的人工标注

⑩常用动词语义特征及词义搭配研究

现在,该课题已经结项,国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组,准备对部级语料库的2000万字的核心语料进行深加工,逐步把这个生语料库变为熟语料库。

(三)大规模真实文本语料库

1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:《人民日报》光盘数据库,北京大学计算语言学研究所,北京语言文化大学,清华大学,山西大学,上海师范大学,北京邮电大学,香港城市理工大学,东北大学,哈尔滨工业大学,中国科学院软件研究所,中国科学院自动化所,北京外国语大学日本学研究中心,台湾中央研究院语言研究所(筹备处)。下面分别加以介绍。

1、《人民日报》光盘数据库

收集该报48年的全部文字和图像内容,公开发行。

2、北京大学计算语言学研究所

该研究所建立了现代汉语标注语料库,与富士通公司(Fujitsu)合作,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多音词注音。

示例1:古城/n虽/c遭/v破坏/v,/w但/c它/r留下/v了[le5]/u契丹族/nz和[he2]各[ge4]/r民族/n,/w特别/d是/v汉族/nz劳动/vn人民/n共同/d开拓/v祖国/n北疆/s,/w创造/v我国/r历史/n文明/n的[de5]/u足迹/n。/w

示例2:19970310-01-002-0020/m[全国/n人大/j]nt代表/n、/w[陕西/ns西安/ns美术/n学院/n]nt名誉/n院长/n刘/nr文西/nr利用/v会议/n休息/vn时间/n创作/v了/u邓/nr小平/nr画像/n《/w与/p人民/n同/d在/v》/w。/w画像/n表现/v了/u邓/nr小平/nr同志/n祝愿/v祖国/n繁荣/a、/w人民/n幸福/a的/u伟大/a胸怀/n。/w(/w新华社/nt记者/n齐/nr铁砚/nr摄/v)/w

示例3:19970310-01-003-0020/m世纪/n之/u交/Ng,/w中华/nz民族/n正/d迎来/v前所未有/i的/u发展/vn机遇/n。/w十几/m年/q来/f,/w改革/v开放/v的/u不断/d深入/v,/w党/n的/u民族/n政策/n的/u贯彻/vn落实/vn,/w全国/n人民/n的/u大力/d支援/v,/w使/v我国/r民族/n地区/n经济/n和/c社会/n发展/vn步伐/n大大/d加快/v。/w加倍/d珍视/v和/c继续/vd发展/v这种/r好/a的/u局面/n,/w巩固/v发展/v各/r民族/n大/a团结/an,/w成为/v全国/n各族/r人民/n的/u共同/b愿望/n,/w也是/v在/p京/j参加/v“/w两会/j”/w的/u代表/n和/c委员/n的/u一致/a心愿/n。/w

经富士通公司检验,标注的正确率很高。

他们制订《现代汉语语料库加工手册——词语切分与词性标注》。切分规范中,主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。他们采用切分和标注相结合的原则来建立规范,在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在该规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。在标注规范中,规定了一般词性的标注规范和专有名词的规范。

此外,他们还建立了一个小型汉语树库:与新加坡国立大学计算机系合作,内容为新加坡中学语文教材(1995年),所有的句子都分析为树形图。

示例:

[zj[dj富士山/n[vp是/v[np日本/n的/u[np[mp一/m座/q]活火山/n]]]]。/w][zj[fj[fj[dj山峰/n[vp终年/d积雪/v]],/w[dj云雾/n围绕/v]],/w[vp只有/d[vp[pp在/p[np[dj空气/n干燥/a]的/u[np[np秋/n冬/n][np两/m季/Ng]]]],/w[vp才/d[vp能/v[vp[vbar看/v清/a][np它/r的/u全貌/n]]]]]]]。/w]

[zj[fj[dj[np[vbar多/d变/v]的/u气候/n],/w[vp更/d[vp[pp为/p它/r][vp[vbar增添/v了/u][np神秘/a的/u色彩/n]]]]],/w[vp甚至/d[vp使/v它/r[vp[vbar孕育/v了/u][np许多/m[np美丽/a的/u神话/n]]]]]]。/w]

[zj[dj[np富士山/n的/u景色/n],/w[dj四季/t不同/a]]。/w]

[zj[fj[fj[fj[fj春天/t,/w[fj[dj山顶/s[vp还/d[vp[vbar戴/v着/u][np雪/n帽子/n]]]],/w[fj[dj[dj[np山腰/n的/u雪/n][vp却/d溶化/v]]了/y],/w[fj[dj[np细碎/a的/u[np小/a花/n]][vp开遍/v山坡/n]],/w[vp[vbar远/a看/v][vp象/v[np[mp一/m片/q][np紫色/n的/u海洋/n]]]]]]]],/w[fj夏天/t,/w[fj[dj[np[np残/Vg雪/n]与/c[np山/n花/n]][vp倒映/v[sp湖/n中/f]]],/w[vp充满/v诗情画意/n]]]],/w[fj秋天/t,/w[fj[dj[np[np[np满/a山/n]红叶/n]与/c[np雪/n影/Ng]]辉映/v],/w[vp象/v[np个/q[np娇羞/a的/u姑娘/n]]]]]],/w[fj[dj冬天/t[dj则/c[vp是/v[np[ap纯/a白/a]的/u[mp一/m片/q]]]]],/w[ap庄严/a而/c圣洁/a]]]。/w]

北大语料库研究的特色是:

①规模大:加工成的熟语料已经达到2000万字,不久将达到2700万字,国内尚无先例。

②加工深:不仅做了切分和词性标注,而且部分语料还进行了短语结构分析,建立了树库。在大规模的语料库中,地名和专有名词都进行了短语结构标注。

③覆盖面广:人民日报的语料不仅包括新闻,还包括各种题材、各种风格、各种语体的文章,涉及社会科学和自然科学多种领域,有很广泛的覆盖面。

④正确率高:在自动加工的基础上进行了大量的人工加工,采用人机结合的策略,是语料库加工的正确率达到了国内最高水平,在国际上也是罕见的。

⑤无著作权纠纷:与《人民日报》达成协议,没有著作权问题。

3、北京语言文化大学

该校计算机系宋柔在远景校对系统的研究、开发和测试过程中一直注重采用大规模真实语料进行各种语言现象的统计、分析、检索、归纳。为此,他们与一些报社、出版社合作,收集、整理了一批综合性、规范性的电子文档资料,建立了一个大型的中文语料库(共约5亿字)。在获取语料后,又专门用工具软件或人工加工清理了语料,分别建立了10个语料库。各语料库情况如下:

《当代中国丛书》:150卷(约6千万汉字)

《中华人民共和国年鉴》:1997年语料(约200万汉字)

《新闻出版报》:1988年语料(约260万汉字)

《辉煌五十年湖南卷》:1949-1999年语料(约70万汉字)

《人民日报》:1993-2000年七年语料(约2亿字)

《人民日报市场报》:2000年语料(约1400万汉字)

《人民日报华南新闻:2000年语料(约600万汉字)

《人民日报华东新闻》:2000年语料(约500万汉字)

《经济日报》:1992年语料(约1820万字)

《新华社》:1994-1996年三年语料(约3793万字)

宋柔还建立了面向语言学研究的汉语语料库检索系统CCRL,可以让用户使用自己的生语料库和词典生成语料索引,进行检索。

此外,北京语言文化大学还建立了如下的语料库:

当代北京口语语料库(1992年)

现代汉语语法研究语料库(1995年)

现代汉语句型语料库(1995年)

现代汉语语料库(1998年,与香港理工大学中文及双语学系联合建立)

现代汉语语料库(1998年,与清华大学联合,为国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”而建立)

4、清华大学

该大学也建立了现代汉语语料库:1998年建立了1亿汉字的语料库,着重研究歧义切分问题。现在生语料库已达7-8亿字。

他们对于分词技术进行了深入研究,发现了伪歧义,提高了分词精度:计算机系孙茂松、左正平(1998)指出,切分歧义应进一步区别“真切分歧义”和“伪切分歧义”。譬如:同属交集型,“地面积”为真歧义(“这几块|地|面积|还真不小”“地面|积|了厚厚的雪”),“和软件”则为伪歧义(虽然存在两种不同的切分形式“和软|件”和“和软|件”,但在真实文本中,无一例外地应被切分为“和|软件”);同属组合型,“把手”为真歧义,“平淡”则为伪歧义。

他们还编制了信息处理用现代汉语分词词表,作为分词最重要的语言资源。

中文系罗振声建立了现代汉语句型研究语料库,从中总结出209种汉语句型。

清华大学智能技术与系统国家重点实验室与北京语言文化大学语言信息处理研究所联合研发的人工标注语料库HuaYu。这个语料库区别于其它类似语料库的特点:是:分布平衡,不仅仅限于新闻报纸。

HuaYu的分布见表1:

分类篇数汉字数比例标点符号数词次数比例

文学295880,05744%148,453760,33748%

新闻376600,49030%86,163438,09528%

学术29402,62320%52,823278,72818%

应用文258119,4886%28,72791,9296%

合计9582,002,658100%316,1161,569,089100%

表1HuaYu语料库的分布

其中文学语料的分布见表2:

分类篇数汉字数百分比标点符号数词次数

小说199648,79632.5%112,749566,730

散文3780,0674%10,34765,453

回忆录2950,4012.5%6,90838,338

报告文学1350,0192.5%8,22540,386

剧本1750,7742.5%10,22449,430

合计295880,05744%148,453760,337

表2文学语料的分布

他们对这个语料库进行了切分和标注。

语料示例如下:

我|rn认识|vgn王眉|npc的|usd时候|ng,|,她|rn十|mw三|mx岁|qnm,|,我|rn二|mx十|mw岁|qnm。|。那时|t我|rn正|dr在|pza海军|ng服役|vgi,|,是|vi一|mx条|qns扫雷舰|ng上|f的|usd三七|ng炮手|ng。|。她|rn呢|y,|,是|vi个|qng来|vgn姥姥|ng家|ng度假|vgi的|usd中学生|ng。|。那|rn年|qt初夏|t,|,我们|rn载|vgn着|utz海军|ng学校|ng的|usd学员|ng沿|pg漫长|a海岸线|ng进行|vf了|utl一|mx次|qv远航|vgx。|。到达|vgn了|utl北方|s著名|a良港|ng兼|vgn避暑|vgp胜地|ng,|,在|pza港|ng外|f和|pg一|mx条|qns从|pg南方|s驶来|vgi满载|vgn度假者|ng的|usd白色|ng客轮|ng并行|vgi了|utl一|mx段|qns时间|ng。|。进|vgn港|ng时|ng我|rn舰|ng超越|vgn了|utl客轮|ng,|,很|dd亲近|a的|usd擦|vgn舷|ng而|c过|vgi。|。兴奋|a的|usd旅游者|ng们|ki纷纷|dr从|pg客舱|ng出来|vgi,|,挤|vgi满|a边舷|ng,|,向|pg我们|rn挥|vgn手|ng呼喊|vgi,|,我们|rn也|dr向|pg他们|rn挥|vgn手|ng致意|vgi。|。

清华大学智能技术与系统国家重点实验室最近对HuaYu完成了语块库人工标注(200万汉字左右),并根据句子中动词类型和句子长度等因素,从中随机选取了20万词,进行语块标注,并进一步完成了完整的句法树标注。

语块标注示例如下:

[从/p[他/rN的/u身上/s],/,[我们/rN[看/v到/vB]了/u][一/m位/qN][跨越/v[中国/nS{CS近代/t和/c现代/t}的/u[共产主义/n战士/n][光彩照人/iV的/u楷模/n]。/。]

句法树标注示例如下:

[zj[dj[pp从/p[sp他/rN的/u身上/s]],/,[dj我们/rN[vp[vp[vp看/v到/vB]了/u][np[np[mp一/m位/qN][np[vp跨越/v[tp中国/nS[tp近代/t和/c现代/t]]]的/u[np共产主义/n战士/n]]][np光彩照人/iV的/u楷模/n]]]]]。/。

5、山西大学

他们根据不同的需要,建立如下不同的语料库,主要有:

汉语新闻语料库(1988年),250万字,山西大学,包括4部分:《人民日报》:150万字,《北京科技报》:20万字;《电视新闻》(CCTV):50万字;《当代》(杂志):30万字。

标准语料库(2000年):.以分词规范和语委词类标记集为标准的综合语料:70万字,其中10万字标到了小类。

特定加工的语料:

--标注中国地名:标注了280万字的语料库(含不同地名1793个,共出现11590次),建立中国地名库,共收88026个地名,同时建立中国地名用字库(3685个)和中国地名用词库(3917个)。地名识别正确率为86.7%,召回率为93.8%。

--标注中国人名:标注了300万字的语料库,建立了姓氏人名库,得出了姓氏用字频率表(729个)和名字用字频率表(3345个),中国人名识别的正确率为87.31%,召回率为95.23%。

--标注西文译名:标注了250万字的语料库,西文译名资源来自《英语姓名译名手册》和《新英汉词典》的《常见英语姓名表》,正确率为63%,召回率为98%。。

--标注中文组织机构名:标注了50万字的语料库,对组织机构名的结构进行分析,使用基于规则的方法。

--标注网上语料新词语:标注了150万字的语料库。

为了标注交集型歧义字段,建立了7.8万字的交集型歧义字段库,已标注510万字语料,分词正确率达97%以上,同时证实了交集型歧义字段只有惟一可能的正确切分结果的伪歧义,占歧义字段总数的94%。

他们还建立多义组合型歧义字段库:收录了133条多义组合型歧义字段,比较全面的反映了组合型歧义字段的实际情况。

6、上海师范大学

该校建立了3000万字的生语料库;根据北大的标注规范建立了300万字的标注语料库。他们还建立了100万字《作家文摘》的标注语料库,选取1997年的《作家文摘》,题材包括传记文学、历史故事、记实文学、人物特写、小说、散文、评论等,依靠手工进行标注,不仅完成了切词和词性标注,还完成了短语结构关系和结构功能的标注。加工层次深。

标注示例:

[zw他/rp[db[zc期望/vz着/ut]vp[db打/vs[dz[sl一/mx个/qi]mp[dz[zc漂亮/ax的/us]np[dz大/ax胜战/ng]np]np]vp]vp]jp。/w

其中的zw(主谓结构)、db(动宾结构)、dz(定中结构)、sl(数量结构)等都是结构功能的标记。

7、北京邮电大学的树库

他们在美国LDC的汉语句法树库的基础上进行自动获取语法规则的研究。LDC的树库包含新华社1994到1998年的325篇文章,包含4185颗树,10万个词。他们对LDC树库进行了改造,语法规则和分析模型参数都是通过LDC树库统计和训练得到。在抽取规则之前,进行了如下的预处理工作:

删除所有空的单词;

去掉所有的非终结符的功能标记;

去掉哪些只有一个孩子结点,且此孩子结点是非终结符的结点。

在此基础上进行规则的自动获取,采用改进的CYK算法自动获取了3690条规则,形式如下:

parent_symbol|current_symbol->RHS1….RHSnlog_probability

比如:NP|NP->NNNNNN-0.879602

8、哈尔滨工业大学机器翻译实验室(MT-Lab)的汉语语料库

容量约1GB。

9、香港城市理工大学的对比语料库

该大学语言资讯科学研究中心建立了LIVAC(LinguisticvarietyinChinesecommunities)语料库,其宗旨在于研究使用中文的各个地区使用语言的异同。这个语料库从1993年开始策划,在香港、澳门、上海、新加坡和台湾五个不同的地区,每日选定一天的报纸摘录其部分资料入库,资料的内容包括社论、第一版的全部新闻和文章、国际版、地方版、特写、评论等。每天收集的份量约两万字,如果已经达到两万字,不太重要的资料就只好割爱。从1995年7月到1997年6月的两年内,该语料库所收集的资料总字数为15,234,551字,经过自动切词和人工校对之后总词数约为8,869,900词。

统计结果表明,中文各地区所使用的词语,以双音节为最多,其次是三音节,再其次是四音节,再再其次是单音节,但是,单音节词语的使用频度却比较高,仅次于双音节词语的频度,而且远远超出其他音节词语频度之总合。

统计结果还表明,香港和澳门的用词相同率最高,香港与台湾、香港与新加坡的用词相同率居第二,香港与上海的用词相同率最低。从历史背景和社会情况来看,这个数字是可以接受的。因为香港与澳门距离很近,又都长期被欧洲国家管制,香港与台湾和新加坡的商务情况和社会结构之间的相同点都比香港与上海之间多,这种情况,在词语中必定会反映出来。

统计结果还表明,新加坡所用词语比较少,而上海的特有词语比较多,这似乎可以从新加坡华语并非当地社会生活的唯一语言,而上海在中国的特殊地位和经济活动非常活跃有关。

10、台湾的语料库

台湾建立了平衡语料库(SinicaCorpus,中央研究院)和树图语料库(SinicaTreebank,中央研究院)。两个都是标记语料库,有一定加工深度。语料库规模约500万字。

(四)口语语料库

1、中国社会科学院语言所

他们建立了现代自然口语语料库,包括一个旅馆预定口语语料库,搜集了2小时电话的对话,对话人数200人以上,进行韵律切分和句法标注,是wav文件,用SAMPA-C标音,C-ToBI2.0标注韵律,并转写成汉字文本;还包括一个无限制的自然对话语料库:14.2小时的对话,对话人数22人,进行韵律切分和句法标注,是wav文件,用SAMPA-C标音,C-ToBI2.0标注韵律,并转写成汉字文本。

语言所还正在建立现代汉语方言自然口语语料库,设计了1500种引导话题和多种采集自然口语的交际环境,其中,采用话题引导的方式采集的话题语料占60%,在说话人不知道的情况下现场采集的口语语料占40%。

2、中国科学院自动化所

该所建立了一个旅游咨询口语对话语料库和一个旅馆预定口语对话语料库,可以用于限定领域的口语理解模型、口语对话管理模型、基于统计的口语翻译技术等研究。

(五)双语语料库的建设

1、英汉双语语料库

北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。

哈尔滨工业大学的英汉双语语料库:1998年有3万句子对,已经进行了词性标注,正在扩充为40-50万句子对,在句子、短语、词汇三级实现双语对齐。

东北大学的英汉双语语段库:在双语语料库基础上,建造双语语段库,1999年构造了10万双语语段库,进行了基于语段的英汉机器翻译实验,正在以“机获人校”的办法建造100万双语语段库,拟扩充到500万双语语段库,进一步建造具有1000万语段的大容量网上英汉语段电子词典,研究电子词典中搭配短语获取算法,建造大容量网上电子英汉搭配词典。

外语教学与研究出版社:

--英汉文学作品语料库

--冯友兰《中国哲学史》汉英对照语料库

--李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库

国家语言文字工作委员会语言文字应用研究所建立了英汉双语语料库,其中包括一个计算机专业的双语语料库和一个柏拉图(Plato)哲学名著《理想国》(Politeia)的双语语料库。在这些双语语料库上,他们进行了汉字极限熵的测定和双语对齐的研究。

中国科学院软件研究所的英汉双语语料库:进行双语对齐算法研究。现有15万对英汉双语对齐句子库,已经切分和标注。

中国科学院自动化研究所的英汉双语语料库:购买LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对,并从英汉双解词典中摘取例句25000个句子对。

2、日汉对译语料库

北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库,内容以中日文学名著为主,兼收剧本、散文、政论文,原文和译文全文收录,部分名著收入多个译本。2000万字。进行自动切分和词性标注,部分文本进行语法和语义标注,采用SGML国际标准。

3、德汉双语语料库

山东海洋大学语言文学院研制的《蝴蝶》(王蒙小说)德汉对照语料库,用于德汉翻译对比研究,完全采用手工方式排比语料,主要比较了汉语的“了”与德语动词完成式的关系。规模很小。

4、汉日英分类熟语料库

复旦大学计算机系建立了容量为1GB汉日英分类熟语料库,包含数千个类别,数十万篇文章。

(六)少数民族语言语料库

1、维吾尔语语料库

新疆师范大学建立了200万词的维吾尔语语料库,拟发展到300万词。

2藏语语料库

中国社会科学院民族研究所建立了500万藏语字符的藏语语料库,拟进行切分和标注的研究。

3、蒙古语语料库

内蒙古大学建立了蒙古语语料库,进行了初步的切分和标注。

三、语料库的加工技术

(一)自动切分

在自动切分方面,提出的切分歧义技术有:“松弛法”(FanC.K.,TsaiW.H.1988),“扩充转移网络”(黄祥喜1989),“短语结构文法”(梁南元1990;姚天顺、张桂平等1990;YehC.L.,LeeH.J.1991;韩世欣、王开铸1992),“专家系统”方法(徐辉、何克抗等1991),“神经网络”方法(徐秉铮、詹剑等,1993),“有限状态自动机”方法(SproatR.,ShihC.Letal.1996),“隐Markov模型”(LaiB.Y.,SunM.S.etal1997;沈达阳、孙茂松等1997a;孙茂松、左正平等1999),“Brill式转换法”(PalmerD.D.1997)等。

此外还研究了人名识别技术、地名识别技术、机构名识别技术、新词语识别技术。

(二)自动标注

在自动标注方面,基于规则的方法主要解决标注中的兼类词问题;基于统计的方法主要有CLAWS算法、VOLSUNGA算法、HMM(隐马尔可夫模型)、TBED法(Transformation-BasedError-Driven,EricBrill于1993年提出的方法)

(三)自动短语结构标注

短语结构标注的结果,可以用短语结构语法树(P-Tree)来表示,也可以用依存树(D-Tree)来表示,有的系统采用了从P-Tree到D-Tree的转换技术,有的系统采用CYK算法进行短语结构分析。

(四)双语对齐技术

主要采用基于长度的方法、基于词典的方法以及把这两种方法结合起来的混合方法。

四、语料库建设中的若干问题

(一)语料库的规范与标准

我国中文信息界从1988年开始研制《信息处理用现代汉语分词规范》的国家标准,根据科学性、严谨性、稳定性、通用性、实用性和完整性(规范对现代汉语语言现象的覆盖率应该达到99%以上),经过三年时间的研究,七易其稿,于1992年批准为国家标准,标准号为GB/T13715-92。这个规范的主体结构分为主题内容与适用范围、引用标准、术语、概述和具体说明五个部分。由于汉语中语素、单词和词组的界限不够清晰,分词规范中除了基本上采用了《暂拟汉语教学语法系统》中词的定义,把词定义为“最小的独立运用的语言单位”之外,还特别地提出了“分词单位”的概念,把“分词单位”定义为“汉语信息处理使用的具有确定的语义或语法功能的基本单位”,并且指出,分词单位“包括本规范限定的词和词组”。“分词单位”的提出,巧妙地避开了关于词的定义的争论,协调了当时学术界的矛盾。

我国还研制了《信息处理用现代汉语常用词表》。由于汉语语言现象的极端复杂性,几乎每条规则都会出现例外,因此,分词规范提出了“结合紧密,使用稳定”的原则作为判定一个符号串是否可以作为分词单位的准则。但是,这个原则不够具体,实行起来往往见仁见智,从而造成不同系统中分词单位的不一致。所以,后来有的学者建议在规范之外,还应该根据规范提出一个词表来作进一步具体的说明,以利规范的实施。采用“规范+词表”的策略,这是很有远见的做法。1994年,该规范的主要制定者刘源教授等人根据现代汉语词频统计的结果,公布了一个《信息处理用现代汉语常用词表》,收词43570条,可惜,这个词表对于规范中的一些难点,仍然没有作出很好的处理,权威性不够。

台湾研制了一个《资讯处理用中文分词规范》。台湾的计算语言学会在1995年提出了《资讯处理用中文分词规范》,这个规范提出三条基本原则:1.分词单位必须符合语言学理论的要求;2.在信息处理上确实可行;3.能确保真实文本处理的一致性。另外还制定了一些辅助原则(合并原则、切分原则),以决定合并还是切分。该规范按照分词的难易程度,把分词规范分为信、达、雅三个不同的等级。信级标准是基本资料交换的标准;达级标准是机器翻译、情报检索等自然语言处理的标准;雅级标准则是分词的理想境界。这种分等级的做法有利于处理难易程度不同的分词作业。

我国还研制了《信息处理用现代汉语规范词表》。国家语言文字工作委员会在1995年提出研制《信息处理用现代汉语规范词表》的任务,目的在于从政府的角度,研制规范的现代汉语通用词表,以便作为大家遵循的、统一的通用词表,词表的规模大约6万至8万条,这项工作还未完成。现代汉语的词汇是一个复杂的体系,除了通用词之外,还有术语、方言词语、文言词语、专名词语(包括人名、地名、机构名等)、各种熟语(包括成语、惯用语、歇后语、谚语、格言等)。词语是不断发展变化的,随着社会的发展,还会出现大量的新词新语。信息处理会涉及到上述各种词语,因此,词表的制定,除了制定通用词表之外,还应该制订不同专业的术语词表、方言词表、文言词表、专名词表、熟语词表、新词语词表等。这是一项庞大的工程。这些词表的制订和规范化,对于我国计算语言学的进一步发展有着深远的影响。

我国还研制了《信息处理用现代汉语词类标记集规范》:该规范由教育部语言文字应用研究所计算语言学研究室研制,包括18个大类。信息处理用现代汉语词类标记集规范制订的主要原则有三个:①语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起某些参考作用。②允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。③词类标记集中的大类应能覆盖现代汉语的全部词。这个规范正在考虑提升为国家标准。

我国某些学者关注到国际上关于通用置标语言的进展。由计算机和人文科学学会(ACH)、计算语言学学会(ACL)和文学与语言计算学会(ALLC)联合提出了TEI(TextEncodingInitiative,文本编码倡议,1998年),其目标是为电子文本制订一套统一的编码规范,以推动语料存储格式的标准化,实现语料的交换和共享。

由欧洲MULTEXT、EAGLES和VASSAR/CNRScollaboration联合提出CES(CorpusEncodingStandard,语料库编码标准),可广泛应用于语料库的研制与开发。

1986年ISO正式了国际标准SGML(StandardGeneralizedMarkupLanguage,标准通用置标语言),标准号是ISO8879-1986.我国于1995年也把SGML语言作为国家标准,标准号为GB14814。冯志伟在《当代语言学》(1998年,第4期)的《标准通用置标语言SGML及其在自然语言处理中的应用》一文详细介绍过SGML语言。

XML(eXtensibleMarkupLanguage,可扩充置标语言)是SGML的一个子集,被广泛地用做语料库标注的元语言,通过DTD(DocumentTypeDefinition,文件类型定义)和Schema来规范XML文件,从而使表现与内容分离,规范与实现分离,具有良好的扩缩性。

我国语料库的建设将一定会采用通用置标语言作为描述语料库的元语言。

(二)语料库的资源共享

语料库的资源共享的方式有如下几种:作为产品出售;实行会员制;授予使用许可权;给非赢利目的的学术结构提供无偿使用。

(三)语料库的知识产权

随着语料库的广泛使用,语料库的知识产权问题越来越尖锐,以正式出版物为资源的语料库面临版权的问题。建议政府有关部门建立关于语料库资源的版权法规,建议中国中文信息学会出面协调。

(四)语料库加工中的统计垃圾

由于电子文本的普遍使用,语料资源的获取变得越来越容易,我国大规模的真实文本语料库其规模已经达到5亿字。美国计算语言学会的ACL/DCI数据采集计划指出,如果以文本形式存储语料,语料库的容量一般可以为1亿词次以上,将来可以达到万亿词次的数量级。随着语料库容量的不断增大,语料统计中的数据稀疏现象会越来越严重。宋柔在统计语料库中的词语接续对时发现:“随着语料库规模的增大,新增加的接续对中的垃圾逐渐会占大部分甚至绝大部分。垃圾主要分布在统计到的低频度接续对中,主要来源是分词中专名识别错误。”应该看到,在统计垃圾中蕴藏着许多正在萌芽的新的语言现象,如“喷塑、蒜农、危改、市话、高检”等低频度的新词语,由于在词典中没有存储,都可以在统计垃圾中找到。如何真确地对待统计垃圾,避免统计中的数据稀疏现象,变垃圾为有用的语言资源,是大规模真实文本处理的一个新课题。

参考文献:

1、J.Sinclair,ReflectionsoncomputercorporainEnglishlanguageresearch[M],1982.

2、北京语言学院语言教学研究所,汉语词汇的统计与分析[M],外语教学与研究出版社,1985年。

3、冯志伟,计算语言学基础[M],商务印书馆,2001年。

4、冯志伟,语料库语言学与机器翻译[M],《信息网络时代与日本研究》,山东大学出版社,1999年。

5、刘开瑛,中文文本自动分词和标注[M],商务印书馆,2000年。

语料库范文篇2

利用语料库研究语言或者语言变体就是语料库语言学。语料库语言学形成了独特的研究范式,包括研究目的、研究对象和研究方法。各种语料库为包括阅读在内的教学提供了丰富的素材。教师可从中提取大量的语言素材,创造真实语境,摆脱了传统教学的一些弊端。基于语料库的研究主要从三个方面开展:词汇、句法和语篇。下面我们从这三个方面简述语料库研究的思路。词汇是指词素、单词、连续的短语和词块等。这是语料库研究的优势所在。在词汇方面,Sin-clair通过对nakedeye的探讨提出了语料库中词项分析的思路。具体来说,在词汇分析时,首先检索一个或者多个词项,在索引行中观察分析词项的搭配情况,概括词汇的搭配关系,归纳出与词项有关的类联接。然后基于这些形式上的分析可进一步探索词项的语义倾向问题以及词项的感情色彩等语义韵问题。语言句法层面研究关注的焦点是句法结构,或者称为型式。在语料库研究范式下,对句法结构的研究需要对语料库中的语料进行词性标注,并使用正则表达式进行复杂检索以深度挖掘。目前研究最多也是技术操作上最为成熟的句法结构为类联接。类联接是句法层面的“结伴关系”,包括词的类联接、词组或短语的类联接、词类或语法类的类联接,是“搭配的更高层次,与语言的句法层面有密切关系”。通过类联接不仅可以探讨语义韵等语义方面的问题,还可以研究某些结构所体现的社会文化属性,从而洞察语言的语体和语用等方面。

二、基于语料库语言学的读写教学模式构建

(一)悉尼学派基于语类的读写教学法

前两个阶段侧重阅读教学,而后两个阶段重点是写作教学。所有四个阶段处于循环中。在设定的真实的情景中,教师与学生磋商、互动以充分理解阅读文本,同时学生不断获得教师关于语类的知识,直至能够单独完成语篇的写作。

(二)语料库语言学视角下的读写教学模式构建

阅读和写作的结合在语料库语言学框架下有方法和技术上的保障,再加上系统功能语言学悉尼学派语类理论的坚实理论基础,在基于语类的读写教学法中引入语料库和语料库方法具有极大可行性。因此,我们提出构建语料库语言学视角下基于语类的读写教学模式。在此教学模式中,阅读教学包括前后相连的两个阶段:建构知识场和建立语篇模式。在前一个阶段,对于阅读文本,通过语料库工具的词表生成功能和主题词生成功能,获得其词表/词簇表和主题词表,观察词表/词簇表,尤其是主题词表,通过主题词获得文章的语场方面的信息。当分析多个阅读文本时,则能更好体现语料库及语料库技术的优势。建立语篇模式阶段则更多的依赖传统的方法,但可以运用基于语料库的方法检索、分析我们提出的假设。写作教学包括合作创作语篇和独立创作语篇两个阶段。这两个阶段充分利用阅读教学中习得的词汇、句法以及语篇知识,体现了阅读对写作的促进作用。合作创作语篇是为独立创作语篇做准备。在写作教学阶段,语料库及其技术主要在独立创作语篇阶段介入,用于分析学习者的文本,特别是当分析多名学习者独立创作的语篇时。写作阶段的分析将用于进一步的阅读教学,体现了写作对阅读的反拨作用。这样,读、写就构成一个循环。在流程图中,语料库对大学英语读写教学的作用被充分发挥。主要体现在四种情况:①是指语料库在阅读教学中的应用:第一,在阅读阶段,在阅读之前,亦可在阅读之后,通过语料库工具(如AntConc)的词表功能和主题词功能,获得其词表/词簇表,通过语料库工具的链接功能在语境学习重点单词或者词组,必要的时候辅以从其他大型语料库中提取的相关单词或者短语的例句,进行词汇的拓展练习。也可以观察词表/词簇表和主题词表,通过主题词推测文本的主旨大意,即获得语场方面的信息。第二,在阅读之后,对于语篇中显著的衔接连贯、语境特征或者互动性等语篇特征,教师可以在课前检索并导出检索结果,经过必要的整理,然后在课堂上师生一起探讨课文的语篇特征,或者教师根据检索内容提出一些关于课文语篇特征的假设,由学生课后通过精细阅读寻找例证。第三,为学生选择同一主题的课后阅读材料时,教师可以借助语料库工具(如Range)的词表功能,进行词表对比,保证阅读材料的词汇难度与课文一致。当分析多个阅读文本时,语料库及语料库技术具有绝对的优势。②是指语料库在写作教学中的应用:在独立创作语篇阶段,教师基于学生的作文自建语料库,借助语料库及其技术,分析学习者的作文,并针对突出问题提取有关句段,然后在课堂上进行必要的写作指导。另外,也可以进行在线写作(如句酷批改网),在线写作借助网络语料库批阅学生的作文,并给出各种点评,教师可以指导学生依据点评并借助其网络语料库词典功能进行修改。这是语料库在写作教学中最成功的运用。③是指语料库在实现阅读促进写作过程中的作用。在进行合作创作前,教师可以为学生提供必要的同一主题的阅读材料,并基于写作主题运用语料库的方法进行一定的词汇、句型、语篇等方面的语言输入。④是指语料库在实现写作反拨阅读过程中的作用。通过对学生作文的语料库分析,归纳学生在词汇(如词汇分布情况、表明衔接连贯的连词使用情况、表明词汇复杂程度的平均词长)、语法(如表明句子复杂程度的平均句长、从句数)以及语篇(如衔接连贯、语境特征、互动性)等方面的不足,这些不足就是接下来阅读教学的重难点之一。新建立的教学模式一方面极大地发挥了语料库在阅读和写作教学中的作用,另一方面有助于读、写的相互促进,提高读写教学的效果。但是语料库方法不能完全取代精细分析,应该把两者结合,各取所长。

(三)教学实施

为了初步检验以上教学模式的实际效果,我们运用此教学模式在广州某高校2012级非英语专业国际经济与贸易两个班级(均为42人)第二学年第二学期进行了一个学期的教学。首先,对比了这两个班级的高考英语成绩,t值检验表明这两个班级实验前的英语水平无显著性差异。然后在实验班运用新的教学模式实施一个学期的教学。另外一个班级为参照班,沿用传统的教学方法。

三、结语

语料库范文篇3

关键词:对外经济;商务英语;语料库构建;茶贸易

河北省是人口大省,人口基数大,同时也是中国的对外贸易大省。依据2016年石家庄海关数据记录,2016年进出口总贸易额达到了746.8亿美元,对外贸易处于出超地位。同比上年增长8个百分点。自河北省实施对外贸易的重大战略以来,其贸易总额1.4的百分点发展到25的百分点。另外,区域经济对外发展是经济发展到成熟阶段呈现出来的特征,显现出经济发展的态势。基于对外经济需求的发展背景,河北省借助地理位置、优厚的人才、科技资源等优势,充分地将资源嵌入到经济的发展当中。商务英语在对外贸易中起到的联系纽带作用,是推进对外贸易持续动力,也是贸易经济发展的不竭力量之源。

1商务英语语料库的构建

为了与经济社会发展的步伐相适应,在竞争剧烈的贸易市场中逆流而上。河北省对外贸易经济提出更为严格的专业要求。商务英语语料库的构建是一个商务语言体系化、学科专业化的前提,更是英语语言与实际经济应用资源相衔接的根本途径。1.1语料的采集与录入在庞大的商务英语语料库中,数据库需要定期的进行资源的更新,以适应新时代知识的融合与完善,而数据输入的准确性直接影响到后期使用户的使用效果。因此,在进行商务英语语料的采集与录入时,须确保录入商务英语语料库真实性。为保证商务英语语料输入的准确性,就需要对英语数据输入的端口进行筛选检查。首先,从录入的信息源来看,录入进电子商务英语数据库的信息资源需要从有权威的刊物或者相关文献中选取,而不是任意地从出版刊物中选取;其次,对相关不确定、待考证的信息资源需要进行明确的标注;最后,在录入商务英语信息资料时,需要平衡各二级学科的应用领域的信息,按照一定的比例调研各二级学科的数据资源,分别与商务英语相衔接契合。1.2语料库的检索电子商务英语语料库,如现代化的浩如烟海的活字典,它是为了满足人们快速检索商务英语词汇、词义以及语法等资源而构建的。实质上是根据商务用途的而合成的电子数据资料库。商务英语语料库检索词汇、录入词义的功能。在商务英语语料库中,英语知识被转化为字符,以字节为单位输入到计算机数据库中,计算机根据数字统计将英语字码进行多层次的归类处理,从而使商务英语可以更好地应用到语言教育学、语言经济学中。此外茶贸易发展如火如荼,在商务英语的语料采集与录入时,就应该注重茶文化知识与商务英语的承接,将可利用的茶信息资源与商务英语深度融合。如,增大对茶词汇、茶词义、茶语法信息要素的录入,以便用户对商务英语的检索,保证茶贸易经济的内应力与商务英语的原生力的协同配合。

2茶贸易经济对语言资源整合的要求分析

现如今,国内茶贸易市场买方与卖方的供求关系发生很大变化,科学技术推动了生产力的快速发展,市场上出现了供过于求。消费者占主导地位,市场中的茶叶生产量也出现了过剩的情况。国内茶叶市场供求饱和,茶商品的产能过剩,茶企业还需要不断整合茶贸资源,寻求海外市场。基于此,对外的茶贸易对语言和茶文化提出了新的要求,在对外的茶贸易中,商务英语的交际是茶商品经济贸易过程中衔接经济信息的重要纽带。因此,在贸易对接前期要进行充分的准备。在茶贸易的前期准备阶段,通常需要检索商务英语语料库的资源,如检索词汇,词汇正确释义和语言情境理解是最重要的,相关的茶语句与经济用语衔接的逻辑性是尤为重要的,因为语言是正面交锋的工具,语言使用的好坏直接影响贸易成交的结果。2.1熟练掌握贸易国语言长期以来,我国大众人群在外贸的交际翻译与口语交流方面存在着明显的不足,这与平时英语实际训练较少从而导致运用贸易国语言不熟练有一定关系。然而,茶叶作为国与国之间的商品,在海外有很广阔的市场。茶叶作为中国特色的商业化产品,在国际舞台上占有独特地位。因此,熟练掌握贸易国语言、通晓商务英语、使用商务英语语料库,成为对外茶贸易的必备要求。新时代,新的育人战略也相继出台,不少外贸学院、商务院校将熟练掌握贸易国语言作为本校培养外语人才的重要目标。2.2具备深厚的茶文化知识人们对茶文化的养生、人文、商业意识的加强,很多人也逐渐意识到了茶文化的人文价值与商业价值,发现茶文化中卓越品质的深刻内涵,汲取优秀的茶因子贯通于经济领域中。茶文化不仅是中国文化的佼佼者,也滋养着中国的文化热土,对中西方文化经济产生了重大的影响。当今盛世,对外的茶业经济贸易繁荣,茶贸之风犹在兴盛。与此同时,茶贸易的密切进行,逐步形成了商务茶语与茶的互补关系。商务英语是进行对外茶贸易的文化媒介。汉语和英语都是世界文化的重要组成部分,在对外茶贸易中发挥的重要作用。商务贸易人才具备深厚的茶文化知识,对河北区域贸易经济的外向发展有着重要的意义。2.3学习贸易国文化背景了解贸易国文化背景,就是为对外贸易经济做准备,茶文化精髓不仅仅是顺天道、尚简朴,更加值得我们研究的是以人为本、敬业乐业的人文精神。茶叶种植、茶道、茶艺等都有着很强的技术内涵,对各个工艺环节上都要求简、素、雅。从茶文化价值的角度来看,茶文化是属于一种社会大众文化,自古以来就与中国的传统文化、对外贸易有着相辅相成的关系。最初,我国的茶商品是由波斯商人传到西域和欧洲的,茶商品在西方也曾被统治者视为珍品。数个世纪轮回,茶商品逐渐在西方的市场上繁荣,茶文化也在西方广泛传播,茶文化也与西方的异域文化融合生成情韵风情。因此,除熟练掌握贸易国语言外,在学习贸易国的语言的同时,要深入了解该国家本土的茶文化和其他的民族文化习俗,从丰富多样的文化形式中感知语言、经济与茶三者的交互意义。

3商务英语语料库的构建在茶贸易中的应用

在对外的茶贸易中,商务英语的交际是茶商品经济贸易的重要纽带。因此,在茶贸易的前期需要进行充分的交流准备,其中包括学习商务英语专业中的茶贸易词义、全面掌握茶贸易词汇搭配、固定的茶名词诠释。商务茶英语的交际翻译与口语表达可以通过各种形式表现出来。3.1商务英语专业中的茶贸易词义商务英语专业的英语中,茶贸易相关名词与一般英语解释异同,因而具有特殊的内涵,商务茶英语也不例外,需要语言学习者认真的揣摩。在茶叶贸易的英语交际学习中,茶内涵的单词、语法以及词义,称为学习商务茶英语必不可少的要素。习得茶语在,加强自身的表现力,通晓商务英语语料库的构建方法与构建思维,让茶叶贸易与茶叶经济紧密联系在一起。在实际的茶叶贸易中,商人或者翻译人员会着重对单词和语法进行讲解,容易忽略翻译中整体对茶文化的理解,弱化了对茶文化表达效果的把控。而在商务英语语料库中,可以检索到与茶有关的表达语句和词义,其中专业化的词义解释,可以保证茶贸易中商务英语用词的准确性。3.2茶贸易词汇与功能词的搭配词汇与功能词是茶贸易交际语言中最有弹性、最突出的部分。一个一个的词连接成句子,构成了中西茶叶贸易语与茶文化交流的媒介。从商务茶英语的交的口头表达来看,在茶叶贸易商业用语上理解商业信息的同时,体现出博大精深的茶文化。英语和汉语中有很多茶叶贸易的词汇和功能词,商务茶英语的交际反映出茶贸易在世界经济中的重要地位。茶叶贸易的逐步深入,英语也在不断更新茶、茶语言、茶叶贸易的词汇,有利于促进茶叶文化繁荣。因此,茶贸易词汇与功能词的各种搭配是贸易院校培养人才教学的重点,全面掌握茶贸易词汇与功能词的各种搭配,可有效加深学者对语料库的认知。3.3茶贸易专用名词的诠释在商务英语语料库中对检索词进行检索,通常会出现方法论多元、工具论多元的现象,二元对立的配对现象少之又少。此时,就需要用户通过搜索引擎查找搭配率最高的词汇。当前,可以借助语料库中新增的借助检索功能,通过CPE检索出固定的茶贸易名词搭配,且搭配的形式多样。面对不同的贸易环境可以采用不同的茶语言搭配方式,当面对晦涩生僻的句子可以采用简短的固定茶短语,仅仅需要把句子表述清楚、言简意赅即可;当面对语言文化障碍、无法逾越时,则可以采用溢于言表的短语直接跳过难懂的部分,缩小语言与语言之间的文化障碍距离,轻松的将语言意思表达清楚。

4结论

河北省茶叶贸易朝着多元化、体系化、国际化的趋势发展。中国与西方的历史背景、经济环境、地理区位不同,茶文化价值理解、茶语言翻译的表达效果也有很大的差异。由于语法规则和语言原则的存在,使得汉语言与英语在交流的过程中思维模式上存在很大的差异。基于对外经济需求的商务英语语料库的构建,对促进河北省的研究茶叶贸易的高效化开展有积极促进作用。借助商务英语语料库进行对外的茶贸易,为河北省发展以贸易为主的外向型经济提供不竭的动力,也为河北省ESP的研发提供了新的途径。

参考文献

[1]张爽.探究建构商务英语语言学过程中的几个关键性要素[J].佳木斯职业学院学报,2017,(07):418-419.

[2]蒋俊梅.语料库构建实用性与商务英语网络化的发展[J].黑龙江高教研究,2016,(01):168-170.

[3]李淑景.多维度构建中高校商务英语语料库的完善[J].黑龙江高教研究,2015,(12):163-165.

语料库范文篇4

如今建立在语料库基础上的分析,对文学作品的研究而言,经历了一个从质评到量化、从主观到客观的飞跃。当然这一转变归功于计算机的飞速发展。本文基于语料库对《小王子》的文学语言进行分析,对文本的情节发展进行掌握,为文学作品《小王子》的研究者提供了一种新的视角,以便更好的进行课堂教学,用详实的语言数据证实了它的文学和教学价值。

文章结构清晰,引言部分介绍写作目的、意义和价值,并提出文章的结构框架;第二部分文献综述介绍语料库与文学研究的背景及不足,提出本文使用的研究方法和语料库;第三部分是数据收集、数据分类、数据分析及提供图表说明,通过图表称述分析过程和观点;最后结语部分对文章进行总结。

1.系统介绍

语料库应用广泛,实用性强,在文学研究方面的应用已取得成效,而文学教学的开放性,使它可以面向语料库语言学开放。语料库语言学可以为语言文学的教学提供一套行之有效的方法和工具,使人们可以对文学作品进行更详实、深入和具体的描述。基于语料库的语言文学教学不仅仅可以从个别的现象中归纳出答案,还更加重视从众多的现象和现象之间的联系中归纳答案。此外,理论的真实性和概括性可以通过实证研究得以验证。文学理论也不例外。

由于文学语料库可以容纳几百万、几千万、甚至上亿词的文学作品语料,人们可以从中得到充分的例证、验证或说明某些文学理论(王一川2004)。

基于语料库的外国文学作品分析成果显着,如赵琼《〈夜莺与玫瑰〉的语料库检索分析》(2007);王雁的《〈傲慢与偏见〉的语料库检索分析》;孙彩媛、邱天河的《语料库辅助文体分析〈爱丽丝漫游记〉》;陈莹莹的《基于语料库分析〈一个干净明亮的地方〉》(2007);在《名与实悖论----〈真诚最重要〉的语料库检索分析》(2007)一文中,作者将语料库方法运用在辅助文学批评中。借助索引软件对该剧进行数据提取和分析。通过对比分析得到主题词(keywords)表和词图(plot),可以直观地了解该剧人物、剧情的信息以及作者独特的用词特点,为该剧的主题研究和语言风格分析提供了量化依据(吴琦,李文中2007)。

然而,由于目前的大型语料库大多是通用语料库,而文学语言比较容易获得,一直受到语料库语言学家的冷落,文学语言语料库一直没有问世。王一川(2004)、随桂岚(2004)等研究者对建立文学语言语料库有所研究,对建库目的、建库规模和建库意义有过分析和讨论。法国作家圣埃克苏佩里(AntoinedeSaint-Exupéry)的名作《小王子》是儿童文学作品的经典之作。自出版以来,在全世界范围内,不仅受到儿童的欢迎,在成人中也是广受青睐。圣埃克苏佩里写《小王子》时,自己为小说画了插图。插画拙扑稚气,梦境迷幻。法语版《小王子》1943年在美国出版。评论界和读者对这本书感到意外。几十年后《小王子》在全世界成为大人、小孩、东方人、西方人都爱读的作品。本文提供的是其英文版本,便于英语专业学生分析和讨论。但就这样一部倍受推崇的作品,对其进行文本研究的却凤毛麟角。本文旨在以语料库为辅助工具分析儿童文学作品《小王子(英文版)》的文本主旨,讨论其文本特征,深刻体验作者以忧伤的笔触抒写其“精神至上”,分析这一文学教学应用上的全新方法和视角。

2.研究方法及步骤本

部分将包含文本数据的收集、分类及笔者的分析,附带图表和说明。

本文通过使用AntConc3.2.1(Windows)2007软件中的Concordance、ConcordancePlot、FileView、Clusters、Collocates、WordList、KeywordList工具进行检索。在进行定量统计的基础上进行定性的分析,以期欣赏小说的文体特征。数据也就是文本《小王子(英文版)》来源于网络。

首先,我们利用AntConc3.2.1(Windows)2007对文中的关键词进行了搜索,发现文中使用频率较高的词如下:通过AntConc软件,我们可以发现小说共有91312词,表1出现的是出现频率较高的词。

不难发现,列表中指示代词出现得比较多,如“that”、“who”、“which”,这点可以说明小说的语言中有很多从句,而且句子结构也远比口语中句子结构要复杂。这是正式英语书面语的特征。文中出现的高频名词不部分表示人名或动植物名,代词也多是人称代词。

这一特点更加突出了《小王子(英文版)》中栩栩如生的人物形象,突出儿童文学作品的一大特点:儿童文学作品重“儿童本位”,以儿童为主人公,以其活动生活为故事情节的中心,具有现实性(杨柳2006)。儿童文学作品往往是由花、草、树、兽这些现实生活中常见的事物建构而成,象文中的sheep、star、flower、fox都是自然之物,它们都能说话,因为如果它们不能说话,儿童是不会对它们产生兴趣的,这就是儿童文学作品的现实性。我们还可以从这张表中获得一些信息。比如“I”、“you”和“me”排名都比较靠前,分别排2、9和18。这些代词在小说中频繁出现,必然跟小说内容息息相关。我们可以推断,故事是以第一人称攥写的,作者以亲切的口吻,娓娓道来,使童话故事性更强。再看第8位和第12位的“little”和“prince”,联系小说的题目便可推断出littleprince必定是主要角色。我们还可以大胆推断小说中必然多以叙述性话语为主。第一人称的I和me出现的比较多,而别的代词又不多,小说中必定叙述多,对话少。语料库软件AntConc3.2.1可以印证这个事实。在AntConc3.2.1中搜索“I”就会列出“I”出现的所有上下文。“I”一般都出现在叙述中,如第一个“I”出现在“Iasktheindulgenceofthechildrenwhomayreadthisbookfordedicatingittoagrown-up”中,而紧接着第二句就又出现了“I”,“Ihaveaseriousreason:heisthebestfriendIhaveintheworld。”如果我们利用软件中的“concordanceplot”功能,我们还可以得到每一章中“I”出现的位置和数量。我们从中也可以知道哪一章叙述比较多,同时这一章中,哪一块叙述比较集中。第26章拥有最多的“I”,达到387个,软件绘出的“concordanceplot”如下:如果点击其中的一条竖线,我们就可以跳转到那个“I”出现的位置,会看到它的上下文。

在竖线密集的地方点击其中一条,跳转到那个位置,我们发现,那是第一人称在描述自己的活动和思想及和小王子之间发生的事情,而且“I”、“littleprince”都出现在词频表前120个当中,笔者可以推断第一人称“我”和小王子是这篇童话的主角。

3.基于语料库的检索结果与讨论

要理解一部童话小说的精髓,必须掌握其行文的脉络和贯穿始终的情节。这种对情节发展的把握可以通过对原着的通读来完成。本文要使用的方法是通过使用wordlist和concordanceplot功能对该文本的情节进行全局把握和直观而具体的剖析。通过对全篇小说keyword的总结,可以得出小说的主要角色是第一作者“我”(I)和小王子(littleprince)的结论。两位主人公的名字在文中出现的频率最大,分别是753和210次,“I”的ClusterToken数为1396而“littleprince”的ClusterToken数为416;作者花了大量笔墨用于描写两者从相识到相知的情感经历。频次紧随其后的fox、sheep、grown-up基本上就是童话要描写的全部角色。作者要讲述的就是这些人物之间的相互关系。

通过语料库检索软件中的Concord功能,我们可以穷举出所有人物出现时的上下文,就如同制作一幅幅的人物特色。通过这种方法,可以搜罗有关所分析的人物的所有描摹,对于研究人物性格,作者对人物的写作手法,都有不可或缺的重要性(王雁2007)。接下来,笔者将结合语料库Concordance软件统计出的分析结果,就童话主要人物“littleprince”“rose”和“fox”进行语料库分析。

首先,对主要人物小王子的分析,Concordance统计出了全篇童话共210处。通过分析,无论是从丰富的话语资源,还是朴实的叙述中,都可以体会到小王子神秘和忧郁及他淡淡的忧伤和纯真的心灵。第二章小王子突然出现在我面前,其中“Mylittleprince,wheredoyoucomefrom?Whatisthis''''whereIliveofwhichyouspeak?Wheredoyouwanttotakeyoursheep?”该句是“I”对小王子的一连串疑惑,对他单纯而忧郁的气质产生了好奇,增添了小王子的神秘气息。随着故事推进,小王子倾诉了他对花的爱,“Flowersaresoinconsistent!ButIwastooyoungtoknowhowtoloveher…”,“在不懂爱的时候,我就爱上了它”。在第20章有一段“hesaidtohimself,ifsheshouldseethat…shewouldcoughmostdreadfullyandshewouldpretendthatshewasdyingtoavoidbeinglaughedat.AndIshouldbeobligedtopretendthatIwasnursingherbacktolife--forifIdidnotdothattohumblemyselfalsoshewouldreallyallowherselftodie…”。小王子发现他的花并不是独一无二,怕他的花伤心绝望,于是忧郁起来竟然伤心得哭泣,深深体会出他对花的爱。小王子遇到了国王、虚荣的人、酒鬼、实业家、点灯人、地理学家等一系列人,最后遇到狐狸。第10章中,“Thegrown-upsareverystrange,thelittleprincesaidtohimselfashecontinuedonhisjourney.”小王子遇到威严的国王,因为觉得大人们很奇怪而放弃国王授予的官职,继续漫游。第11章中,“Ah!Ah!Iamabouttoreceiveavisitfromanadmirer!”。小王子遇到爱慕虚荣的人,只爱被仰慕,除了赞美什么都听不见。

他觉得他们爱慕虚荣的行为很奇怪。第12章中,“Whatareyoudoingthere?hesaidtothetipplerwhomhefoundsettleddowninsilencebeforeacollectionofemptybottlesandalsoacollectionoffullbottles.Iamdrinkingrepliedthetipplerwithalugubriousair.Whyareyoudrinking?demandedthelittleprince.SothatImayforget.repliedthetippler.Forgetwhat?Inquiredthelittleprincewhoalreadywassorryforhim.ForgetthatIamashamed.Ashamedofwhat?insistedthelittleprincewhowantedtohelphim.Ashamedofdrinking!”酒鬼和小王子的对话让我们读到了人生的矛盾,自暴自弃只为想忘记自己的自暴自弃。第13章小王子遇到了商人,“Eh?Areyoustillthere?Five-hundred-and-onemillion--Ican''''tstop…Ihavesomuchtodo!Iamconcernedwithmattersofconsequence.Idon''''tamusemyselfwithbalderdash.Twoandfivemakeseven…”商人只为帐面数字忙个半死,想不断占有,却对占有物非常无助。第14章小王子遇见了点灯人,“”Ordersareorders“这句话被点灯人反复背诵,他遵守规律,却不知为谁忙,为何忙。但比起那些自私的人,小王子更愿意跟他做朋友,无奈星球过小,他无奈离去。芸芸众生,在他眼里终是奇怪的人,他不能理解便继续前行。

其次,文章对小王子到达地球后的经历着墨甚多,对于地球上狐狸的描写,文章给予大量篇幅。狐狸告诉小王子:”Andnowhereismysecretaverysimplesecret:Itisonlywiththeheartthatonecanseerightly;whatisessentialisinvisibletotheeye.“重要的东西是眼睛是看不见的,唯有用心灵去体会……这正是生活在这都市丛林的大人所缺乏的。而小王子的多愁善感和善良慢慢驯服了读者。

语料库范文篇5

【关键词】自建语料库;商务英语翻译教学;教学案例

一、引言

关于语料库在翻译教学中的应用,秦洪武、王克非[1]曾指出因语料库的创建目的、创建技术、检索技术的限制,国内的研究还没有解决语料库与微观教学环节的衔接问题,语料库翻译教学的模式研究还有待发展。而近年来国内学者结合翻译教学实践,不断提出基于语料库的翻译教学应用范例。其中具代表性的如刘泽权、刘鼎甲[2]提出通过建设学习者译文平行语料库,并在课堂中引入专业译者译文对应语料库与大型通用语料库,设计了以学生主动探索为中心的翻译教学路线。王惠[3]则认为如果缺乏深层次加工,语料库在翻译教学及学生自主学习中有一定难度,所以他以香港城市大学的“英汉汉英翻译远程教学系统”语料库平台为例,展示如何将“精加工”平行语料库与教学内容、过程和课后反馈等环节相结合。此外,另有学者提出单语语料库在翻译教学中不可替代的作用,如朱晓敏[4]探讨了COCA和CCL语料库在翻译教学中的用途,孙东云[5]则以BCC汉语语料库在英汉翻译教学中的应用为例,总结出母语语料库驱动的翻译教学模式。以上研究的共性是从教学实践出发,探索如何将语料库的丰富语料和便捷的检索工具等优势服务于教学目标,并且也注重发挥语料库在培养学生的自主学习能力上的作用。需要指出的是,在翻译教学中,语料库的使用主体是翻译初学者,他们还无法深入针对真实语料或某些翻译现象做出快速准确的总结,而语料库检索出的大量的例子往往容易使其受挫。在学生具备基本翻译能力和翻译素养之前直接使用COCA、BNC等语料库对翻译教学的作用并不直接。而上述研究中其他基于语料库的教学实践都有系统成熟的专门语料库支持,这些语料库在前期建设上有非常高的要求,往往因版权无法公开使用,所以,其在教学实践推广上有一定的限制。因此,文本认为教师可根据课程设计需要,有针对性地采集语料,制作旨在帮助学生理解特定语言现象的语料库,充分利用自建语料库来辅助翻译教学。相较大型语料库,小型的自建语料库在辅助教学、编写翻译教材和教辅材料方面更具有针对性、即时性和新颖性。[6]不仅如此,在翻译教学中,教师可以将平行语料库、可比语料库及单语语料库等多种形式语料库结合以配合教学目的。笔者将以自己教授的“商务英语翻译”课程为例,介绍如何根据教学目标自建小型专题语料库,并在微观层面展示如何运用语料库开展商务翻译教学活动。

二、自建语料库

(一)语料的分类与选择。商务英语文本专业性明显,且新词层出不穷,且各类语篇都“使用各种程式化语言使商务文本表达格式规范”。[4]所以在语料选择上需要甄选有时效性、代表性的文本,语料来源可以包括网络、时报、杂志等。建库时可根据教学安排和需求把每类商务体裁文本分别建成小型的专门用途语料库。苏雯超、李德凤、何元建[7]通过统计分析国内具有影响力的商务翻译教材,通过确定商务翻译的核心话题与拓展话题来界定商务翻译的内涵和外延。笔者借鉴其统计的核心话题来确定商务翻译课堂教学的文本,包括“公司宣传文本”“商务信函”及“商务广告”等。举例而言,本文中笔者将介绍的“企业简介”的语料来源主要来自于全球知名企业官方网站,《金融时报》(FinancialTimes)、《经济学人》(TheEconomist)等。(二)语料对齐。收集语料后,构建平行语料库的下一个核心步骤是进行语料对齐。王正、孙东云[8]介绍过如何利用计算机辅助翻译软件(CAT)进行语料对齐。他们利用TRADOSTranslator’sWorkbench带有的组件WinAlign组件进行对齐,但是对齐后的语料导出后的文件还再导入DéjàvuCAT软件进行文本格式的一系列转换才能生成纯文本。其他计算机辅助翻译软件如雪人CAT的语料也带有对齐功能[9],但是同样需要一系列格式转换成可以使用的TXT文本。为省去这一系列操作,现在的在线语料大数据及智能翻译平台可以提供更快捷的操作,比如Tmaxmall()自主研发的智能对齐算法可以快速地自动对齐原文译文,能自动识别“一对多”“多对一”“多对多”句子对应关系,极大地提高对齐的效率以及准确度。调整对齐的界面直观,操作便捷,用户可以便捷地在线预览对齐语料,并且该平台支持docx、xlsx、pptx、pdf、txt等36种主流格式的导入,并且可直接导出tmx、xlsx、txt、docx等4种格式。(三)自建平行语料库。准备好对齐的txt语料文件后,一种方法是可以使用平行语料库检索工具进行检索。Paraconc是经典的双语平行语料库检索工具,可以在其官网下载Demo体验软件。但是中文文本仍不能直接使用Paraconc进行检索,需对语料进行分词处理。本文推荐使用北京外国语大学的BFSUParaConc,汉语文本可不进行分词处理,中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名后导入就可以使用,方便地呈现翻译中原文与译文在字/词/句层面的对应关系。另外一种是利用计算机翻译辅助软件,因为这些软件本身也提供了灵活简便的双语平行语料库功能。只要把对齐后语料tmx文件可以导入CAT软件存为翻译记忆库,可以在软件上查看、调用来辅助翻译教学。可以通过下载Trados试用版或者雪人免费版,但是这些软件在安装操作上较费时,所以笔者推荐更简易的在线翻译管理平台如Yicat,Yicat带有CAT的所有核心功能,直接打开网页就可以免费使用。用户注册后进入主界面在记忆库管理里导入tmx文件就可以进行双语平行语料库的检索查看。(四)自建双语可比语料库。与译者培训有关的双语可比语料库,Zanettin[10]将其定义为在不同语言中基于相似的内容、领域和交际功能收集的相互独立的文本。而将这种双语可比文本用于翻译研究和培训在语料库出现之前已很常见,如Snell-Hornby[11]分别收集了英文和德文的公示语进行比较,她认为通过比较源语和目的语同一文本类型的大量文本有助于定义该文本的原型特征,为译者呈现译文的基本“轮廓”。而在翻译课堂中这类的双语可比语料库是培养其语言的直觉,学习专用文体特有表达方式的理想工具。在课堂教学活动设计与实施过程中,可比语料库可以“构建输入目标语材料”,相对于平行语料库,学生可以“在自主研究所提供的语言数据中分析现象、找到规律,而不是一味地去模仿前人的翻译”。[4]建立这一类语料库的分析工具比较多且都很成熟,最广为使用的是AntConc,其界面简约直观、功能专业实用,使用者只需下载安装就能使用,但这款软件只能用于英文文本的语料分析。所以,笔者也推荐BFSUPowerConc,这款软件支持汉语和英语两种语言,同时支持粗语料和标注语料两种形式的语料检索。研究者可用其建设英汉双语的可比语料库。比如教学设计中让学生掌握英汉两种语言同一文体的语言特征,就需要用到BFSUPowerConc来分别建立中英文双语可比语料库。

三、自建语料库在翻译课程的应用:教学案例呈现

下面笔者将呈现如何利用自建语料库开展汉译英教学实例。本课程是商务英语专业大三年级的必修课“商务英语翻译”,课程的教学总体目标主要是帮助学生熟悉国际商务活动中具有代表性的商务文本,从翻译视角重点研究不同商务文体在词汇、句子结构和文体风格等方面的特点并能恰当地使用或调整翻译策略使译文的文体风格、体裁特征及用语能满足目的语文化的要求。不同于传统的翻译课程设计,课堂的教学并不是直接向学生解释所涉及文体的语言、文本特点及相应的翻译策略,而是借助语料库这一工具唤起学生思考,解决翻译问题进而培养译者基本素养和技能。本研究使用到的语料库包括“企业简介汉英平行语料库”,该库中汉语原文语料13726字,其英译文8862词,主要包括笔者精细挑选的适合教学的一些企业简介如联想、中国移动、华为等及其高质量的英译文。第二个语料库为“企业简介中英文可比语料库”,由“企业简介中文文本”和“企业简介英文文本”构成。其中的“企业简介中文文本”为前述的平行语料库中文语料,而“企业简介英文文本”(即原创的英文企业简介)则采集于国外的企业官网和一些英文刊物,共计8240词。(一)翻译教学步骤设计。译前阶段:把学生分成3―4人小组,要求通过运用语料库工具从字词、句子、段落及语篇层面对中英文企业简介的文本有较深入的了解。该阶段要求学生通过小组合作在规定时间内总结观察结果,并且以小组为单位在课堂上分享小组观点。布置的任务如下:1.观察可比语料库中、英文企业简介文本的主要内容及其词汇特点,具体如哪类词汇出现频率较高,这些词汇能达到什么样的文本效果;中英文简介在这些用词上是否有一致性。2.观察可比语料库英文企业简介的句子结构特点,具体如句子的长短,句子间连接词的使用情况等。3.考察可比语料库中英文企业简介文本的篇章结构,找出其共同点及差异,如首段、文章的顺序、结尾等。4.观察平行语料库中、英文文本对修辞的翻译,找出译文对原文修辞的处理方式(保留、删除或者改变),并思考评价这样的处理。翻译阶段:给学生呈现一篇中文原文,要求在规定时间内翻译成英文。这一阶段学生任务如下:5.通读、了解翻译原文后,根据译前阶段总结的句型、篇章结构特点,对译文要达到的效果进行思考归纳。6.在原文文本中找出比较难译的词汇,并且搜索平行语料库中这些词的英文译法,然后在英文可比语料库中通过字词索引功能检索该译文词语的用法和出现的语境。7.在规定时间内每人提交一份译文。译后阶段:这一阶段主要是教师对学生的译文分析和评价,传统的译文评价主要靠教师逐一浏览,鉴于教师精力,很难全面整理学习者译文的错误,而语料库检索工具可以直观查看译文,对译文做出客观、全面评价。在下一个课时开始之前,教师对学生的译文进行整理,利用Antconc或BFSUParaconc建立译文语料库。方法可以参照前文提到的如何语料对齐、建立平行语料库或者直接利用在线翻译记忆库工具进行索引,检查学生用词搭配等问题,确定第二课时教学重点。(二)译前阶段任务的反馈。词汇:学生通过浏览可比语料库,发现中文的企业简介都使用了积极正面的词汇,四字词语多,美词叠加使用,并且程度副词、肯定副词、范围副词等出现频率较高,如“最大”“100强”“唯一”“世界顶尖”“全球领先”“卓越”等。而英文的企业简介虽然也有类似的正面、具宣传效果的词汇,如“most”“top100”“leading”“quality”“outstanding”等,但总体语言简练,用词简单,表达直观。学生总结认为,在翻译时译者应该对原文的信息进行调整,用客观、简洁的词汇翻译原文重复堆砌的词语。句子结构:学生观察得出中文企业简介多为主动态的长句子,采用陈述语气,长句中套有多个“谓语+宾语”的结构,符合中文“意合”的特点。而英文的简介多为简单句,读者可以在短时间内了解该企业的相关信息。所以在翻译时要考虑中文的逻辑关系,处理好主语、谓语及非谓语成分,并且正确添加连词,使译文符合目标语读者的阅读习惯。篇章结构:中文的企业简介一般包括企业的历史、性质、业务范围、营销情况、企业的实力和地位等。首段一般介绍企业的成立,用数据说明企业的销售、利润等,中心段落介绍企业的市场定位和优势,末段介绍企业的未来展望。而相比之下,英文的企业简介在篇章结构及内容组织上更加多样化,如Zappos(美捷步)通过讲企业故事的方式更加贴近读者,Heineken(喜力)专注于介绍产品背后的多元化团队、公司价值观及其产品在全球的影响力。学生认为在翻译时可以适当对原文冗长的内容进行删减。修辞的翻译:中文的企业简介最常用的修辞是排比、对偶及反复。通过平行语料库的观察,学生发现对于原文中的排比、对偶修辞,译本也采用相同的排比句式以保留原文相似的修辞效果。例子如下:1.我们将通过创新产品、提升就餐体验、增强移动连接、以及持续创造价值来满足消费者不断改变的需求。Wearededicatedtoservingourcustomers’evol-vingneedsbyenhancingthein-storeexperience,impro-vingmobileconnectivity,introducinginnovativenewproducts,andconstantlydeliveringvalue.2.2018年万科将这一定位进一步迭代升级为“城乡建设与生活服务商”,并具体细化为四个角色:美好生活场景师、实体经济生力军、创新探索试验田、和谐生态建设者。In2018,Vankewillfurtherupgradesuchpositionto“urbanandruraldevelopmentandlivingservicesprovider”andrefineitintofourroles:asolutionpro-viderofbetterlife,acontributortorealeconomy,aninnovatorforfuturedevelopmentandacreatorofhar-moniousecosystem.而对于中文常见的辞藻的铺陈堆砌,英译文一般选择进行调整,译文简单,中心突出。3.玉羊奋蹄辞旧岁,金猴跳跃迎新春。为了尽快实现下一个千亿目标,2015年,TCL集团制定了双轮驱动发展战略。TherevenueofTCLCorporationexceededRMB100billionintheYearoftheHorse,anditwillmakenewachievementintheYearoftheMonkey.(三)翻译阶段。根据译前阶段任务的反馈,学生先对译文要达到的效果进行思考并提出翻译策略及方法,认为译文应该整体简洁,重点内容突出,符合英文读者阅读习惯。为达到这一译文效果,首先,对原文企业业务中冗长的介绍,可作适当的删减调整;其次,句式要注意长句和短句的结合使用,注意语块间的逻辑衔接;再则,可对原文的修辞进行调适;最后,可将原文分散的内容根据话题进行集中调整。在翻译过程中,语料库的作用主要体现为:提高译入语语言直觉、培养翻译检索能力。如学生对一些词汇的地道表达可通过平行语料库查找,如“世界500强”译成“FortuneGlobal500”,“物业服务”译成“housingmanagement”等。有一些句型,如“位列榜单第356位”,根据平行语料库搜索“位列”,发现“rank”的词用法不同,如1.InJuly2017,theGroupwasfirstlistedonFor-tuneGlobal500,ranking21.2.OnJuly19,2018,theFortuneGlobal500listwasreleased,andDellranked93.为了确定“rank”一词主动态和被动态的用法,学生则运用可比语料库的英文原文企业简介进行搜索,发现例子如下:3.Sainsbury's,ranking17inTheTimes1000with82000employees,whenconsideringappointingasen-ior.4.ThesuccessfullytransformedsupermarketchainandmultipleretailerTesco--ranked22inTheTimes1000andemploying71000--similarlydescribedhead-huntersasgood.同样的语境中,“rank”的两种用法都是可接受的。(四)译后阶段课堂翻译教学活动结束后,教师对学生上交的翻译作品进行整理。利用AntConc进行诊断分析,可以归类出一些翻译问题,而这些问题将作为译后阶段的教学重点。限于篇幅,本文以学生译文中第二句话为例来说明。用AntConc进行索引学生译文,生成词表,可以观察到“《财富》世界500强”学生多数能正确翻译成“theFortuneGlobal500”,为了分析词汇准确运用的能力,对“Fortune”一词进行搭配分析,见图1,检索可以发现学生对该词的动词搭配有不恰当之处,观察便可以整理出一些问题,如“theFortuneGlobal500”前面是否可以使用“enter”“gointo”“getinto”等词?最常用最地道的表达是什么?运用同样的方法,可以对学生的译文进行分析,并将发现的问题列入教学重点。

四、结语

语料库范文篇6

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。

本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。

一、国外语料库概况

现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。

现在,国外的主要语料库还有:

London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodicmarking)。

AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。

OTA牛津文本档案库(OxfordTextArchive):英国牛津大学计算中心建立,有10亿字节。

BNC英国国家语料库(BritishNationalCorpus):1995年正式,使用TEI编码(TextEncodingInitiative)和SGML通用标准置标语言的国际标准(TheStandardGeneralizedMarkupLanguage,ISO8879,1986年公布)。

ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(TheassociationforComputationalLinguistics,ACL)倡议的数据采集计划(DataCollectionInitiative,DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。

LDC语言数据联合会(LinguisticdataConsortium):设在美国宾州大学,实行会员制,有163个语料库(包括Text的以及speech的),共享语言资源。

RWC日语语料库:日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文语料,语素标注量达1亿条。

亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参加。

为了推进语料库研究的发展,欧洲成立了TELRI和ELRA等专门学会。TELRI是跨欧洲语言资源基础建设学会(Trans-EuropeanLanguageResourcesInfrastructure)的首字母缩写,JohnSinclair担任主席,由欧洲共同体提供经费,其目的在于建立欧洲诸语言的语料库,现已经建成柏拉图(Plato)的《理想国》(Politeia)多语语料库,建立了计算工具和资源的研究文档TRACTOR(ResearchArchiveofComputationalToolsandResources),正在语料库的基础上建立欧洲语言词库EUROVOCA。TELRI每年召开一次Seminar。最近的一次Seminar在Lubljana,(Slovenia)召开(22.September–26.September.2000),主题是从语料库中自动抽取知识(Automaticknowledgeextraction)。ELRA是欧洲语言资源学会(EuropeanLanguageResourcesAssociationi)的首字母缩写,由Zampolli担任主席,ELRA负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。ELRA建立了欧洲语言资源分布服务处ELDA(EuropeanLanguageresourcesDistributionAgency),负责研制并推行ELRA的战略和计划。ELRA还组织语言资源和评价国际会议LREC(LanguageResources&EvaluationCongress),每两年一次。第一次会议于1998年在西班牙的Grenade举行;第二次会议在Athens(Greece)召开(31.May–02.June.2000),第三次会议于2002年在西班牙的LasPalmasdeGranCanaria召开(27.May–02.June2002)。

二、我国语料库的发展概况

(一)早期的汉语语料库

1、我国语料库研究的先河

在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河,在我国语料库的发展史上是功不可没功的。著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版,陈书前有“绪论”,说明“中文应用字汇”曾有多种,其中包括P.克仑茨(PastorP.Kronz)的研究和他自己的编写的《常用四千字表》。陈鹤琴做过两次统计,第一次统计使用了六种材料,包含554,478个汉字的语料,得不同汉字4261个;第二次使用包含34,818个汉字的语料,得出与4261个汉字相异的汉字458个。第二次统计所得的成果毁于战火,在《语体文应用字汇》中印出的只是第一次统计的结果。

陈鹤琴用的语料分如下六类:

儿童用书:127,293字;

报刊(以通俗报刊为主):153,344字;

妇女杂志:90,142字;

小学生课外作品:51,807字;

古今小说:71,267字;

杂类:60,625字。

书末附有“字数次数对照表”,这是按汉字在语料中出现的绝对频率排列的字表。

我国著名教育家陶行知先生为《语体文应用字汇》写了序言。序言中说:“他们(指“近代教育家”)对于一门一门的功课,甚至一篇文章,一个算题,一项运动,都要依据目标去问他们的效用。他们的主张是要所学的,即是所用的。......到了后来他们连学生学的字也要审查起来了。学生现在所学的字,个个字都是有用的字吗?自从这个问题发生就有好几位学者开始研究应用字汇。我国方面也有几位先生研究这个问题,其中以陈鹤琴先生的研究最有系统。他和他的助理九人先后费了二三年工夫,检查了几十万字的语体文,编成这本《语体文应用字汇》。这册报告未付印以前已经做了《平民千子课》用字的根据。将来小学课本用字当然也可以拿他来做一个很好的根据。虽然不能十分完备,但我想这本字汇对于成人及国民教育一定是有很大的贡献的。”(见陈鹤琴《语体文应用字汇》,商务印书馆,1928年)。

2、早期的机器可读语料库

从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:

汉语现代文学作品语料库(1979年),527万字,武汉大学。

现代汉语语料库(1983年),2000万字,北京航天航空大学。

中学语文教材语料库(1983年),106万8千字,北京师范大学。

现代汉语词频统计语料库(1983年),182万字,北京语言学院。

我们以北京语言学院的汉语词频统计语料库来说明早期语料库的情况。

1979年,北京语言学院(现在改名为“北京语言文化大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。

这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。

他们选取的语料可以分为如下四类:

报刊政论:44万字,占语料总量的24.4%。

科技和科普文章:29万字,占语料总量的19.8%。

口语材料:20万字,占语料总量的11.1%。

文学作品:89万字,占语料总量的48.7%。

整个语料共182万字。这样容量的语料,在当时已经是比较大的语料库了。

根据数理统计的原理,所统计的语料的总体个数必须达到一定足够的数量,才能保证统计结果符合客观实际。《现代汉语频率词典》的编者认为,如果常用词的出现频率不低于百万分之一,也就是在一百万次的场合,常用词的出现机会至少应该有一次,就可以保证统计结果的客观性。《现代汉语频率词典》实际上统计了182万个汉字的语料,因此,其抽样是合理的、经济的、适度的。

但是,国外在1971年进行英语词频统计时,所用语料量有5,088,721个词,包含不同单词86,741个,统计规模比《现代汉语频率词典》大得多。由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。与当前语料库的容量比较起来,《现代汉语频率词典》所依据的语料规模是小了一些。不过,尽管这样,《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。

这次词频统计得出了如下词表:

1、按字母音序排列的频率词表:共列出常用词16,593个,按音序排列,从中可以看出:

汉语中以Z、S、J、Y开头的词较多:以Z开头的词有1457个,占8.78%;以S开头的词有1327个,占7.99%;以J开头的词有1243个,占7.49%;以Y开头的词有1205个,占7.26%。

汉语中以E、O开头的词很少:以E开头的词只有64个,占0.38%;以O开头的词只有13个,占0.07%。

2、按频率递减的顺序排列的词表:在词表中,最常用词的使用频率相当高,前100个词占了语料总量的40%以上,前500个词占了语料总量的70%以上,前2562个词占了语料总量的85%,词表共有不同单词31,159个,这些词占了语料总量的100%。从前100个词到前500个词,不同的单词数增加了400个,百分比就增加了30%,而从前2562个词到前31,159个词,不同单词数增加了30,597个,百分比材增加了15%。由此可见,高频词对于百分比的增加有着很大的作用,而低频词对于百分比的增加,其作用是微乎其微的,往往要大量的低频词,才能使百分比增加一点点。

3、按使用度递降顺序排列的词表:

使用度是1954年尤兰德(Juilland)和洛德西盖(Chang-Rodsiguez)在计算西班牙语的词汇频率时提出的一个新概念,他们并且也提出了计算使用度的数学公式,根据这个使用度公式计算出的使用度,可以综合地反映单词在出现频率和分布率两方面的情况。

他们根据使用度的计算公式,计算了单词的使用度,并给出了按使用度递降顺序排列的词表。这个词表又分为两个表:使用度较高的前8000词的词表,使用度较低的词语单位表。

在使用度较高的前8000词的词表中,使用度在20以上的词共4186个,其词次累计占了全部语料(314,404词次)的90.1%。这说明,《现代汉语频率词典》所统计的语料中,有十分之九是用这4186个词写成的,这些词可以成为“常用词”的候选对象。

在使用度较低的词语单位表中,收入了使用度为5及小于5的词22,446个,这些词一般也都是低频词。在这种情况下,如果有的词的使用度和频率相匹配,则说明这些词的分布还是比较均匀的,这些词可以作为“通用词”的候选对象。

4、按语体分类的高频词表,又可再分为4个表:

a.报刊政论语体的前4000词的词表:本表共统计34种语料,29万词次(44万字),有不同词条数12,107个。前4000个词累计频率94.77%。其中一些政治词语,如“唯心、党派”等,在本表中出现频率都比较高,反映了政论语体的特点。

b.科普语体的前4000词的词表:本表共统计21种语料,20万词次(29万字),有不同词条12,364个。前4000个词累计频率92.27%。其中一些科技用语,如“纤维、合成”等,在本表中出现频率都比较高,反映了科普语体的特点。

c.生活口语中前4000词的词表:本表共统计18种语料,16万词次(20万字),有不同词条8263个。前4000个词的累计频率为96.65%。从统计数字可以看出,口语语体的用词量比前两种语体要少三分之一,但高频词出现的词次却相当多,前1000个高频词的出现频率比a表高出6%,比b表高出12%。这意味着,口语语体的用词量虽然不大,但是它们的出现次数对语料的覆盖面却相当大。

d.文学作品类前4000高频词的词表:本表共统计106种语料,66万词次(89万字),有不同词条23,622个。前4000个高频词累计频率为90.63%。这说明文学作品的用词量大,但是为了追求用词的多样化,即使是高频词的出现频率也比较低,这反映了文学作品词汇丰富多采的特点。

早期的这些语料库的具有如下特点:

①多数是采用手工键入的方式建立的,耗时耗力,缺乏规范,规模较小,重用性差。为了建设这样的语料库,需要付出艰辛的劳动,著名专家刘源教授(北京航空航天大学计算机系教授)在2000万字的语料库建设中积劳成疾,健康受到严重的损害。我国语料库的早期建设者的敬业精神是值得我们尊敬的。

②发现了汉语文本切分歧义的两种类型:北航和北语的语料库进行了词频统计,北航还进行了自动分词研究,发现了两种不同的分词歧义字段(AmbiguousSegmentationStrings,ASSs):交集型歧义字段和多义组合型歧义字段。

交集型歧义切分字段:例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,从而产生歧义。

多义组合型歧义切分字段:例如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。

梁南元(1987)对一个48092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个,多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。

③建立了初步的分词规范:1990年10月,在计算机界和语言学界的共同努力下,我国制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。

(二)部级语料库的建设

1991年,国家语言文字工作委员会开始建立部级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:

①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。

②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。

③使用领域的限制:语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。

这个语料库现在只完成了2000万字语料的输入和校对工作,尚未进行进一步的加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本很高,据说单是建立生语料库,耗资约200万人民币。

为了加工这个部级语料库,国家社科基金设立了社科重大项目“信息处理用现代汉语词汇研究”,希望利用该项目的成果来加工这个语料库。该课题分10个子课题:

①信息处理用现代汉语分词词表

②歧义切分与专有名词识别软件

③词的构造研究

④现代汉语词类及标记集规范

⑤汉语词类兼类研究

⑥现代汉语的语法属性描述研究

⑦现代汉语述语动词机器词典和槽关系研究

⑧汉语知识词典建立及词汇内部语义网络描述研究

⑨汉语文本短语结构的人工标注

⑩常用动词语义特征及词义搭配研究

现在,该课题已经结项,国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组,准备对部级语料库的2000万字的核心语料进行深加工,逐步把这个生语料库变为熟语料库。

(三)大规模真实文本语料库

1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:《人民日报》光盘数据库,北京大学计算语言学研究所,北京语言文化大学,清华大学,山西大学,上海师范大学,北京邮电大学,香港城市理工大学,东北大学,哈尔滨工业大学,中国科学院软件研究所,中国科学院自动化所,北京外国语大学日本学研究中心,台湾中央研究院语言研究所(筹备处)。下面分别加以介绍。

1、《人民日报》光盘数据库

收集该报48年的全部文字和图像内容,公开发行。

2、北京大学计算语言学研究所

该研究所建立了现代汉语标注语料库,与富士通公司(Fujitsu)合作,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多音词注音。

示例1:古城/n虽/c遭/v破坏/v,/w但/c它/r留下/v了[le5]/u契丹族/nz和[he2]各[ge4]/r民族/n,/w特别/d是/v汉族/nz劳动/vn人民/n共同/d开拓/v祖国/n北疆/s,/w创造/v我国/r历史/n文明/n的[de5]/u足迹/n。/w

示例2:19970310-01-002-0020/m[全国/n人大/j]nt代表/n、/w[陕西/ns西安/ns美术/n学院/n]nt名誉/n院长/n刘/nr文西/nr利用/v会议/n休息/vn时间/n创作/v了/u邓/nr小平/nr画像/n《/w与/p人民/n同/d在/v》/w。/w画像/n表现/v了/u邓/nr小平/nr同志/n祝愿/v祖国/n繁荣/a、/w人民/n幸福/a的/u伟大/a胸怀/n。/w(/w新华社/nt记者/n齐/nr铁砚/nr摄/v)/w

示例3:19970310-01-003-0020/m世纪/n之/u交/Ng,/w中华/nz民族/n正/d迎来/v前所未有/i的/u发展/vn机遇/n。/w十几/m年/q来/f,/w改革/v开放/v的/u不断/d深入/v,/w党/n的/u民族/n政策/n的/u贯彻/vn落实/vn,/w全国/n人民/n的/u大力/d支援/v,/w使/v我国/r民族/n地区/n经济/n和/c社会/n发展/vn步伐/n大大/d加快/v。/w加倍/d珍视/v和/c继续/vd发展/v这种/r好/a的/u局面/n,/w巩固/v发展/v各/r民族/n大/a团结/an,/w成为/v全国/n各族/r人民/n的/u共同/b愿望/n,/w也是/v在/p京/j参加/v“/w两会/j”/w的/u代表/n和/c委员/n的/u一致/a心愿/n。/w

经富士通公司检验,标注的正确率很高。

他们制订《现代汉语语料库加工手册——词语切分与词性标注》。切分规范中,主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。他们采用切分和标注相结合的原则来建立规范,在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在该规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。在标注规范中,规定了一般词性的标注规范和专有名词的规范。

此外,他们还建立了一个小型汉语树库:与新加坡国立大学计算机系合作,内容为新加坡中学语文教材(1995年),所有的句子都分析为树形图。

示例:

[zj[dj富士山/n[vp是/v[np日本/n的/u[np[mp一/m座/q]活火山/n]]]]。/w][zj[fj[fj[dj山峰/n[vp终年/d积雪/v]],/w[dj云雾/n围绕/v]],/w[vp只有/d[vp[pp在/p[np[dj空气/n干燥/a]的/u[np[np秋/n冬/n][np两/m季/Ng]]]],/w[vp才/d[vp能/v[vp[vbar看/v清/a][np它/r的/u全貌/n]]]]]]]。/w]

[zj[fj[dj[np[vbar多/d变/v]的/u气候/n],/w[vp更/d[vp[pp为/p它/r][vp[vbar增添/v了/u][np神秘/a的/u色彩/n]]]]],/w[vp甚至/d[vp使/v它/r[vp[vbar孕育/v了/u][np许多/m[np美丽/a的/u神话/n]]]]]]。/w]

[zj[dj[np富士山/n的/u景色/n],/w[dj四季/t不同/a]]。/w]

[zj[fj[fj[fj[fj春天/t,/w[fj[dj山顶/s[vp还/d[vp[vbar戴/v着/u][np雪/n帽子/n]]]],/w[fj[dj[dj[np山腰/n的/u雪/n][vp却/d溶化/v]]了/y],/w[fj[dj[np细碎/a的/u[np小/a花/n]][vp开遍/v山坡/n]],/w[vp[vbar远/a看/v][vp象/v[np[mp一/m片/q][np紫色/n的/u海洋/n]]]]]]]],/w[fj夏天/t,/w[fj[dj[np[np残/Vg雪/n]与/c[np山/n花/n]][vp倒映/v[sp湖/n中/f]]],/w[vp充满/v诗情画意/n]]]],/w[fj秋天/t,/w[fj[dj[np[np[np满/a山/n]红叶/n]与/c[np雪/n影/Ng]]辉映/v],/w[vp象/v[np个/q[np娇羞/a的/u姑娘/n]]]]]],/w[fj[dj冬天/t[dj则/c[vp是/v[np[ap纯/a白/a]的/u[mp一/m片/q]]]]],/w[ap庄严/a而/c圣洁/a]]]。/w]

北大语料库研究的特色是:

①规模大:加工成的熟语料已经达到2000万字,不久将达到2700万字,国内尚无先例。

②加工深:不仅做了切分和词性标注,而且部分语料还进行了短语结构分析,建立了树库。在大规模的语料库中,地名和专有名词都进行了短语结构标注。

③覆盖面广:人民日报的语料不仅包括新闻,还包括各种题材、各种风格、各种语体的文章,涉及社会科学和自然科学多种领域,有很广泛的覆盖面。

④正确率高:在自动加工的基础上进行了大量的人工加工,采用人机结合的策略,是语料库加工的正确率达到了国内最高水平,在国际上也是罕见的。

⑤无著作权纠纷:与《人民日报》达成协议,没有著作权问题。

、北京语言文化大学

该校计算机系宋柔在远景校对系统的研究、开发和测试过程中一直注重采用大规模真实语料进行各种语言现象的统计、分析、检索、归纳。为此,他们与一些报社、出版社合作,收集、整理了一批综合性、规范性的电子文档资料,建立了一个大型的中文语料库(共约5亿字)。在获取语料后,又专门用工具软件或人工加工清理了语料,分别建立了10个语料库。各语料库情况如下:

《当代中国丛书》:150卷(约6千万汉字)

《中华人民共和国年鉴》:1997年语料(约200万汉字)

《新闻出版报》:1988年语料(约260万汉字)

《辉煌五十年湖南卷》:1949-1999年语料(约70万汉字)

《人民日报》:1993-2000年七年语料(约2亿字)

《人民日报市场报》:2000年语料(约1400万汉字)

《人民日报华南新闻:2000年语料(约600万汉字)

《人民日报华东新闻》:2000年语料(约500万汉字)

《经济日报》:1992年语料(约1820万字)

《新华社》:1994-1996年三年语料(约3793万字)

宋柔还建立了面向语言学研究的汉语语料库检索系统CCRL,可以让用户使用自己的生语料库和词典生成语料索引,进行检索。

此外,北京语言文化大学还建立了如下的语料库:

当代北京口语语料库(1992年)

现代汉语语法研究语料库(1995年)

现代汉语句型语料库(1995年)

现代汉语语料库(1998年,与香港理工大学中文及双语学系联合建立)

现代汉语语料库(1998年,与清华大学联合,为国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”而建立)

4、清华大学

该大学也建立了现代汉语语料库:1998年建立了1亿汉字的语料库,着重研究歧义切分问题。现在生语料库已达7-8亿字。

他们对于分词技术进行了深入研究,发现了伪歧义,提高了分词精度:计算机系孙茂松、左正平(1998)指出,切分歧义应进一步区别“真切分歧义”和“伪切分歧义”。譬如:同属交集型,“地面积”为真歧义(“这几块|地|面积|还真不小”“地面|积|了厚厚的雪”),“和软件”则为伪歧义(虽然存在两种不同的切分形式“和软|件”和“和软|件”,但在真实文本中,无一例外地应被切分为“和|软件”);同属组合型,“把手”为真歧义,“平淡”则为伪歧义。

他们还编制了信息处理用现代汉语分词词表,作为分词最重要的语言资源。

中文系罗振声建立了现代汉语句型研究语料库,从中总结出209种汉语句型。

清华大学智能技术与系统国家重点实验室与北京语言文化大学语言信息处理研究所联合研发的人工标注语料库HuaYu。这个语料库区别于其它类似语料库的特点:是:分布平衡,不仅仅限于新闻报纸。

HuaYu的分布见表1:

分类篇数汉字数比例标点符号数词次数比例

文学295880,05744%148,453760,33748%

新闻376600,49030%86,163438,09528%

学术29402,62320%52,823278,72818%

应用文258119,4886%28,72791,9296%

合计9582,002,658100%316,1161,569,089100%

表1HuaYu语料库的分布

其中文学语料的分布见表2:

分类篇数汉字数百分比标点符号数词次数

小说199648,79632.5%112,749566,730

散文3780,0674%10,34765,453

回忆录2950,4012.5%6,90838,338

报告文学1350,0192.5%8,22540,386

剧本1750,7742.5%10,22449,430

合计295880,05744%148,453760,337

表2文学语料的分布

他们对这个语料库进行了切分和标注。

语料示例如下:

我|rn认识|vgn王眉|npc的|usd时候|ng,|,她|rn十|mw三|mx岁|qnm,|,我|rn二|mx十|mw岁|qnm。|。那时|t我|rn正|dr在|pza海军|ng服役|vgi,|,是|vi一|mx条|qns扫雷舰|ng上|f的|usd三七|ng炮手|ng。|。她|rn呢|y,|,是|vi个|qng来|vgn姥姥|ng家|ng度假|vgi的|usd中学生|ng。|。那|rn年|qt初夏|t,|,我们|rn载|vgn着|utz海军|ng学校|ng的|usd学员|ng沿|pg漫长|a海岸线|ng进行|vf了|utl一|mx次|qv远航|vgx。|。到达|vgn了|utl北方|s著名|a良港|ng兼|vgn避暑|vgp胜地|ng,|,在|pza港|ng外|f和|pg一|mx条|qns从|pg南方|s驶来|vgi满载|vgn度假者|ng的|usd白色|ng客轮|ng并行|vgi了|utl一|mx段|qns时间|ng。|。进|vgn港|ng时|ng我|rn舰|ng超越|vgn了|utl客轮|ng,|,很|dd亲近|a的|usd擦|vgn舷|ng而|c过|vgi。|。兴奋|a的|usd旅游者|ng们|ki纷纷|dr从|pg客舱|ng出来|vgi,|,挤|vgi满|a边舷|ng,|,向|pg我们|rn挥|vgn手|ng呼喊|vgi,|,我们|rn也|dr向|pg他们|rn挥|vgn手|ng致意|vgi。|。

清华大学智能技术与系统国家重点实验室最近对HuaYu完成了语块库人工标注(200万汉字左右),并根据句子中动词类型和句子长度等因素,从中随机选取了20万词,进行语块标注,并进一步完成了完整的句法树标注。

语块标注示例如下:

[从/p[他/rN的/u身上/s],/,[我们/rN[看/v到/vB]了/u][一/m位/qN][跨越/v[中国/nS{CS近代/t和/c现代/t}的/u[共产主义/n战士/n][光彩照人/iV的/u楷模/n]。/。]

句法树标注示例如下:

[zj[dj[pp从/p[sp他/rN的/u身上/s]],/,[dj我们/rN[vp[vp[vp看/v到/vB]了/u][np[np[mp一/m位/qN][np[vp跨越/v[tp中国/nS[tp近代/t和/c现代/t]]]的/u[np共产主义/n战士/n]]][np光彩照人/iV的/u楷模/n]]]]]。/。

5、山西大学

他们根据不同的需要,建立如下不同的语料库,主要有:

汉语新闻语料库(1988年),250万字,山西大学,包括4部分:《人民日报》:150万字,《北京科技报》:20万字;《电视新闻》(CCTV):50万字;《当代》(杂志):30万字。

标准语料库(2000年):.以分词规范和语委词类标记集为标准的综合语料:70万字,其中10万字标到了小类。

特定加工的语料:

--标注中国地名:标注了280万字的语料库(含不同地名1793个,共出现11590次),建立中国地名库,共收88026个地名,同时建立中国地名用字库(3685个)和中国地名用词库(3917个)。地名识别正确率为86.7%,召回率为93.8%。

--标注中国人名:标注了300万字的语料库,建立了姓氏人名库,得出了姓氏用字频率表(729个)和名字用字频率表(3345个),中国人名识别的正确率为87.31%,召回率为95.23%。

--标注西文译名:标注了250万字的语料库,西文译名资源来自《英语姓名译名手册》和《新英汉词典》的《常见英语姓名表》,正确率为63%,召回率为98%。。

--标注中文组织机构名:标注了50万字的语料库,对组织机构名的结构进行分析,使用基于规则的方法。

--标注网上语料新词语:标注了150万字的语料库。

为了标注交集型歧义字段,建立了7.8万字的交集型歧义字段库,已标注510万字语料,分词正确率达97%以上,同时证实了交集型歧义字段只有惟一可能的正确切分结果的伪歧义,占歧义字段总数的94%。

他们还建立多义组合型歧义字段库:收录了133条多义组合型歧义字段,比较全面的反映了组合型歧义字段的实际情况。

6、上海师范大学

该校建立了3000万字的生语料库;根据北大的标注规范建立了300万字的标注语料库。他们还建立了100万字《作家文摘》的标注语料库,选取1997年的《作家文摘》,题材包括传记文学、历史故事、记实文学、人物特写、小说、散文、评论等,依靠手工进行标注,不仅完成了切词和词性标注,还完成了短语结构关系和结构功能的标注。加工层次深。

标注示例:

[zw他/rp[db[zc期望/vz着/ut]vp[db打/vs[dz[sl一/mx个/qi]mp[dz[zc漂亮/ax的/us]np[dz大/ax胜战/ng]np]np]vp]vp]jp。/w

其中的zw(主谓结构)、db(动宾结构)、dz(定中结构)、sl(数量结构)等都是结构功能的标记。

7、北京邮电大学的树库

他们在美国LDC的汉语句法树库的基础上进行自动获取语法规则的研究。LDC的树库包含新华社1994到1998年的325篇文章,包含4185颗树,10万个词。他们对LDC树库进行了改造,语法规则和分析模型参数都是通过LDC树库统计和训练得到。在抽取规则之前,进行了如下的预处理工作:

删除所有空的单词;

去掉所有的非终结符的功能标记;

去掉哪些只有一个孩子结点,且此孩子结点是非终结符的结点。

在此基础上进行规则的自动获取,采用改进的CYK算法自动获取了3690条规则,形式如下:

parent_symbol|current_symbol->RHS1….RHSnlog_probability

比如:NP|NP->NNNNNN-0.879602

8、哈尔滨工业大学机器翻译实验室(MT-Lab)的汉语语料库

容量约1GB。

9、香港城市理工大学的对比语料库

该大学语言资讯科学研究中心建立了LIVAC(LinguisticvarietyinChinesecommunities)语料库,其宗旨在于研究使用中文的各个地区使用语言的异同。这个语料库从1993年开始策划,在香港、澳门、上海、新加坡和台湾五个不同的地区,每日选定一天的报纸摘录其部分资料入库,资料的内容包括社论、第一版的全部新闻和文章、国际版、地方版、特写、评论等。每天收集的份量约两万字,如果已经达到两万字,不太重要的资料就只好割爱。从1995年7月到1997年6月的两年内,该语料库所收集的资料总字数为15,234,551字,经过自动切词和人工校对之后总词数约为8,869,900词。

统计结果表明,中文各地区所使用的词语,以双音节为最多,其次是三音节,再其次是四音节,再再其次是单音节,但是,单音节词语的使用频度却比较高,仅次于双音节词语的频度,而且远远超出其他音节词语频度之总合。

统计结果还表明,香港和澳门的用词相同率最高,香港与台湾、香港与新加坡的用词相同率居第二,香港与上海的用词相同率最低。从历史背景和社会情况来看,这个数字是可以接受的。因为香港与澳门距离很近,又都长期被欧洲国家管制,香港与台湾和新加坡的商务情况和社会结构之间的相同点都比香港与上海之间多,这种情况,在词语中必定会反映出来。

统计结果还表明,新加坡所用词语比较少,而上海的特有词语比较多,这似乎可以从新加坡华语并非当地社会生活的唯一语言,而上海在中国的特殊地位和经济活动非常活跃有关。

10、台湾的语料库

台湾建立了平衡语料库(SinicaCorpus,中央研究院)和树图语料库(SinicaTreebank,中央研究院)。两个都是标记语料库,有一定加工深度。语料库规模约500万字。

(四)口语语料库

1、中国社会科学院语言所

他们建立了现代自然口语语料库,包括一个旅馆预定口语语料库,搜集了2小时电话的对话,对话人数200人以上,进行韵律切分和句法标注,是wav文件,用SAMPA-C标音,C-ToBI2.0标注韵律,并转写成汉字文本;还包括一个无限制的自然对话语料库:14.2小时的对话,对话人数22人,进行韵律切分和句法标注,是wav文件,用SAMPA-C标音,C-ToBI2.0标注韵律,并转写成汉字文本。

语言所还正在建立现代汉语方言自然口语语料库,设计了1500种引导话题和多种采集自然口语的交际环境,其中,采用话题引导的方式采集的话题语料占60%,在说话人不知道的情况下现场采集的口语语料占40%。

2、中国科学院自动化所

该所建立了一个旅游咨询口语对话语料库和一个旅馆预定口语对话语料库,可以用于限定领域的口语理解模型、口语对话管理模型、基于统计的口语翻译技术等研究。

(五)双语语料库的建设

1、英汉双语语料库

北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。

哈尔滨工业大学的英汉双语语料库:1998年有3万句子对,已经进行了词性标注,正在扩充为40-50万句子对,在句子、短语、词汇三级实现双语对齐。

东北大学的英汉双语语段库:在双语语料库基础上,建造双语语段库,1999年构造了10万双语语段库,进行了基于语段的英汉机器翻译实验,正在以“机获人校”的办法建造100万双语语段库,拟扩充到500万双语语段库,进一步建造具有1000万语段的大容量网上英汉语段电子词典,研究电子词典中搭配短语获取算法,建造大容量网上电子英汉搭配词典。

外语教学与研究出版社:

--英汉文学作品语料库

--冯友兰《中国哲学史》汉英对照语料库

--李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库

国家语言文字工作委员会语言文字应用研究所建立了英汉双语语料库,其中包括一个计算机专业的双语语料库和一个柏拉图(Plato)哲学名著《理想国》(Politeia)的双语语料库。在这些双语语料库上,他们进行了汉字极限熵的测定和双语对齐的研究。

中国科学院软件研究所的英汉双语语料库:进行双语对齐算法研究。现有15万对英汉双语对齐句子库,已经切分和标注。

中国科学院自动化研究所的英汉双语语料库:购买LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对,并从英汉双解词典中摘取例句25000个句子对。

2、日汉对译语料库

北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库,内容以中日文学名著为主,兼收剧本、散文、政论文,原文和译文全文收录,部分名著收入多个译本。2000万字。进行自动切分和词性标注,部分文本进行语法和语义标注,采用SGML国际标准。

3、德汉双语语料库

山东海洋大学语言文学院研制的《蝴蝶》(王蒙小说)德汉对照语料库,用于德汉翻译对比研究,完全采用手工方式排比语料,主要比较了汉语的“了”与德语动词完成式的关系。规模很小。

4、汉日英分类熟语料库

复旦大学计算机系建立了容量为1GB汉日英分类熟语料库,包含数千个类别,数十万篇文章。

(六)少数民族语言语料库

1、维吾尔语语料库

新疆师范大学建立了200万词的维吾尔语语料库,拟发展到300万词。

2藏语语料库

中国社会科学院民族研究所建立了500万藏语字符的藏语语料库,拟进行切分和标注的研究。

3、蒙古语语料库

内蒙古大学建立了蒙古语语料库,进行了初步的切分和标注。

三、语料库的加工技术

(一)自动切分

在自动切分方面,提出的切分歧义技术有:“松弛法”(FanC.K.,TsaiW.H.1988),“扩充转移网络”(黄祥喜1989),“短语结构文法”(梁南元1990;姚天顺、张桂平等1990;YehC.L.,LeeH.J.1991;韩世欣、王开铸1992),“专家系统”方法(徐辉、何克抗等1991),“神经网络”方法(徐秉铮、詹剑等,1993),“有限状态自动机”方法(SproatR.,ShihC.Letal.1996),“隐Markov模型”(LaiB.Y.,SunM.S.etal1997;沈达阳、孙茂松等1997a;孙茂松、左正平等1999),“Brill式转换法”(PalmerD.D.1997)等。

此外还研究了人名识别技术、地名识别技术、机构名识别技术、新词语识别技术。

(二)自动标注

在自动标注方面,基于规则的方法主要解决标注中的兼类词问题;基于统计的方法主要有CLAWS算法、VOLSUNGA算法、HMM(隐马尔可夫模型)、TBED法(Transformation-BasedError-Driven,EricBrill于1993年提出的方法)

(三)自动短语结构标注

短语结构标注的结果,可以用短语结构语法树(P-Tree)来表示,也可以用依存树(D-Tree)来表示,有的系统采用了从P-Tree到D-Tree的转换技术,有的系统采用CYK算法进行短语结构分析。

(四)双语对齐技术

主要采用基于长度的方法、基于词典的方法以及把这两种方法结合起来的混合方法。

四、语料库建设中的若干问题

(一)语料库的规范与标准

我国中文信息界从1988年开始研制《信息处理用现代汉语分词规范》的国家标准,根据科学性、严谨性、稳定性、通用性、实用性和完整性(规范对现代汉语语言现象的覆盖率应该达到99%以上),经过三年时间的研究,七易其稿,于1992年批准为国家标准,标准号为GB/T13715-92。这个规范的主体结构分为主题内容与适用范围、引用标准、术语、概述和具体说明五个部分。由于汉语中语素、单词和词组的界限不够清晰,分词规范中除了基本上采用了《暂拟汉语教学语法系统》中词的定义,把词定义为“最小的独立运用的语言单位”之外,还特别地提出了“分词单位”的概念,把“分词单位”定义为“汉语信息处理使用的具有确定的语义或语法功能的基本单位”,并且指出,分词单位“包括本规范限定的词和词组”。“分词单位”的提出,巧妙地避开了关于词的定义的争论,协调了当时学术界的矛盾。

我国还研制了《信息处理用现代汉语常用词表》。由于汉语语言现象的极端复杂性,几乎每条规则都会出现例外,因此,分词规范提出了“结合紧密,使用稳定”的原则作为判定一个符号串是否可以作为分词单位的准则。但是,这个原则不够具体,实行起来往往见仁见智,从而造成不同系统中分词单位的不一致。所以,后来有的学者建议在规范之外,还应该根据规范提出一个词表来作进一步具体的说明,以利规范的实施。采用“规范+词表”的策略,这是很有远见的做法。1994年,该规范的主要制定者刘源教授等人根据现代汉语词频统计的结果,公布了一个《信息处理用现代汉语常用词表》,收词43570条,可惜,这个词表对于规范中的一些难点,仍然没有作出很好的处理,权威性不够。

台湾研制了一个《资讯处理用中文分词规范》。台湾的计算语言学会在1995年提出了《资讯处理用中文分词规范》,这个规范提出三条基本原则:1.分词单位必须符合语言学理论的要求;2.在信息处理上确实可行;3.能确保真实文本处理的一致性。另外还制定了一些辅助原则(合并原则、切分原则),以决定合并还是切分。该规范按照分词的难易程度,把分词规范分为信、达、雅三个不同的等级。信级标准是基本资料交换的标准;达级标准是机器翻译、情报检索等自然语言处理的标准;雅级标准则是分词的理想境界。这种分等级的做法有利于处理难易程度不同的分词作业。

我国还研制了《信息处理用现代汉语规范词表》。国家语言文字工作委员会在1995年提出研制《信息处理用现代汉语规范词表》的任务,目的在于从政府的角度,研制规范的现代汉语通用词表,以便作为大家遵循的、统一的通用词表,词表的规模大约6万至8万条,这项工作还未完成。现代汉语的词汇是一个复杂的体系,除了通用词之外,还有术语、方言词语、文言词语、专名词语(包括人名、地名、机构名等)、各种熟语(包括成语、惯用语、歇后语、谚语、格言等)。词语是不断发展变化的,随着社会的发展,还会出现大量的新词新语。信息处理会涉及到上述各种词语,因此,词表的制定,除了制定通用词表之外,还应该制订不同专业的术语词表、方言词表、文言词表、专名词表、熟语词表、新词语词表等。这是一项庞大的工程。这些词表的制订和规范化,对于我国计算语言学的进一步发展有着深远的影响。

我国还研制了《信息处理用现代汉语词类标记集规范》:该规范由教育部语言文字应用研究所计算语言学研究室研制,包括18个大类。信息处理用现代汉语词类标记集规范制订的主要原则有三个:①语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起某些参考作用。②允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。③词类标记集中的大类应能覆盖现代汉语的全部词。这个规范正在考虑提升为国家标准。

我国某些学者关注到国际上关于通用置标语言的进展。由计算机和人文科学学会(ACH)、计算语言学学会(ACL)和文学与语言计算学会(ALLC)联合提出了TEI(TextEncodingInitiative,文本编码倡议,1998年),其目标是为电子文本制订一套统一的编码规范,以推动语料存储格式的标准化,实现语料的交换和共享。

由欧洲MULTEXT、EAGLES和VASSAR/CNRScollaboration联合提出CES(CorpusEncodingStandard,语料库编码标准),可广泛应用于语料库的研制与开发。

1986年ISO正式了国际标准SGML(StandardGeneralizedMarkupLanguage,标准通用置标语言),标准号是ISO8879-1986.我国于1995年也把SGML语言作为国家标准,标准号为GB14814。冯志伟在《当代语言学》(1998年,第4期)的《标准通用置标语言SGML及其在自然语言处理中的应用》一文详细介绍过SGML语言。

XML(eXtensibleMarkupLanguage,可扩充置标语言)是SGML的一个子集,被广泛地用做语料库标注的元语言,通过DTD(DocumentTypeDefinition,文件类型定义)和Schema来规范XML文件,从而使表现与内容分离,规范与实现分离,具有良好的扩缩性。

我国语料库的建设将一定会采用通用置标语言作为描述语料库的元语言。

(二)语料库的资源共享

语料库的资源共享的方式有如下几种:作为产品出售;实行会员制;授予使用许可权;给非赢利目的的学术结构提供无偿使用。

(三)语料库的知识产权

随着语料库的广泛使用,语料库的知识产权问题越来越尖锐,以正式出版物为资源的语料库面临版权的问题。建议政府有关部门建立关于语料库资源的版权法规,建议中国中文信息学会出面协调。

(四)语料库加工中的统计垃圾

由于电子文本的普遍使用,语料资源的获取变得越来越容易,我国大规模的真实文本语料库其规模已经达到5亿字。美国计算语言学会的ACL/DCI数据采集计划指出,如果以文本形式存储语料,语料库的容量一般可以为1亿词次以上,将来可以达到万亿词次的数量级。随着语料库容量的不断增大,语料统计中的数据稀疏现象会越来越严重。宋柔在统计语料库中的词语接续对时发现:“随着语料库规模的增大,新增加的接续对中的垃圾逐渐会占大部分甚至绝大部分。垃圾主要分布在统计到的低频度接续对中,主要来源是分词中专名识别错误。”应该看到,在统计垃圾中蕴藏着许多正在萌芽的新的语言现象,如“喷塑、蒜农、危改、市话、高检”等低频度的新词语,由于在词典中没有存储,都可以在统计垃圾中找到。如何真确地对待统计垃圾,避免统计中的数据稀疏现象,变垃圾为有用的语言资源,是大规模真实文本处理的一个新课题。

参考文献:

1、J.Sinclair,ReflectionsoncomputercorporainEnglishlanguageresearch[M],1982.

2、北京语言学院语言教学研究所,汉语词汇的统计与分析[M],外语教学与研究出版社,1985年。

3、冯志伟,计算语言学基础[M],商务印书馆,2001年。

4、冯志伟,语料库语言学与机器翻译[M],《信息网络时代与日本研究》,山东大学出版社,1999年。

5、刘开瑛,中文文本自动分词和标注[M],商务印书馆,2000年。

语料库范文篇7

关键词:语料库;近义词;语义韵;词汇教学

1引言

1.1研究背景

二语教学是为了提高学习者的词汇能力,词汇是提高英语写作、阅读、会话等技能的关键[1]。然而对于词语的研究到近代才刚刚开始,“Lexis”一词在英语中只有相对短暂的历史,直到大约20世纪50年代才开始在英国英语中使用[2]。Firth提出了著名的“语境论”,他认为词的意义不在人的大脑里,而是在语境之中。近义词在二语词汇教学和习得中是一个重难点,因为它们在结构、词形、词义和语义等方面具有较大的相似性。近义词在英语词汇中占比较大,在中学阶段,英语词汇教学的重难点也在于如何辨析这类词汇。传统的词汇教学采用中文释义或同义词讲解的方法,学生利用汉语意思记忆和归类单词,忽略了单词所处的语境。学生在使用近义词时,也会因为语境不当,概念模糊而导致误用。语料库中有大量的语言事实,也就是人们在交际中使用的真实的语言。因此,语料库将单词与真实语境相结合,能够帮助学生辨析近义词之间的异同,因此学生能理解词汇的准确内涵并正确使用。

1.2国内外研究现状

词语研究一直是弗斯语言学的核心之一,可以说,词语学主要根植在Firth的意义理论中。之后,他的学生Sinclair和Halliday等人继承并发展了他的思想,提出语义韵等重要概念。对于词语学的研究离不开语料库,最早建立的语料库是Brown语料库,后来又陆续出现了LOB,COBUILD等,本文中所使用的BNC也是其中之一。国外学者们,如Biber等利用语料库对近义词的语境和语域的差异进行了探究[3],Thomas对keep和get的用法差异开展了相关讨论[4]。国内研究主要有几个方面:一是基于本族语语料库进行对近义词的研究,包括联接,语义韵等方面。比如谢卓均就用语料库辨析了quite和rather的区别[5],王瑞等就complete,finish,perform这三个词的语义韵进行对比研究[6]。二是基于本族语语料库和中国学习者语料库进行对比,以推断中国学生用词不当的原因。如陈建生研究了学生英语作文中的介词at在语料库中的分布情况[7],肖文艳就对中小学教材词汇进行了分析[8]。可见,无论是国内外,对于词汇的研究是离不开语料库的。

1.3研究思路和方法

BNC的词汇量已经超过一个亿,是目前最具代表性的本族语语料库之一。本文选取了高中英语一对近义词,acknowledge和admit,借助于BNC语料库,采用数据和数据驱动相结合的方法,通过分析词频分布差异,语义韵,研究这两个单词的具体使用情况,为学生和教师提供近义词辨析的方法。

2acknowledge和admit在BNC语料库中的差异

2.1acknowledge和admit在语料库不同语域的词频分布差异

词语搭配明显地受语域的影响。Firth提出语境的概念,Halliday又将语境的概念发展为语域;语域又被系统地分为域、旨和式[9]。简单来说,域就是语言使用的习惯性环境,任何语言使用都受到语域的影响,不同语域的语言使用呈现着不同的特点。语域对近义词的辨析起着重要作用。通过检索英国当代语料库(BNC),得出acknowledge和obtain频数和频率结果。频率是语料库语言学中最重要的概念之一,通过计算语料库中某一词汇或短语在每百万词出现的频数(又称标准化频数),可以看出该词的分布特征。由于近义词存在内在意义的差别,即在不同的语域会呈现出不同的分布特征,所以统计它们不同语域中的频率差异,有助于学生将近义词进行区分,掌握地道的词汇表达(见表1)[。另外,acknowledge和admit在各个语域的频数柱状图(见表2),这将清晰地显示两者在不同语域的分布差别。以上数据显示,acknowledge和admit在BNC语料库中出现的频数相差很大,总体来说,admit的使用频数是acknowledge的几倍。在具体语域中,admit在小说语域中使用频率最高,在其他语域中使用频率相当;acknowledge在学术和音乐语域使用频率较高,在口语和杂志中使用频率最低。而不论在哪一个语域,admit的使用频率都高于acknowledge。值得注意的是,在小说语域中,admit出现的频数是acknowledge出现的6倍多。通过对比这两个单词在BNC语料库中的频数分布和在不同语域的频率,得出admit使用频率比acknowledge高。在实际使用过程中,学习者可以借助语料库分析近义词在各个语域中的使用频率。根据语域选择相应的词汇,避免机械记忆而导致的词汇误用、乱用现象。

2.2acknowledge和admit的搭配词

词语搭配研究之父弗斯曾说过,“由词之结伴可知其词”,观察搭配是研究词语学或词语结构的一种重要手段和途径。通过以节点词为中心搜索,左右显示的词数构成了该节点词的微型语境。根据Krishnamurthy的观点,在利用语料库进行检索时,选取节点词左右两侧5个词范围内出现的搭配词进行观察,才具有研究意义。之后通过搭配词和节点词的MI值来计算搭配强度,以此分析搭配词的特征。MI值即相互信息值(MutualInforma⁃tionValue),当MI值大于3时,认为该搭配具有显著的搭配强度,MI值和搭配强度呈现正相关关系。本文以admit和acknowledge为节点词,分别检索二者左右各5个词之内的搭配词,并得出这组近义词各自搭配词与节点词的共现频数和搭配强度MI值。通过检索发现,它们的搭配词数量较多,按照MI值大小,排除非单词符号,选取出现频数排在前20的搭配词作为研究对象,所选取的搭配词与节点词的共现频数要大于五次。

2.3acknowledge和admit的语义韵

杨惠中(2002)在《语料库语言学》一书中介绍了语义韵的含义:通过语料库观察,有些词项习惯性地吸引某一类词项构成搭配,具有相同或者相似语义特点的词项反复地与关键词项在文本中出现,关键词也就具有了相关的语言特点,语境中就弥漫着一种特殊的语义氛围,这就是语义韵。Sinclair(1991)发现了短语动词setin有着明显的消极语义特征,之后又提出了拓展意义单位模型,认为语义韵是一种在文本中高度抽象的态度意义[11]自此之后,对语义韵的研究成了词语搭配研究的又一大方面。语义韵主要有消极语义韵,积极语义韵和混合语义韵。根据admit和acknowledge在BNC语料库中的搭配词频率和MI值可以看出,与admit搭配的形容词,如unwilling,embarrassed等都有一种不愿意,被迫,害怕等的消极语义;与之搭配的副词,如privately,表示私下里,不为人知的,也有一种消极语义;还有admit后面搭配的名词如mistake和defeat,表示承认错误和失败,也具有消极语义。因此,admit具有消极语义韵。而acknowledge后面搭配的名词没有呈现出特别的语义倾向,如existence,status等,都是中性的语义倾向;与之搭配的形容词有grateful和pleased,这两个词具有积极的语义倾向,acknowledge在这样的语境中具有积极语义韵;而又比如在V/Ved+toacknowledge这样的短语结构中,搭配词是fail、force、refuse这样具有消极语义的,呈现出消极语义韵。因此,acknowledge是一个具有积极含义和消极含义的混合语义韵。正是因为acknowledge的搭配词既有一般的中性搭配词,又有积极含义和消极含义的词项构成搭配,该词的语义韵就表现出一种错综复杂的情况。

3教学启示

语料库范文篇8

[关键词]语料库;商务英语;口译;应用

2017年国家教育部反馈的数据显示,2017年报考口译的人才仅有11772人,商务英语口译人才短板是新经济环境下我国经济发展下的人才缺口之一。1997年,意大利举行的CorpusUseandlearningtoTranslate中对翻译教学中语料库的运用展开了深入探讨,随着语料库建设方式的多样化和丰富化,翻译教学管理和操作的多样化教学展开已经成为翻译教学的共识。口译教学作为翻译教学中的一个分支,能够通过平行语料库的运用,在学生主题理解、术语选择、惯用表达等方面都能够得到提升。因此,研究语料库在商务英语口译教学中的应用,对于商务英语口译教学质量和整体水平的提高有着重要价值。

一、商务英语口译教学现状

商务英语口译教学具有实时和不可预测两大性质,这两大性质让商务英语口译教学难度要远远大于商务英语的笔译教学。由于口译中对学生的语言输入输出能力有着极高的要求,因此教学过程中需要对学生语言能力、反应能力、速记能力表达能力等方面均需要培养。就目前商务英语口译教学现状而言,高要求和高难度都让商务英语口译教学发展现状存在较多问题:一是商务英语口译教学中的源语输入问题,在具体的教学展开过程中学生无法规避误听、信息遗漏等问题,在当下的教学方法中也无法有效规避以上问题;二是商务英语口译教学中的编码问题,学生在具体的口译过程中会出现句型结构混淆、遗漏,英汉转换过程中的语态、时态难以有效转换等问题。在商务英语口译教学中也并没有针对这一问题出现有效的解决措施;三是目的语的输出问题,词汇的精准选择,中英语言转换中的信息残缺以及难以做到口译翻译的即时性;四是商务英语口译教学的时间限制,口译教学需要大量的教学时间和前期系统的学习,但是就目前高校的商务英语口译教学课时安排分析,一个学期的课时难以满足当前的教学需求,短暂的课时难以培养出大量优秀的口译人才。

二、语料库在商务英语口译中的应用

(一)研究目标。本文的研究主要旨在通过构建针对商务英语口译教学的双语平行语语料库,克服原本商务英语口语教学中的难点,实现以学生为主体的商务英语口译新教学模式,解决以往商务英语口译教学中的难点,通过学生在语料库中的自主搜索和操作,营造问题式的学习环境,切实提高学生在实际应用中的口译能力。(二)针对商务英语口译教学的语料库构建。为了切实提高商务英语口译教学的整体质量,解决商务英语口译教学中存在的问题,语料库的构建需要以双语平行语料库的构建为基准,通过英汉语料库的构建,切实让不同水平的学生在商务英语口译学习中有所提高。针对商务英语口译教学的双语平行语料库在构建过程中需要通过以下两点,增加教学中的语料库使用价值:1.通过对初始信息的标准标注、降噪处理等构建语料库。基于全国翻译专业资格考试系列教材的需求商务英语口译教学的语料库基本规模为600万字/词,英文对汉语和汉语对英文的语料基本呈现出平均分布。语料库根据国家外语翻译等级考试(NSETI)的等级划分为商务英语口译四级子语料库、商务英语口译三级子语料库、商务英语口译二级子语料库、商务英语口译一级子语料库。语料的主要来源是目前各大商务英语口译证书考试指定的系列教材,如《英语翻译四级口译》、《英语翻译三级口译》等。在语料库构建的过程中需要选择高质量的文本,同时在语料的人工录入过程中,需要对信息进行有效的核校,利用雅信CAT等对齐工具让平行语料库的英汉句子层面对齐;2.对语料库语料内容的恰当标注。商务英语口译语料库的构建中,为了提高语料库的整体使用价值,需要对语料库的内容进行人工的标注,以增加语料库的使用价值。针对商务英语口译教学的基本情况,语料库的基本标注内容涉及两个方面:一是词性的基本标注。在词性的标注过程中可以使用TreeTagger工具对英文的词性进行标注;二是对基本语言特征信息和翻译基本信息的标注。语言特征信息的标注需要通过对中英文转换过程中词汇、基本的语法、句法、语义之间的不同而展开区别性的特征标注。在语言特征信息的标注过程中仅需要对具有区别性的中英内容进行标注,并不需要对每一个项目都展开标注。如某些在翻译过程中需要运用到翻译技巧的句型需要对语言特征进行标注,该种标注方法能够让学生清晰的了解口译翻译中的技巧和技巧使用的原则,譬如:在过去的三年里他一直在街头卖艺。(verb-prominent)Hehasbeenastreetperformerforthepastthreeyears.(noun-prominent)在商务英语口译教学中学生能够自主观察到原文和译文中基本语言翻译技巧,中文翻译中为动词占优结构,而在英文翻译过程中则转化为名词占优结构,基本的翻译技巧和翻译规则为名词和动词之间的结构转换下实现了翻译。让学生在口译表达中能够对中英文语境下词性结构的变化有所了解,增加商务英语口译翻译过程中的精准性,让翻译用语更符合规范。而语言基本特征的标识,能够让学生在口译学习过程中,更好的理解口译的侧重点和基本的口译技巧。(三)语料库在商务英语口译教学的应用。1.教学思路。基于平行语料库的商务英语口译教学中,教师不再是教学的主导者,教师在具体的教学过程中,成为引导学生口译学习和思考的关键。颠覆以往的商务英语口译教学中的师生关系和模式,让学生通过商务英语口译语料库检索丰富地、真实的语料内容,根据切实的口译内容,对需要翻译的案例进行分析和思考,在分析思考中产生关于基本的翻译方式、双语转换翻译优劣等问题,展开师生、生生之间的探讨,最终通过WordSmith等检索软件对相似例句从词长、句长、句型使用等方面展开全面的评价,通过上述方式实现商务英语的口译教学。2.教学内容的基本安排。基于语料库的商务英语口译教学中教学内容的安排要突破原本自上而下的语言教学层级结构。改变以往学习的基本认知方式。在教学内容的基本安排上要以频率原则为主,将平行语料库中的内容按照语言使用的基本频次,将其划分为高频内容、中频内容、低频内容,在授课过程中要以高频内容为主,中频内容为次、低频内容为辅。通过三个频段的教学安排,让学生能够掌握常用句法的口译原则,能够做到基本内容脱口而出的熟练,中频和低频内容则有效补充学生的知识面,让学生掌握难度更大的口译技巧和方法。3.教学基本原则。在商务英语口译双语平行语料库的教学中,基本的教学原则发生变化。学生在教学过程中充分遵守先归纳、先呈现、先导学的三个原则,彻底将“教”与“学”的主被动关系进行颠覆。基于语料库的教学过程中要发挥学生在商务英语口译学习中的主观性。让学生通过对语料库语料的分析、归纳以及理解展开自主的学习,颠覆以往因果式的教学关系,让学生成为课堂主体。4.基于双语平行语料库的商务英语口译教学过程。商务英语口译教学中双语平行语料库的教学流程在目前的学术界尚未有学者展开研究,同时目前商务英语口译教学实践和操作尚未明确,本文结合商务英语口译教学现状对语料库下的商务英语口译教学进行了如下简要设计:首先需要教师或者学生针对特定的主题或者目标语料展开搜索,通过搜索选择合适的信息,学生首先需要对呈现出的语料在固定时间内展开观察和分析;其次学生要在教师的基本指引下,对商务英语口译学习中的语料有基本印象和认识,能够将双语互译中具有区别性的语言特征分辨出来,同时在大脑中对语料信息有基本的认识,能够明确互译过程中需要运用到的句法、语篇等语言特征。学生要以口译过程中语言信息特征的变化为核心问题,展开分析。该过程基本是由师生互动共同完成,但是教师在此过程中仅需充当引导者,不能刻意左右学生思维过程;接着,通过生生之间的交流,以小组或者其它形式分析口译过程中基本的语言特征以及口译技巧,同时讨论不同的口译处理效果,并以小组或者其它形式对口译质量进行评价;最后,教师和学生针对口译结果和主题展开双向总结,教师需要从句法、翻译技巧的运用等方面对学生整体的口译水平进行评价,学生则需要根据小组之间的对比结果对自身口译过程中的搭配、句子结构的呈现方式等进行总结。上述每一个环节中,教师需要利用问题具有针对性的引导学生展开深入探索和分析。在上述教学环节的整体设计中,教师需要通过对学生指引和平行语料库内容的分析,让学生树立正确的口译观,培养学生灵活的口译技能,从而提高学生在实际口译过程中的综合能力。

三、结语

综上所述,语料库庞大的数据资源,便捷的语料资源获取方式都能够解决当前学生在商务英语口译学习中教学方式落后而导致学生在口译过程中语言信息编码漏码、缺码等问题,语料库呈现出的数据资源再加上教学过程中问题式的引导,能够有效帮助学生提高商务英语学习效率,形成具有特色的口译风格。

参考文献:

[1]林志坚.商务英语口语教学中存在的问题及对策分析[J].淮南职业技术学院学报,2015,15(06):93-96.

[2]张二霞.大学商务英语口语教学存在的问题及对策[J].漯河职业技术学院学报,2009,8(06):142-143.

[3]苏微.商务英语口语教学中存在的问题及解决对策[J].吉林省教育学院学报,2009,25(09):88-89.

[4]张丽霞.高职商务英语口语教学方法探索与研究[J].福建商业高等专科学校学报,2007(04):47-50.

语料库范文篇9

语料库主要是采用的ASP语言写程序,采用SQLSE1KVE1K2000数据库服务器做数据存储服务以及采用IIS60Web服务器语料库检索网站。这个过程主要有:语料采集、原料库加工和开发语料库的检索功能等环节。

1、语料一般都是来源于互联网上的一些读书网站,这是主要来源。

2、在小学语文教学语料库设计时肯定会碰到难点,在建设资料库时需要收集的资料并不是汇集在一起的,需要设计者进行搜集,要把这些结构多样的资源转化为结构统一的语料库并不是一件简单的事,而且很多资源都是网页形式的,而语料库的全文却是文本形式的,这样就要求设计者进行处理,这也是一项比较困难繁杂的工作。

3、对于小学语文教学语料库所遇到问题的解决方法,大多数网站的资源格式基本上都是一样的。这样我们就可以利用这些相同点来进行解决,我们可以去发现各个网站对于文章的作者、标题等的标记的规则,将其转化为我们需要的文本格式,运用到我们的语料库中。但是在有些情况下某个网站的不同的页面中对文章的同一部分所用的标记也不相同,这些地方我们的解决方法是寻找两者之间的共性,尤其是在标记部分的共性,利用这些共性对这两种标记方式进行统一的表达。

4、注意结果的统计。小学的语料库中共收集了一万零六百六十五篇,这些结果的收集对教学和研究是非常有益的。小学语文教学语料库的加工要注意句子层次的加工和篇章层次的加工,句子层次的加工主要是将篇章分割成若干句子,同时确定每句话的长度,而后将这些句子数据存入句子数据表中。篇章层次的加工在语料采集过程已经部分的完成,包括对标题、作者、体裁和字数等属性。

二、开发重点

在小学语文教学语料库的开发中最为重要的一点就是检索功能,下面就这以重点进行详细的分析。句子检索可进行关键词居中(KWIC)检索,关键词为简体中文的任意字符串,通过设定跨距(span)来限定检索关键词的左右语境范围,跨距要一汉字为单位。返回的检索结果以原始预料的句子为最大话语单位,作为检索的上下文语境的最大范围。如果需要查看更大范围的上下文语境可以更进一步查看该句子所在的篇章,允许对检测的结果进行复制和保存。句子检索功能可实现基于连续字串、短语和复句句型的句子检索,方便课件制作人员查找关于某个词语多种应用情景的句子。篇章检索篇章检索的检索项有:作者、标题、体裁、语体等,对作者、标题等检索提高模糊匹配功能。对体裁和语体等则提供全文检索,检索全文内容中包含的一项或多项内容。在教学过程中,教师提问问题的时候要注重从学生的实际情况出发,要依照学生掌握知识的能力和理解问题的能力来进行,设置的问题要难易适中,让学生产生兴趣。如果提问的问题难度太高,学生的积极性就会被挫伤;如果太简单和太容易,这个问题也就失去了思考的价值。从心理学的角度上来讲,学生对自己不太熟悉的内容容易置之不理,更别说自己完全不熟悉的内容了。比如在讲到《谈骨气》这一课,教师问学生:作者是如何论证中国人是具有骨气的?这种问题与学生的思维层次相脱离,他们不太容易回答出来。如果教师这样问:《谈骨气》这一文章的中心论点是什么?骨气的定义是什么?作者在文章中举了那些关于骨气的例子?这些例子和孟子的哪一句话相同?把这些例子进行结合说明了一个什么样的观点?就与学生的思维能力相契合,学生理解文章也就轻而易举了,不但把握住了思想意义,而且还学会了对文章进行论证的方法。

三、结语

语料库范文篇10

英语的词汇总量可以说是难以计数的,如此海量的词汇,在实际学习中没有必要完全掌握,教师应当引导学生充分掌握和学习最基本、能产性最强以及高频使用的词汇。(肖忠华、戴光荣,2010)语料库的词频统计就正好符合该要求,通过词频统计,学生能够充分了解不同等级高频词汇的数量及应用范围。根据Kucera与Francis统计,在Brown语料库中进行检索,结果显示,频率排名在1000以内的单词,覆盖普通文本72%;频率排名在2000以内的单词,覆盖普通文本达到了79.6%。为此,在实施教学时,教师应在有限的时间内,将精力集中在词频2000以内的单词,若学生能够基本掌握这些词汇,那么也就基本掌握了所阅读文章的大概意思,这不仅能提高学生对词汇积累的兴趣和成就感,同时也有利于教师教学质量和效率的提高。

2分析语义韵

语义韵是词汇教学中重要的方面,根据节点词与共现词的语义特点,可将语义韵分为消极、中性和积极三种类型。其中消极语义韵的语境通常具有浓厚的消极色彩;中性语义韵能够吸引各种词项语义,氛围较为复杂,故又称之为错综语义韵;积极语义韵的语义氛围具有强烈的积极语义。

3辨析词语搭配错误

单词本身的含义,并非独立存在,是与其他词汇共同组成语句来体现的。词项与结伴词项间有一定的结伴规律,能够相互吸引、相互期待,并且搭配成份的类联接关系等都主要通过词语搭配的方式存在,这也是词语搭配研究的关键内容。通过语料库的运用,学生不仅能够更加形象、直观地了解词语搭配,而且能够辨析和纠正词语搭配错误。

4结论