大数据语言学研究形势探究

时间:2022-04-10 04:27:42

大数据语言学研究形势探究

摘要:近年来随着科学技术的发展,大数据、数据库等概念频繁地出现在人们视野。其中,大数据以及构建外文语料库在学术研究领域蔚然成风。通过查阅相关的期刊、论文和书籍对其有一定的了解。本文从大数据是什么,构建语料库对于语言学研究的意义是什么,以及在大数据背景下语言学研究的形势变化入手,对当今大数据背景下数据和语言学研究的现状进行简要的解释和讨论,同时希望对数据库有一个比较整体的认识和了解。

关键词:大数据;语言学研究;语料库

一、前言

随着计算机科学技术的快速发展人们迎来了信息时代。信息时代的一个重要特点就是大量的数据的涌现。这使得人们的生活方式和思维方式发生改变,也对语言学研究产生重大的影响。语言学研究离不开对语言资料搜集、处理、整合。传统的语言研究在搜集语料方面是十分低效的,需要大量的人力去翻阅典籍、做记录。现在通过大数据与语言研究的结合,使得这些问题都迎刃而解。根据不同的语言研究目的,学者们将会构建不同内容的语料库,从而完成对语料的处理、加工等事宜。可以说,大数据开启语言研究的一个新的天地。

二、大数据

近年来在计算机科学领域最火的一个词就是“大数据”。对于“大数据”,人们起初是一个朦胧的认识状态,但是,随着科技发展以及对大数据的运用,人们开始认识到大数据的巨大作用和意义。大数据不仅改变着人们的日常生活方式,而且对人们的思维方式也有了潜移默化的影响。与此同时,它也拉近不同领域之间的距离,从而对交叉学科发展具有重要的意义。它带动着各个领域的发展,使人们更加清晰地认识我们所生活的世界。大数据不仅仅是体现在它数据的庞大上,更重要的是透过这些庞大的数据背后所隐藏的信息价值——人类认知、行为的模式以及人和社会、自然交互的规律。在过去的科学研究中,我们能利用的资源是有限的,或者说很难搜集到比较全面的信息内容,很多时候人们都是通过有限的事例来总结普遍的规律。这样往往会使人忽略掉一些重要的规律,甚至走向错误的方向。大数据却可以快速高效为我们提供相应的数据信息,同时也会提供相关信息,这是在传统研究方式中不曾有的操作。身处在这个大数据的时代,我们不可避免要受到它的影响。通过网络,我们可以快速便捷的找到需要的信息,也能通过编辑、搜索等产生各种数据。我们总是接收、检索新信息和处理现有信息。通过不同地区、不同领域、不同国家,在某一时段内信息的检索和处理,我们可以对其在该时间段的状况有一个初步了解和预判。例如:2018年的春运,我们通过大数据获取各地间往返的客流量以及他们所选取的交通方式,进而在飞机航班、高铁发车次数、火车列次上作出相应的调整,减轻了客运枢纽的压力,减轻了春运的压力。语言作为人类的交际工具,广泛应用于各个领域。古往今来,人们不断开拓新事物、新领域,随之相应地语言体系也逐渐形成并壮大。因此大数据为语言学研究提供了大量的事实语料。同时,也在影响着语言研究的方法。面对大量的事实语料,我们要对其进行科学地分析、处理以及整理,这需要一个完整的系统工具来完成这项任务。

三、语料库——语言学研究工具

20世纪60年代开始语料库语言学逐渐建立。语料库语言学是以经验主义和科学理性主义为哲学基础,自下而上的归纳法为其方法论。从建立起,就一直以真实语料为研究的基础,以大量的日常用语为依据,以概率为特征,通过统计量化的手段建立模型。语言学研究应该以语言事实为依据,广泛地、细致地搜索语言资料。随着计算机的发展,通过构建语料库来进行语言研究已经成为一个趋势。语料库是储存了很多事实语料的库房。语言学要重视对自然真实语料的意义研究,所以,语料库的数据不仅要追求“量”,也要重视其“质”。语料库作为语言研究的工具,需要收录大量的真实语料。在构建语料库时,文本采集要有一定的标准,采集的文本量也要达到电脑可以处理的规模。其中,需要对采集来的文本进行标注、赋码等过程的加工。语料库在语言研究的各个领域都有重要的作用。在语言教育的领域,对语料词频、读音、句型、搭配等进行分析统计,可对语料有十分清晰的把握。在应用语言学领域也运用广泛。如:利用相关的系统软件,对语料库可以进行句法、词汇、口语、语义、语言变异、话语分析等的研究。除此之外,还能通过运用语料库技术进行语音合成、识别的任务等。在社会语言学领域,依据大规模真实语料进行社会语言现象、语言变异等分析,可以得到更加客观的准确的数据和结论。在文学领域,开拓文学研究同语料库相结合的新型研究模式。通过构建文学典籍及作品评论的语料库,并对其进行标注和检索等处理和加工。分别研究当中的人物形象、作品风格、主题、意象等进行分析,可以为观点提供更加客观的数据支撑。在翻译领域,为了提高翻译的效率和准确性会利用建成的双语平行语料库。同时,双语平行语料库还能为翻译研究和实践,提供实证材料的支持。在语言定量分析领域,通过利用大规模的真实语料,设计出要进行定量分析的知识点和所使用的各种题型,可以提高定量分析结果的效率和认可度。在大数据的背景下,我们能更加方便、快捷地实现资源共享,语料库亦是如此。如:日本构建的免费文库“青空文库”,它收录了大量的日本著名作家的文学作品。这对很多日本文学的研究者提供一个高效地收集一手资料的途径。在语言研究方面起到了很大作用。我们可以通过语料库检索到所需的语言信息,然后通过相应的软件进行分析、研究。由此可见,语料库是语言研究的重要工具。通过利用日文语料库检索信息的时候,我无意间发现,他们不止建立了自己本民族语言的语料库,而且对其他语言也构建了相对完整的语料库。如:中文的方言语库、读音语库、同义词语库等。通过对这些语料库的利用和观察,我们可以认识到日本人对中国文字的理解程度,同时,这对两中语言在翻译和习得等方面有很大帮助。语料库不仅处在双方语言的立场,它应该是多方的。如:中国和日本都会建立自己的相应的英语、法语等的语料库,对这些语料库的考察我们可以看到作为第二语言习得的国家,对这一第二语言的认识和发展的程度。实际上,语料库中有太多我们要检索的未知。

四、语言学研究形势

在大数据的背景下,语言研究焕发出新的生命力。语言作为信息交流的工具,与各个领域都关系密切。而大数据又缩短了各个领域间的距离,这使得语言研究不再是一个孤立的课题,我们要重视其相关学科的研究与发展,为语言学研究注入新的活力。布里斯南对于大数据时代的语言研究体会是从“花园”走向“灌木丛”。她认为“花园里的语言学”主要是分析语言学家们根据内省或者精挑细选得到的语言现象,且通过句法树等符号来进行定性的概括和总结。“灌木丛中的语言学”研究的是人们在现实生活所用的真实语言,往往借助条件概率、信息量等来进行定量分析。在这过程中,语言学研究形势会有显著的变化。语言学的研究形势在大数据背景下呈现出以下几个特点:第一,由曾经寻找语言事实内部的因果关系转向寻求语言事实间的相关关系。第二,不再过度追求微观层面上的精确性会让我们在语言宏观层面拥有更好的洞察力。第三,语言研究由寻找因果关系和构建各种语言解释模型转变为研究语言事实的相关关系上。总而言之,每一次的时代变革,都会在语言中留下痕迹,我们要追寻、探究这些痕迹,不断促进对语言的认识。我们要注重语言学的研究也要关注其相关学科的研究。在大数据的背景下,语言研究有着新的机遇和挑战。

五、结语

语言学从花园到灌木丛,这是信息时代的大数据给予我们的认识。未来,我们是否会从灌木丛走向森林,这取决科技和语言学的发展程度。就目前初进灌木丛的语言学者来说,面临着无限的新奇和挑战。一方面语言学家享受的大数据带来的便利,另一方面也认识大数据本身这个事物。如何更好地利用它进行语言学研究已成为一个重要课题。

【参考文献】

[1]刘海涛,林燕妮.大数据时代语言研究的方法和趋向[J].新疆师范大学报,2018(1):72-83.

[2]林海伦,王元卓,贾岩涛等.面向网络大数据的知识融合方法综述[J].计算机学报,2017(1):1-27.

[3]袁昌万,刘承宇,常淑丽.系统功能语言学与语料库的契合[J].外国语文,2016(1):104-109.

[4]李华勇.大数据视野下的语言研究新观[J].重庆交通大学学报,2015(4):134-137.

[5]詹卫东.大数据时代的汉语语言研究[J].山西大学学报(哲学社会科版).2013(5):70-77.

作者:田春媛 单位:黑龙江大学