自然语言处理十篇

时间:2023-03-26 03:46:53

自然语言处理

自然语言处理篇1

【关键词】语言处理;自动分词技术;信息技术

一、自然语言处理

自然语言处理(Natural Language Processing,简称NLP)是主要研究人与计算机交际中的语言问题的一门学科。“自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算机框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”(Manaris, 1999)更简单直观的说法,就是采用计算机技术来研究和处理自然语言。

自然语言是指人们口常使用的语言,如汉语、英语、口语、法语等,它是人类进行学习和互相交流的工具。“在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用语言,据统计用于数学计算仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。

所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。采用计算机技术来研究和处理自然语言是20世纪40年代末,50年代初才开始的,经过50多年的发展,这项研究取得了长足的进展,形成了计算机学科中一门重要的新兴学科—自然语言处理。

在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。同时自然语言处理技术作为自然语言理解这一能够开启人机交流的高层次技术的基础,也一直是人工智能界所关注的核心课题之一。显然,如果计算机能够理解自然语言,人机间的信息交流就能够以人们所熟悉的本族语言来进行。这不仅将成为计算技术的一项重大突破,将有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识,对于语言的教学与学习将会有巨大的指导意义。

二、自然语言处理发展概况及其成就

从20世纪50年代的机器翻译和人工智能研究算起,自然语言处理已有长达半个多世纪的发展历程。与应用语言学的其它分支相比,自然语言处理只能算是后起之秀。虽然发展的历史不长,但是自然语言处理在过去的几十年中,尤其是近二十年中所取得的丰硕成果和长足进展是语言学家们有目共睹的。有专家认为,几十年来自然语言处理研究学界发表过“大量灿烂成果,有词汇学、语法学、语义学的,有句法分析算法的,还有许多著名的自然语言应用系统”。

由于自然语言处理是一个多边缘的交叉学科,除语言学外还涉及计算机科学、数学、统计学、电子工程、心理学、哲学以及生物学等知识领域,它是在各个相关学科的交融和协作中逐渐成长起来的。在历史上,自然语言处理曾经在计算机科学、电子工程、语言学和心理认知语言学等不同的领域分别进行过研究。从20世纪40年代到50年代末是自然语言处理的初创期。

这个领域的研究最早可以追溯到第二次世界大战刚刚结束的时候,那时计算机才刚诞生不久。在这一时期,有两项基础性的研究特别值得注意:一项是自动机的研究。20世纪50年代提出的自动机理论来源于Turing(1936)算法计算模型,这个模型是现代计算机科学的基础;另一项是Shannon概率或信息论模型的研究。这是属于语音和语言处理的概率算法的研究,Shannon把通过通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道(noisy channel)或者解码(decoding)。Shannon还借用热力学的术语“炳”(Centropy)作为测量信道的信息能力或者语言的信息量的一种方法,并且用概率技术首次测定了英语的炳。

从20世纪50年代末开始到60年代中期,自然语言处理逐渐由初创期向发展期过渡。在此期间自然语言处理研究明显地分裂成两个阵营:一个是符号派(symbolic),一个是随机派(stochastic)。虽然研究的方向和参与的人员有所不同,但是他们都为自然语言处理的发展做出了巨大的贡献。这也是自然语言处理由萌芽期向发展期过渡的时期。

进入21世纪以来,由于计算机网络的迅猛发展以及国际互联网的普及,自然语言的计算机处理成为了从互联网上获取信息的重要手段,生活在信息网络时代的现代人,几乎每天都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视有关的研究,投入了大量的人力、物力和财力。这必将会对此领域的发展产生巨大的推动作用。

三、中文信息处理

中文信息处理技术是我国重要的计算机应用技术。随着信息时代的到来,计算机在人们生产生活的各个方面将起着越来越大的作用。对于以汉语为母语的我国来说,中文信息处理技术已经在我国信息化建设中占据了一个非常重要的地位

“什么是汉语信息处理?它是语言信息处理的一个分支。”“我国的中文信息处理就是依据自然语言处理原理,利用计算机对汉语的书面形式和口头形式进行信息处理,是自然语言处理技术在汉语文字应用研究中的体现。

中文信息处理,是用计算机对中文(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理技术是一门与计算机科学、数学、声学、语言学、心理学、抓考制论、信息论、自动化技术等多种学科相联系的边缘交叉性学科。随着科学技术的发展,中文信息处理技术已渗透到社会生活的各个方面,它包括汉字信息处理和汉语信息处理两个部分。

汉字信息处理,也就是我们通常所说的“字处理”,是中文信息处理的关键和基础,其难点是汉字编码问题。目前,我国已研制出了数百种汉字编码方案,其中部分方案已通过了上机试验,或已被采用。除此之外,我国还研制出了各种汉字输入键、汉字字库、仿真汉字终端以及汉字打印机。汉字内码有效地解决了中西文兼容的问题,计算机激光汉字照排系统也已研制成功;同时,手写体和印刷体汉字识别的研究工作已取得了一定成绩。

在我国,中文信息处理的历史可以追溯到1959年的俄汉机器翻译试验。1974年,汉字处理系统工程列入国家科技发展计划。1980年,我国公布了第一个汉字编码国家标准,奠定了中文信息处理的基础。上世纪七八十年代的主要工作是汉字处理,国家陆续公布了汉字字符集的基本集和几个辅助集,社会上推出了各式各样的汉字输入法,汉字键盘输入的问题基本解决。进入九十年代词的处理成为了主要的工作,自动分词和词性标注技术逐渐成熟,建成了有几万词的语法信息词典和语义词典。汉语语料库发展迅速,粗加工汉语语料库的规模达到了百万甚至千万词级,但是语料库的种类还不够齐全。

在词处理技术的支持下,汉字识别、汉语语音识别、语音合成、信息检索等技术已经达到实用水平。这一时期,汉语语句自动分析的研究已经展开,在分析策略、分析算法等方面取得了初步成果,但是如何消除句法歧异,仍然在探索中。如果语句分析这一问题不解决,纪以来自动校对,自动文摘和机器翻译等应用技术就难以取得根本性的突破。进入21世句子处理和篇章处理已经逐渐成为中文信息处理的重点。

四、自动分词技术

中文信息处理技术是我国重要的计算机应用技术。在计算机产业中,唯有中文信息处理技术是我国的专长,在国际上享有得天独厚的优势。这是任何国家所不能比拟的。国务院制定的国家中长期科技发展纲领中明确指出:“中文信息处理技术是高新技术发展的重点”。我国软件产业发展的重点是中文信息处理软件,中文信息处理的发展己经受到国家的重视。

自动分词是自然语言处理的基础,自然语言处理是智能计算机技术的基础。简单的说,智能计算机就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。在我们人类的语言中,词是最小的能够独立活动的有意义的语言成分,所以对于中文来讲,将单词确定下来是理解自然语言的第一步,只有实现了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。

参考文献:

[1]揭春雨等.汉语自动分词实用系统CASS的设计和实现「J].中文信息学报,1990,(4)

[2]陆俭明.汉语走向世界的一些思考[J].上海财经大学学报,2005,(1)

[3]吕必松.语言教育与对外汉语教学[M],北京:外语教学与研究出版社,2005

[4刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,(3)

自然语言处理篇2

论文摘要:自然语言信息处理是人机交互的关键技术,已得到高速的发展。论文首先简单的论述了该技术的起源以及发展,然后重点研究了该技术在文本和语音方面的广泛应用。可以预测随着计算机技术的进一步发展,自然语言信息处理技术将被应用到更加广泛的领域。

一、引言

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。

二、自然语言信息处理技术简介

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。

三、智能应用

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。

(一)自然语言信息处理在文本方面的智能应用

在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。

如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。

(二)自然语言信息处理在语音方面的智能应用

在语音方面,自然语言处理技术主要应用在自动同声传译、机器人聊天系统、语音挖掘与多媒体挖掘以及特定人群智能辅助系统等方面。其中,自动同声传译主要涉及到语音建模、识别以及语言翻译等方面,采用自然语言处理技术可以对自动同声传译的每个方面都能得到提高,最直接的部分就是语言翻译部分,同时还可能涉及到语音与文本的转换。特别是在语音和文本的转换方面,目前在中文出来中出现的一个问题是音似问题,即音似字不同的情况,对这种情况如果能采用自然语言处理技术来对其进行校验,将能提高其转换的效果,从而提高转换的质量和准确性。机器人聊天系统涉及到更加广泛的内容,如自动回答系统。在机器人聊天系统中不可避免的涉及到语音与文本的转换、自动回答以及逻辑推理,通过自然语言处理技术将能在意义理解、逻辑推理和知识应用等方面得到明显提高,从而使得应答的速度和回复的针对性和准确性等方面都得到一定的提高,从而提高聊天系统的应用性。在语音挖掘与多媒体挖掘方面,自然语言处理技术的应用主要体现在增强意义理解和提高检索速度这两个方面。通过该技术一方面能根据准确的获取语音所包含的意义,从而为搜集信息提供基础。同时,由于采用该技术也有助于数据挖掘中的对相关信息的检索和归纳。

随着人工智能、计算机视觉等技术的快速发展、自然语言处理技术将能应用于诸如自动场景解说系统等。也就是自然语言处理技术再结合图像理解技术和逻辑推理技术,就能准确的描述当前场景发生了什么事情,如果能和上一个场景进行比较就能及时的描述场景的变化,并通过有效的组织就能实现对场景的自动描述。再进一步利用人工智能技术、知识库及语音生成技术就能实现场景的自动解说,甚至能实现如自动足球运动这样快速场景变换的解说。同时,还能对特定人群提供辅助,如为盲人提供辅助的系统,帮助盲人识别物体以及其他的一些帮助。也可以应用于语音控制,语音控制目前也具有广泛的需求,可以应用在很多方面,将自然语言处理技术、语音建模技术、计算机技术以及控制技术相结合就能实现语音控制,甚至能应用于工厂的智能控制和管理。

四、结论

近年来自然语言处理获得了巨大的发展,其关键技术也获得了突破。该技术所开发的新技术能对文本处理与语音业务处理产生广泛而深远的影响。目前,可以肯定的是自然语言处理技术能对文本处理与语音处理在建模、识别、理解方面将产生极大的作用,甚至可以预测随着该技术的进一步发展,将对多媒体技术及应用起到重大的作用。如果经过进一步的开发,该技术将能对目前控制方式产生较大的影响。

参考文献:

[1]王丁,李向宏,王鑫.机器翻译转换生成研究[J].信息技术,2002,6:68-70

自然语言处理篇3

Abstract: This paper analyzes the role and status of morphological analysis in natural language processing from the view of the features and difficulties. Then, the author lists some typical automated segmentation algorithm in Chinese lexical analysis.

关键词: 自然语言理解;词法分析;自动分词算法

Key words: natural language understanding;morphological analysis;automatic segmentation algorithm

中图分类号:TP27 文献标识码:A文章编号:1006-4311(2010)10-0157-01

0引言

自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。计算机的出现使得自然语言研究成为可能。语言是以词为基本单位的,词汇在语法的支配下构成有意义的和可理解的句子则进一步地按一定的形式再构成篇章。词法分析是理解单词的基础,因而也是自然语言理解和处理的基础,其主要目的是从句子中切分出单词,找出词汇中的词素,从中获得单词的语言学信息并由此确定单词的词义。

1自然语言理解的难点及处理层次

自然语言也就是人类本身所使用的语言。广义上讲,自然语言理解是指机器能够执行人类所期望的某些语言功能,如回答问题、文摘生成、释义、翻译等。由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等众多因素,使得对自然语言的理解成为非常困难的研究课题[1]。语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。因此,自然语言的分析理解和处理过程也应当是一个层次化的过程。许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次。

2词法分析的在自然语言理解中的地位和作用

2.1 词法分析的特点和任务词法分析是理解自然语言中最小的语法单位――单词的基础。语言是以词为基本单位的,而词又是由词素构成的,即词素是构成词的最小的有意义的单位。词法分析包括两方面的任务[2]:第一:要能正确地把一串连续的字符切分成一个一个的词;第二:要能正确地判断每个词的词性,以便于后续的句法分析的实现。以上两个方面的处理的正确性和准确度将对后续的句法分析产生决定性的影响,并最终决定语言理解的正确与否。

2.2 不同自然语言中词法分析的特点和难点不同的语言对词法分析有不同的要求。例如,英语和汉语在词法分析处理方面就存在着很大的差异。英语语言中,由于单词之间是以空格自然分开的,而汉语则不具备英语以空格划分单词的特点,其单词的切分是非常困难的,不仅需要构词的知识,还需要解决可能遇到的切分歧义。对于词性分析和判断,由于英语单词有词性、数、时态、派生、变形等繁杂的变化,再加上英语的单词往往有多种解释,词义的判断非常困难,仅仅依靠查词典常常是无法实现的。而汉语中的每个字就是一个词素,所以找出词素是相当容易的。可见,在自然语言理解的词法分析处理中,汉语、日语、韩语等语言的词法分析的难点在于分词切词,而英语、法语等语言的难点则是词素区分。汉语自动分词是汉语语言处理和理解中的关键技术,也是中文信息处理发展的瓶颈,其困难主要在“词”的概念缺乏清晰的界定、未登录词的识别、歧义切分字段的处理三个方面。

2.3 典型的中文自动分词算法汉语连续书写导致了汉语自动分词中的歧义问题将始终存在。在汉语自动分词算法的研究中,歧义字段的处理是各种算法研究的重点。至今专家学者们研究出了一系列的自动分词算法,如:最大匹配法(Maximum Matching Method:简称MM)[3]、基于标记法[4]、约束矩阵法[5]、句模切分法[6]、基于统计语言模型(Statistical Language Models:简称SLM)的中文自动分词算法[7]、神经网络分词算法、专家系统分词算法、基于词典的中文分词算法等。MM法是最早出现的自动分词算法,是一种机械分词方法。该算法首先建立词库,将所有可能出现的词都事先存放在词库中,对于给定的待分词汉字串,采用某种策略进行匹配分词。策略有两种:一是最大匹配法,每次匹配时优先考虑长词;另一种则是最小匹配法,每次匹配时优先考虑短词。在机械分词的基础上,利用各种语言信息(如规则、语法、语义、标点、数字等)进行歧义校正,从而提高其分词的正确性。上文中提到的基于标记法、约束矩阵法、句模切分法等就属于机械匹配与切分歧义处理方法相结合的算法。基于SLM的中文自动分词方法又称为无词表分词算法。所谓无词表是指分词匹配的词表并不是事先建立的,而是利用机器学习手段从生语料库中直接获取分词所需要的某些适用知识作为分词依据的重要补充手段。该算法的核心思想是:词是稳定的汉字的组合,上下文中汉字与汉字相邻出现的概率能够较好地反映成词的可信度,因此,将相邻共现的汉字组合的频率进行统计并将其统计信息作为分词的依据。神经网络分词算法和专家系统分词算法都属于基于人工智能技术的自动分词方法。该类方法应用人工智能中的神经网络和专家系统来进行中文自动分词。周程远等人提出的基于词典的中文分词算法是在机械分词算法基础上的改进。他们综合TRIE树和逐字二分分词的特点提出分层逐字二分算法,以较小的开销来实现较快的匹配速度,从而提高自动分词的综合性能,其本质还是机械分词。

3总结

词法分析是自然语言理解的基础。本文在介绍自然语言理解处理层次的基础上,讨论了词法分析的重要性和难点,特别是汉语的词法分析中切词的难度,并列举了一些著名的自动分词算法。

参考文献:

[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,12:250.

[2]田霓光.自然语言的词法分析[J].咸宁学院学报,2008,(06):70-73.

[3]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,(03):175-177+182.

[4]亢临生,张永奎.基于标记的分词算法[J].山西大学学报(自然科学版),1995,17(3).

[5]雷西川,余靖维,卢晓铃.基于相邻知识的汉语自动分词系统研究[J].情报科学,1994,(2).

自然语言处理篇4

【关键词】认知语言学;自然语言;语义表示方法

中图分类号:H030 文献标志码:A 文章编号:1007-0125(2015)11-0162-02

语义网是一种图结构的概念。同时,语义网也可以看作是知识表示方法。通过此类表示方法,不仅可以更好地理解语义,还可以对常识进行推理。然而,语义网中也有一系列有待于提升之处,致使语义网的推理能力受到一定程度的限制,且难以用语义网表示复杂的关系。对部分语义,只通过图构的方式,很难使语义间的接近程度被有效表示出来。鉴于此,基于认知语言学的自然语言语义表示方法已经成为业内人士亟待研究的一项重要课题。

一、自然语言的基本概述

(一)自然语言理解的科学内涵

自然语言处理是一件非常系统性的事项,其可以被看作是一种通讯技术,在实现过程中需要自然语言以及计算机的辅助。在自然语言的处理中,最重要的一点,就是使计算机能够更好地“理解”自然语言。鉴于此,自然语言又有另一种叫法,其被称为“自然语言理解”。自然语言可看作是语言信息处理中的一部分。同时,在人工智能课题中,它也是最重要的一部分,主要研究方向为使计算机能够更好地使用自然语言。[1]

通过计算机对自然语言进行理解是一件颇为系统的事项,其可以分成两部分:一部分是口语的理解,一部分是对书面语的理解。前者具体是指语音识别、合成以及分析等;而后者主要包括信息过滤以及机器翻译等事项。

(二)自然语言理解的层次以及过程

通过计算机对自然语言进行有效理解的过程中,有许多需要注意的事项,主要包括以下三方面的程序:

首先,一定要明确研究对象,并将相关问题在语言层面进行形式化,使其能够通过数字形式被合理的表达出来。其次,将此数学形式用算法来表示,使它在计算层面更加形式化。最后,依照相关算法完成计算机程序的编写,使其能够在计算机上实现。鉴于此,在对自然语言进行有效处理的过程中,一定要具备足够的语言学方面的知识。除此之外,还应具备相应地数学层面以及计算机层面的知识,使自然语言在处理过程中,具有一定的数学性和计算机性,成为一门交叉性较强的学科,同时跨越文科以及理科、工科。

从语言学的层面,几乎所有的语言都具备以下特点:1.语法。语法是构成语言的基本规则,也代表着各相关符号之间的关系;2.语义。语义又被称为各个符号之间的含义,也可以看作是符号以及含义之间的关系;3.语用。语用研究的方向主要是在不同环境下对语言的理解和使用。鉴于此,语言的分析以及理解并不是简单的事项,而是具有较强的层次性,主要包括语汇分析以及句法分析两方面的内容。[2]其体现出的这种层次性为人们对语言本身进行更好地理解提供了便利。

现阶段,计算机功能还有待于提高,对自然语言的理解水平远未达到和自然人一样的标准。据专业人士分析,即便是在未来,计算机水平也不可能达到这样的水准。在这种情况下,宜从系统功能的角度着眼,对输出、输入文本的反映引起重视,将其看作衡量计算机语言的一项最重要的标准。国外曾有认知心理学家提出了语言理解的标识,主要分为以下四个层面:1.对相关问题的具体回答;2.对材料摘要进行重点提取;3.明确不同词的语叙;4.不同语言的有效翻译。现阶段,随着社会的不断完善,计算机技术的发展日新月异,且信息全球化趋势也不断增强,使自然语言的理解内涵更加丰富。

(三)自然语言的应用前景以及研究的意义

在新时期,计算机技术以及互联网技术不断完善,人类已经逐渐进入信息时代。在这种情况下,计算机可处理的自然语言文本数量也得以不断增多,且包含多方面的事项,其可在海量信息中进行文本挖掘以及信息提取等方面的事项。在人机交互等需求不断强化的情况下,自然语言处理有着非常重要的意义。同时,对自然语言进行有效研究将会在极大程度上影响人们的生活。近年来,我国社会主义现代化建设不断发展,在这种时代背景下,信息处理技术的自动化越发引起人们的重视。同时,在日常工作与学习过程中,人们所涉猎的信息,有80%是以语言文字的方式进行记载以及传播的。在这种情况下,自然语言的处理越发引起人们的重视。在我国的信息化以及现代化的过程中,自然语言的处理也有着非常重要的现实意义。[3]简言之,在中文信息自动化处理过程中,汉语处理是一门非常关键的技术,在语言处理水平得到显著提高的情况下,我国的多个领域都将从中受益,包括科学技术、经济建设等等。反之,若是语言处理水平停滞不前,会使我国在相关方面的需求难以得到有效满足,且逐渐落后于国际水准。

二、基于数值空间以及意象图式的对象语义及对象关系的合理表示

(一)以数值空间关系为前提对象语义进行有效表示

在对原子对象进行表示的过程中,可以通过数值对其语义进行具体表示。例如,在对颜色特征的语义进行有效表示时,基于RGB空间的三元组有着非常重要的选用价值。在三元组中,各分量的取值范围都有一定规律,均为从0到255之间的整数。在此过程中,红色可以用相关数值来表示。除此之外,味觉以及空间位置等和颜色大体一致,说明语义的数值空间在一维之上。除此之外,长度以及温度、质量等源自对象的语义可以有更直接的表示方式,通过单一维度表示即可。同时,也有极少一部分原子对象无法对其进行数值转化。对于此类状况,可以通过固定的特征使语义被有效转化成数值空间内的一个点。如果是基本形状对象,通过形状边数或是三角形的数量来明确语义不失为一种有效的方式。在数值空间的环境下,对象语义的表示方法具有显著的特点,主要表现在以下几方面:首先,在相同的数值空间中,可通过计算的方式明确不同对象语义间的关系。其次,通过数值空间对语义进行表示的过程中,对于维数以及取值范围等,不要求其具备一致性。

然而,在对部分基于经典范畴理论的语义进行表示时,也可以通过数值的方式对语义进行表示,比如,可以用“1”来表示“男”;用“0”来表示“女”。然而,于具体的认知语言学中,性别概念非常复杂,且具有较强的系统性,涉及到相关的心理模型,已经超出原子对象的范畴。

(二)意象图式环境下对象和对象的关系表示

于具体的意象图式中,可通过对象节点来表示对象,通过关系节点和力量――动态节点对对象间的关系进行有效表示。在不同节点之间,可通过有向弧线段进行连接。在此过程中,弧的方向有着非常重要的意义,其对于特定关系下对象以及其它对象之间的角色起着决定性作用。

在一些特定情况下,对一些关系所涉及的默认对象的确定并不复杂,可通过常识进行判断。同时,也有一些空间一项图式等语义的表示较为复杂,往往需要将其和不同属性的空间结合,在此基础之上,才能将其语义完整表示出来。除此之外,“重复”意象图式以及“循环”意象图式的语义也不容易表达,需要依靠时间特征才能有效表示出来。

三、语义图以及属性空间的动态构建与修改

语义操作序列的概念是一个系统性的概念,其具体是指由多个原子语义操作所构成的序列,此序列具有较强的有序性。对特定的语义操作序列进行有效实现有着非常重要的意义,其可以使对应语义图以及属性空间的动态构建以及修改事项更加顺利,在此基础之上,可以有效表示以及理解对应词汇或者句子的语义。

在具体对语义图以及空间属性进行修改、构建的过程中,一定要明确节点间连接的方向,对于对象所扮演的角色也应明确。将语义的表示和语义的理解有效转化为特定语义操作序列非常重要,可以使语义图的推理能力以及语义拓展能力得到一定程度的强化,便于相关人员进行研究。

四、语言学的发展趋势

现阶段,语言学的发展也进入一个新的历史时期,相关领域对语法的研究渐趋于“语境化”,其在认知语言学中得到了充分体现。根据目前的情况,词汇学很可能被应用到语言学中。从认知语言学的角度,可对语境功能进行有效展示。在认知语言学中,充分体现了对语义的重视。此外,其使语义的真实值被有效打破,显示出一定的学术价值。在个别细节之处,相比认知语言学,部分语言学理论的研究价值更显著。然而,认知语言学的价值和意义也不容忽视,其实现了对该理论的有效整合,且使语言学的研究发展趋势更加明确,并使人们得以更好地了解到认知语言学的成功原因。

简言之,在现阶段的理论语言学体系中,认知语言学是一种新范式,其不仅拥有自己的理论体系,且拥有自身独有的研究方法。在对自然语言语义进行具体表示的过程中,更倾向于对词汇和语义的对应的过程进行有效表示。相比传统的语义网,语义图的语言表示能力更强,其能够将关系节点的语义通过意向图形的方式有效表示出来,且通过属性空间将各种属性有效表示出来。由此不难看出,语义图将不断发展和完善,其推理能力以及语义拓展能力都将逐步得到显著增强,从而更好地满足新时期的发展需要。

五、结束语

综上所述,现阶段,基于认知语言学的自然语言语义表示方法的研究非常重要。本文对语义图进行了深入研究,其所表现出来的语义拓展能力更加灵活,同时,语义表现能力以及理解能力也更强。对语言语义表示方法进行有效研究可以有效促进相关领域平稳、较快地发展,且更好地服务于新时期的发展需要。

参考文献:

[1]叶锡君,尹岩.基于认知语言学的自然语言语义表示方法[J].计算机科学,2014,41(z1):98-102.

[2]贾茜,张斌.基于认知语言学的文献主题元语义表示与结构分析[J].情报理论与实践,2015,38(2):6-10,5.

[3]尹岩.基于意象图式的语义理解模型研究[D].南京农业大学,2013.

[4]王新新.基于认知语言学的自然语言语义表示方法探究[J].校园英语(中旬),2014(11):225-225.

自然语言处理篇5

Abstract: In natural language processing, syntactic analysis is the analysis of deep processing. The lexical analysis technology has been basically mature, semantic analysis based on the basis of syntactic analysis. Therefore, the syntactic analysis’s position is very important. At present, parsing of natural language processing becomes a bottleneck. This paper gives a simple comment about the method of syntactic analysis.

关键词: 汉语自然语言处理;句法分析

Key words: Chinese natural language processing;parsing

中图分类号:G202文献标识码:A文章编号:1006-4311(2010)17-0162-02

0引言

自然语言理解是语言信息处理技术的重要研究方向之一,一直以来都是人工智能领域中的核心研究课题。自然语言理解是指机器能够执行人类所期望的某些语言功能,如回答问题、文摘生成、释义、翻译等。由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等众多因素,使得对自然语言的理解成为非常困难的研究课题[1]。

语言虽然被表示成一连串的文字符号或者是一串声音流,但实质上,语言的内部是一个层次化的结构。自然语言的分析理解和处理过程也应当是一个层次化的过程。许多现代语言学家将自然语言理解的过程划分为语音分析、词法分析、句法分析、语义分析和语用分析五个层次,分别完成音素区分、词素划分、句子或短语的结构分析、确定语言所表达的真正含义或概念以及语言在特定环境中所产生的影响等分析工作。句法分析师自然语言处理的一个基本问题,是在句法分析的基础之上的语言层次结构分析。其目的是确定句子所包含的谱系结构和句子各组成成分之间的关系。关于汉语语言处理中的句法分析方法的研究,从20世纪80年代初以来,一直都没有停止过,先后出现了大量的分析方法。

1汉语句法分析方法及演变过程

1.1 汉语句法分析的基本理论自然语言处理中,按照处理深度的不同,大致可以将自然语言处理中的语言分析技术划分为浅层分析和深层分析两大类[2]。深层分析技术是对语言进行语法、语义和语用的分析,包括句法分析、语义角色标注等。与浅层的词法分析不同,深层的分析需要对句子进行全局分析才能得到正确的结果。句法分析在深层分析技术中处于十分关键的位置。

所谓句法分析,就是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单位和这些语法单位之间的关系,将线型的句子转化成一种结构化、层次化的结构,是自然语言理解的一个关键组成部分。句法分析的主要作用是消除单词的歧义,为后续的语义分析提供层次结构上的技术支撑,其结果可直接用于及其翻译、问答系统、信息挖掘、信息抽取等应用。

1.2 汉语句法分析方法句子是由词构成的。从结构上来说,汉语句子中的词是词根词,词内没有专门表示语法意义的附加成分,而且,汉语还缺少英语语句里面的形态变化,因此,汉语句子中词与词的语法关系依靠词序和虚词来表示。

句法分析的研究大体分为两种途径:基于规则的方法和基于统计的方法[3]。基于规则的方法是以知识为主体的理性主义方法,以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则行事描述或解释歧义行为或歧义特征。基于统计的句法分析则以某种方式对语言的形成和语法规则进行描述,形成句法分析模型。汉语语言的句法分析方法自研究以来,先后出现了中心词分析法与层次分析法相结合的方法、配价分析法、语义指向分析法等多种汉语句法分析方法[4]。

1.2.1 中心词分析法与层次分析法的结合中心词分析法也称为句子成分分析法,是汉语句法分析中传统的分析方法。该方法将句子分成主、谓、宾、定、状、补六大成分。该方法能很容易地分析出句子的格局,确定句子的句型,但无法体现出句子的结构层次。层次分析法则是基于句子语法结构的一种句法分析方法,它不注重句子成分,而是在层次的控制下切分句法结构的直接成分。该方法很容易显示和分析句子的结构层次,但却不能很好地显示句法结构的格局。将中心词分析法与层次分析法结合起来,就形成了一种优势互补的分析方法。

1.2.2 短语结构句法分析与西方语言中长句非常常见的情况不同,汉语句子以短句为主。从汉语的句法上来说,短语是不会跨越句子的分界的。因此,汉语这种句子短小的特点为提取句子中的短语减轻了难度。

短语体系的句法分析是在汉语数库(Chinese Penn Treebank:CTB)上开展的。CTB与英文Penn Treebank属于同一语法体系。汉语的短语结构句法分析方法在改进后的CTB的基础上进行,并进一步地通过EM算法获取树库中的规则来进行。由于语言上的差异,在CTB上的汉语句法分析水平与英文Penn Treebank上的分析结果还存在一定的差距。

1.2.3 基于依存关系的句法分析统计句法分析方法中需要解决的关键问题是如何发现和利用具有强消岐能力的语言特征姿势,同时保证语言知识的应用不会使模型的参数急剧膨胀而导致严重的数据稀疏问题。

在汉语的基本句型中,绝大多数句子的中心语是由动词或动词短语来担当的,而句子的中心语则支配着句子中的其他成分。通过对动词、名词和形容词等各种词的语义知识进行分析并加以分类,进而从中总结出中心词与各被支配成分之间的语义依存关系,利用这种依存关系来很好地解决上述问题。

1.2.4 基于语法功能匹配的句法分析方法一般的词性标注都是对单词或短语的词性进行标注。然后,通常情况下,一个词类是具有很多种语法功能的,并且,同一词类的不同词的语法功能的差异有可能非常大,而有的情况下,不同词类的词,其语法功能却有可能相同。基于语法功能匹配的汉语句法分析方法通过使用词和短语的语法功能集来代替现有的词类标记和短语标记,以语法功能匹配(Grammar Function Match:GFM)作为句法分析的基本方法来实现汉语的句法分析[5]。

1.2.5 基于句法语义特征的句法分析方法所谓语义特征分析法,是一种借用语义学分解语义特征的方法来解释在汉语语句中,某个格式为什么可以用这一类词语而不能用另一类词语的原因,其主要目的是解释歧义现象产生的原因。基于句法语义特征的句法分析方法通过在句法分析中加入语义信息,将句法分析与语义分析综合起来进行,从而解决句法分析中的歧义消解问题。

此外,变换分析法、配价分析法、语义指向分析法等也是比较典型的汉语句法分析方法。

1.3 汉语句法分析方法的演变过程及原因汉语句法分析的方法主要是通过国外语言学理论引进而来的,20余年来,汉语句法分析方法随着汉语语法研究的发展而不断发展。

汉语语言自然处理研究中最早的句法分析方法是上文所述的中心词分析法。这种分析法来源于西方的传统语法。后来,熙先生率先采用了变换分析法来进行汉语的句法分析。语义特征分析则是对变换分析法的改进和弥补。语义指向分析法也是随着人们开始对语义平面研究的重视而产生的一种句法分析方法,它根据句中某个成分或词语的语义指向来研究与它相关成分或词语之间的语义联系,从而将句法分析和语义分析结合起来。

相对于英语等分析语型的西方语言来说,汉语是一种孤立型的语言,两者的内部结构存在着很大的差异。从上述汉语句法分析的发展不难看出,汉语的句法分析方法的发展一直都受着西方语言学的影响。而简单地套用西方语言学的分析方法是不可取的。最近几十年来,我国的专家和学者开始将西方语言学与汉语语法研究相结合,走符合汉语自身特点的道路。

2总结

汉语自然语言处理中的句法分析是一种层次结构上的深层分析。汉语语言句法分析研究一直是汉语自然语言处理中的一个热点问题,出现了众多的分析方法。早期的句法分析器大多是简单的符号推理,然而,句法分析不是简单的符号推理,而是一种实体推理,汉语句法分析方法在汉语自身特有的孤立型特点和分析方法本身的局限性的影响下不断发展演变,使得汉语语言处理及汉语语法的研究正不断地深化,对汉语语言的分析方法也提出了更高的要求。总的来说,汉语语言的句法分析方法越来越精密、细致和科学。同时,语义分析和语法分析的结合也越来越紧密,这是汉语语法学朝着现代化科学化方向发展的必然趋势。

参考文献:

[1]王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007,(12):250.

[2]刘挺,马金山.汉语自动句法分析的理论与方法[J].当代语言学,2009,(02):100-112.

[3]袁里驰.基于依存关系的句法分析统计模型[J].中南大学学报(自然科学版),2009,(06):1630-1635.

自然语言处理篇6

【关键词】小学英语教学 自然教学法 理论分析 具体应用

目前,我国对于小学英语教学的大力开展是为了满足日后利用英语进行交流的人才储备要求,虽然,可以利用小学生对于新事物和新文化的好奇心和求知欲,让他们在小学英语教学过程中进行死记硬背,从而达到学习英语的目的。这种方式,虽然实现了单词和语句的基本掌握,但是,却没有系统的进行思考和理解,在日后的工作和生活中无法实现英语的灵活运用。小学英语教师在进行教学过程中,为了改善这个问题,开始不断的采用自然教学法,以协助教学开展,这种方法也提供了很多教学的帮助。本文侧重于自然教学法及其具体应用的相关理论进行了讨论,希望能帮助更多的小学英语教师利用这种方法从中获益。

1自然教学法的概念和理论基础

自然教学法的理论基础是建立在第二种语言的习得理论之上。所谓的第二语言习得理论,是说在具有母语习得的基础之上,或者是完成了母语学习的基本课程和任务,又去学习另外一种语言。

1.1习得和学习的理论模式

自然教学法的理论核心就是语言习得理论,它是自然教学法理论的基础。自然教学法理论最有用的和最重要的出发点就是对于习得和学习两种理论概念的区别方法。在语言习得理论中,任何交流都在情景模式之中,都是自然的、浑然天成的,能够培养学生学习语言和运用语言的能力,在无意识的情况下,很自然的就能够学会语言的语言和具体使用方法。而利用语言学习理论在学习一门语言的过程中,是有意识的进行掌握学习语言的形式和规则,用理智去理解第二语言,在语言的教学过程中,学习理论占了主要形式。自然教学法的思想使得语言交际能力在发展的过程中不会受到太多教条主义形式的影响形式,并自觉运用第二语言的规则进行沟通和运用,而对于有意识的运用英语进行交流而言,只能发挥有限的作用,只会在口语和写作之前或之后进行改正和修改提供帮助。

1.2监控理论模式

监控理论是说在掌握一门外语的过程中,无论是有意识的或者是无意识的关系,如前所述,对语言的更正或监控都是有限的。学生在学习时使用第二语言沟通中,首先会由习得理论进行系统的采集,然后才到学习理论发挥作用的时候,就是说可能学生在进行说话和写之前或之后会自觉使用监控模式进行自我修正。因此,学生能够在交际情景之中流利地表达自己所掌握的语言,这就是语言的习得。

2自然教学法在小学英语教学中的应用

2.1要正确处理习得和学习两者间的平衡关系

对于中国的学生学习英语而言,因为所处的交际环境不同,所以英语习得理论的作用在中国学生之中的发挥会受到一定程度的控制和限制。但是学习理论是在掌握一种语言一定的规律和基础之后,对语言有了更加透彻的理解,使得在教学过程中更加容易进行,所以,我国在小学英语教学模式选择上,还是以学习方式为主,但由于习得方式也具有非常显著的作用,因此,就需要将学习和习得两种方式进行有机的结合,形成相互增益、相得益彰的关系。要做到这一点,最重要的不仅是要找到两点之间一个平衡之处,还要妥善处理好两者之间的连接之处。

2.2运用各种理论,做到兼收并蓄、扬长避短、有机整合

可以看出,习得和学习这两种方式都有其自身的优点和缺点。对于习得这种方式而言,它的缺点是夸大了自然的力量,从而忽视了思维的分析研究、指导和整理的效果。而学习这种方式主要集中在执行和理解上,这是获取更高层次知识的步骤,但并未考虑其发生的具体实际环境。因此,只有两者相互结合,这种方法才会是最是科学,也是最为可取的。

在学习英语的过程中,尤其是小学生经常爱犯各种错误。在这种情况下,作为教师应该耐心的进行处理和讲解,营造一种使学生觉得宽松的学习环境,让学生不要担心犯错,开始喜欢和接受这种环境,这有利于改善学生的学习效率。通过良好的指导,鼓励学生对知识进行主动探索,这种主观意志在学习和探索过程中,将会发挥巨大的潜力,从而引导学生进入更深层次的学习过程中。

总结

小学英语自然教学法对于小学生来讲,更加容易被接受,对于小学生的第二语言的学习,如果采用填鸭式教学法,并不能取得良好的效果,反之只会让孩子死记硬背,并不能理解英语中的真正语言含义,而自然教学法将英语这门学科当成是小学生的另外一种语言,小学生自然而然就会慢慢接受。但是目前我国的小学英语的自然教学法并未普及,而且很多方面尚未完善,所以,在小学英语自然教学法上还需要更深入的研究探讨。

【参考文献】

[1]袁国华.师范英语课堂教学设计探析[J]. 大学英语, 2011,29: 99-100.

自然语言处理篇7

论文摘要:由于自然语言的语义存在不确定性,形式化很困难,因此语义处理成为自然语言处理的瓶颈所在。基于大规模标注语料库的语义处理已经成为发展趋势,语料标注本质上就是语言知识(包括语义)形式化。现有句法标注模型主要包括基于短语结构语法(PSG)和基于依存语法(DG)的句法标注模型,还存在一些局限性。文章在现有句法标注模型的基础上结合认知语法(CG)的有关理论提出改进思路,以探索新的句法标注模型。

人类社会发展的基本轨迹是:原始社会—农业社会—工业社会—信息社会。人工智能的目标是用计算机模拟人的智能,以最大限度地解放和延伸人的智能,无疑是信息社会的制高点。语言是人思维的物质外壳,人不可能离开语言而具备真正属于人的高级智能。因此,模拟人类语言智能的自然语言处理无疑是人工智能的重要研究方向。然而,迄今为止的研究表明,在可以预见的将来,语义处理将是自然语言处理的瓶颈所在。原因是语义十分复杂,而基于现有计算机软硬件的自然语言处理要求语义形式化。解决这一问题的根本之道是:探索新的句法标注模型,进行大规模的语义标注,基于语料库进行语义知识获取和自然语言处理。

一、句法标注模型

语言的复杂性在于语言与认识的关系。语言具有意义,而意义是入对主客观世界的认识结果。主客观世界的复杂性决定了意义的复杂性,进一步决定了语言的复杂性。语言本身又可以视为人的主客观世界中的一部分,因此语言研究是一种特殊的认识活动,是人对语言的认识。由此可见,语言离不开认识。人对主客观世界的认识可以如此描述:认识主体借助认识工具按照认识方法处理认识对象获得认识结果。认识是由多种认识因素(主体、工具、方法、对象)共同作用的活动,认识结果是这一活动的产物,被多种认识因素共同决定,任何一种认识因素的改变必然导致认识结果出现或大或小的差异。显然,认识结果与认识对象不能等同,是认识主体对认识对象的选择性反映,认识具有主观能动性。从这个意义上讲。认识不可能也不应该去被动地还原认识对象,而是从符合主体目的性出发,力求简单有效地描述和预测认识对象。借用模型的概念,认识结果就是认识对象的模型(model),认识就是建立认识对象的模型,简称建模(modeling)。这是一种实用主义认识观。

模型一般分为心理模型(psychological model)、数学模型(mathematical model)和物理模型(physical model)。心理模型是认识对象在人认识中的定性关系,是数学模型的基础;数学模型是认识对象在人认识中的定量关系,是物理模型的基础;物理模型是人借助特定材料和工具按照认识对象的数学模型实现的物质结构。传统意义上的建模主要指建立数学模型和物理模型,一般意义上的建模还包括建立心理模型。人的认识能力是有限的,表现在:人不能建立任意认识对象的心理模型,也不能建立任意心理模型的数学模型,也不能建立任意数学模型的物理模型。由于具有明确的实用主义特点,建模在理工科领域大行其道,在文科领域也逐渐受到青睐。人类将二进制数学模型成功实现为晶体管物理模型,并开发出越来越复杂和先进的计算机软件和硬件,从而进入信息时代。20世纪以来一些主要或次要的语言理论都或多或少应用了数学模型,特别是一些面向语言计算的语言理论。随着计算机技术的飞速发展,人们对计算机自动或辅助处理语言信息的需求越来越大。但计算机的根本缺陷在于,凡是不能建立数学模型的信息都无法处理。传统语言理论往往只在心理模型层面定性研究,无法满足这一需要。因此有必要引入数学模型研究语言,称为语言数学模型,简称语言模型(1anguage model)。统计语言模型(sta-tistical language model)就是一个成功的例子。但统计语言模型的性能取决于训练语料的规模和质量。目前,由于语料的不断积累和计算机技术的不断进步,语料规模已不成问题,语料中包含语言知识的数量和质量才是关键。

计算机的语言知识主要来源于人。将语料中包含的语言知识标注出来,有助于计算机获得更丰富、更有价值的语言知识,从而提高语言处理水平,这就是语料标注(corpus tagging)。一般认为主要包括词汇标注(1exical tagging,分词、词结构标注、词性标注、词义标注等)、句法标注(syntax tagging,语法树标注、语义树标注等)、语篇标注(discourse tagging,语体标注、领域标注等)等内容。经过标注的语料还可以用于语言学研究、语言教学、语言测试、词典编撰等诸多理论研究和实践应用领域,越来越受到人们重视,并形成一门新兴学科——语料库语言学(corpus linguistics)。目前,相对句法标注,词汇标注有更成熟的规范、准确率更高的技术和更大的标注规模。句法标注的主要困难在于,没有一个真正成熟的语法或语义标注模型。句法结构尤其是语义结构很难统一描述,现有的句法理论还不完善,难以制定统一规范,标注主观性很大,自动标注准确率比较低。因此,句法标注成了语料标注的瓶颈问题。由于句法知识在语言知识中的重要地位,有理由相信:如果有了大规模、高质量的句法标注语料库,围绕语料库的各种研究和应用有可能在现有基础上产生质的飞跃。因此,研究句法标注模型应是当务之急。语料库语言学属于交叉学科,句法标注模型是语料库语言学的基础理论,又与语言学的句法理论密切相关。一方面可以借鉴现有句法理论,另一方面,也可以从语料库语言学的角度研究句法,提出新的句法标注模型。

二、现有句法标注模型

句法标注(Syntax Tagging,ST)以句子的语法知识和语义知识为标注对象,是语料标注的重点、难点所在,要以一定的语法理论为基础。根据语法理论制定的句法标注规则、过程和结果,称为句法标注模型(Syntax Tagging Model,STM)。短语结构语法(PhraseStructure Grammar,PSG)和依存语法(DependencyGrammar,DG)是现有句法标注的两种基础语法理论,彼此却有很大的不同。基于PSG的句法标注模型称为短语结构句法标注模型(PSG—based Tagging Mod—el,PSGTM),基于DG的句法标注模型称为依存句法标注模型(DG—based Tagging Model,DGTM)。根据现有语料标注的实践结果来看,PSGTM与DGTM都存在一定缺陷。

美国语言学家乔姆斯基(Noam Chomsky)于1957年出版专著《句法结构》,从而奠定了短语结构语法(PSG)的理论基础。其后发展起来的许多语法理论可以直接或间接归到这一流派,如中心词驱动的短语结构语法(HPSG)、广义短语结构语法(GPSG)等。到目前为止,PSG仍然是最重要的句法标注基础理论,为世界上众多语料库项目所采用和发展。法国语言学家特思尼耶尔(Lucien Tesnire)于1959年出版专著《结构句法基础》,从而奠定了依存语法(DG)的理论基础。其后发展起来的许多语法理论可以直接或间接归到这一流派,如词汇依存语法(WD)、概念依存理论(cD)、核心依存理论(KD)等。相对PSG而言,DG偏重于语义,在CD、KD上表现得十分明显。另外,DG更简洁、直观、经济,适应性更强,因此反而有后来居上之势,目前已经成为世界上较为通用的句法标注基础理论。不过,在具体的句法标注实践中DGTM还是暴露出一些问题,“对一些没有明确依存关系的成分,标注起来则有些力不从心”,存在“依存失败”现象,最突出的是难以标注缺省结构。缺省结构一直是句法标注中经常出现而且很难解决的问题。

人类的自然语言符合经济性原则,而缺省结构恰恰体现了这一原则。借助句子的前后上下文省略一些成分,人们仍然能够理解,但对计算机来说却是一种挑战。句法标注的根本目的是让计算机能够正确提取句子的语法和语义知识。缺省结构在真实语料中大量出现,常常使得原本正常的句法结构变得异常,难以按已有规则进行标注。这是任何句法标模型都必须面对的问题,目前PSGTM和DGTM都还没能够很好地解决。以DGTM为例,在很多情况下,DGTM不但不能正确标注缺省结构,反而在一些语言规则的强制限定下给出违背真实语法或语义结构的标注结果,形成干扰信息。请看以下4个句子:

句1:我看一下下书

句2:(真是好书啊?)我看一下

句3:我看一本书

句4:(好多书啊!)我看一本

句2是句1的宾语省略句,句4是句3的宾语省略句。(为简便起见,把“一下”、“一本”作为一个词处理)。

问题出在句4。句1和句3的依存结构是不同的,然而句2和句4却有了相同的依存结构。因为句4省略了“书”,根据DG理论,“一本”必须依存于独立谓语成分“看”。于是“看一本”和“看一下”依存结构相同,实际上违反了句3的正确结构。当然,我们可以采取补救措施,为d1标注一个特殊的依存关系属性Cerror(即依存失败),但这不是好办法。

三、改进DGTM

美国认知语言学家兰盖克(Ronald w.Langach.er)分别于1987年、1991年出版专著《认知语法基础》一、二卷,开创了认知语法(CG)理论,关于语法结构有如下观点:如果一个构件A使另一构件B的一部分抽象变为具体,那么构件A就叫做概念自主(coneep.tually autonomos)的构件,构件B就叫做概念依存(conceptually dependent)的构件。

举例来说:独立地看,“一本”隐含一个抽象的、可数的、可用“本”量化的事物,可表示为“一本(x)”。“书”使“x”变得具体,因此“书”是概念自主的,“一本”是概念依存的。从信息表达的角度来看,“书”表达了相对完整而具体的信息,因此是概念自主的;“一本”表达了不完整不具体的信息,因此是概念依存的。从数学表达式的角度来看,“一本”类似函数,“书”类似参数,函数的地位显然是第一位的,决定了对参数的处理过程和返回参数。例如,“旧书”与“一本书”的区别不在“书”,而在“旧”和“一本”。再从阅读认知过程来看,当人们读到“一本”时,实际上已经在期待“一本”后面那个具体事物跟着出现。为什么我们觉得“我看一本”是缺省句?因为“看”和“一本”相对“书”都是概念依存的,因此人们会判定,“我看一本”的缺省成分可能是“书”。而读到“我看书”时,人们不会认为这是一个省略句,因为“书”表达的信息已经自足了。

由此有足够的理由认为:在句法结构中,“一本”应是“书”的父结点,而不是按传统的补足中心原则,中心成分总是限定成分的父结点。依存成分是自主成分的父结点,这一原则可以称为依存中心原则(Dependency Head Principle,DHP)。采取这种原则的DGTM必然会有不同的标注结果。

深入研究发现,仅仅采用DHP是不够的,DGTM的其他参数也需要改变。例如,“看(x)”和“一本(x)”这两个表达式在与其他词语组合时是有区别的。“看(x)”与“我”组合时由“看”与“我”产生联系。“看”与“一本(x)”组合时却是“x”(书)与“看”发生联系。代表表达式与其他词语组合的成分称为返回参数,不同表达式的返回参数是不同的。例如。“一本(x)”返回参数为“x”,“看(x)”返回参数为“看”。正因为如此,表达式“看(一本(书))”成立,“一本(看(书))”不成立。另外,表达式“(x)一下”的返回参数为“x”,即“看”;表达式“(x)看”的返回参数为“看”。根据这些定义,句1、2、3、4的改进DGTM。

根据函数、输入参数、返回参数的关系,各句结构的逆构造过程如下:

句1:我看一下书:(((我)看(x))一下)(书)=((看(x))一下)(书)=看(x)(书)=看(x=书)

句2:我看一下:((我)看(x))一下=(看(x))一下=看(x)

句3:我看一本书:((我)看(x))(一本(书))=看(x)(书)=看(x=书)

句4:我看一本:(我)看(一本(x))=看(x)

句1和句3的x有明确取值,为完整句。句2和句4则是缺省句。基于看(x)和一本(x)的知识,可以预测并判定缺省结构及其成分。

直观看来,改进DGTM与原DGTM的标注结果有了很大的差异由于不采用补足中心原则,因此改进DGTM标注结果并不符合在补足中心原则影响下人们长期以来形成的语感。但更符合人们阅读认知经验,而且可以按函数标准给出形式化地解释,其解释结果符合句子本身的语法和语义结构,没有错误和干扰信息。因此,改进DGTM更适合计算机处理,更符合句法标注的本来目的。

四、结语

PSGTM的语法理论基础是PSG,DGTM的语法理论基础是DG,改进DGTM的DHP受CG的启发,其语法理论基础应该是CG。但CG只是从理论上提出了“概念自主”和“概念依存”的概念,并没有严格定义和证明依存成分与自主成分之间的主从关系。在CG的实际应用中,存在有时自主成分为短语中心语,有时依存成分为短语中心语的情况。

自然语言处理篇8

不容置疑的事实是,学习者对母语的习得几乎毫无例外地都能在大脑构建母语语言信息网络,然而,对外语语言的习得却并非如此。我国英语学习者无论是对英语语音、语法、词法、句法、章法还是对文化背景的认知,也无论是通过课堂学习还是课外习得,都在直接或者间接地获取英语语言信息,试图在大脑构建英语语言信息网络,以便能自动无意识地使用英语语言。现实的问题是,许多学习者经过若干年的英语学习,仍然不能够自动无意识地使用英语语言,这与学习者对英语语言学习的期望和英语语言教学的初衷相违背。探讨影响英语语言信息网络构建的因素则成了英语教学和学习的一个重要话题。

英语语言信息网络构建的过程受制于许多因素,如社会环境(学校教育、英语语言使用的社会文化氛围等)、个体的认知水平(对英语语言信息的加工能力等)、生理(个体的大脑发育程度等)以及情感(动机、想象、移请、焦虑等)和想象等。社会环境提供了英语语言信息网络构建所需要的信息量以及信息在大脑组合的社会规则,认知因素则使杂乱无章的信息在大脑系统化和程序化,情感因素则影响语言信息的输入和大脑对语言信息的加工程度,加强或者削弱语言信息在大脑的融合性,想象作为一种高级思维活动,无疑也会对语言信息在大脑的加工过程产生这样或者那样的影响。

一、英语语言信息网络构建中的情感

20世纪70年代以前,人们对影响外语语言学习因素的认识偏向于两个:一是认知因素。如认知心理学就认为,语言习得要以认知为基础,输入到大脑的语言信息要经过大脑的加工。Anderson就此提出了语言信息在大脑发展的三阶段:认知阶段,联络阶段和自动无意识阶段,[1]Barry McLaughlin提出了信息处理模型。[2]二是社会因素。语言习得研究领域里的行为主义认为,语言习得取决于外部语言环境。Krashen就认为,有足够可理解的语言信息输入,学习者的语言水平就可以从I达到I+1。[3]20世纪70年代以来,建构主义理论则主张,大脑对语言信息的加工过程不是被动的摄入,而是主动的选择和接受的过程。控制这个过程的因素除了学习者的“思维操作系统”之外,还有“情感意志系统”。于是人们开始关注并研究情感因素对语言学习的影响。[4-8]截止目前,研究表明,学习者不同的情感状态直接影响他们的学习行为和学习结果。如美国语言学家Krashen的“情感过滤假设”(affect filter hypothesis)就认为,语言信息只有通过情感过滤才有可能从语言输入变成语言“摄入”,进入认知结构中。起过滤的积极情感如较高的学习动机,明确的学习目,较强的自信心等会削弱情感过滤,使大量的语言输入畅通无阻地进入语言习得机制中去。语言信息经过内化,再成为学习者的语言能力;起过滤的消极情感因素如恐惧、焦虑、抑制等在大脑积聚过多,会形成一道屏障,阻止语言信息的输入,这样,学习者习得语言的能力就会大打折扣,“语言习得机制”的构建就会发生困难。[3]Barbara K.Given认为学习过程是学习者在大脑构建“自然学习系统”的过程,该系统中一个重要的子系统就是情感系统。她在《Teaching to the Brain’s Natural Learning Systems》一书中写到:学习依赖于情感,情感决定着我们注意力的指向和学习内容;消极情感干扰学习进程,弱化学习效果;积极情感促进知识和技能的认知水平提高。[7]

二、英语语言信息网络构建中的想象

不同的情感状态在影响语言学习的同时,想象也在发挥着作用。想象是基本的思维形式,是学习者在大脑形成影象的过程,影象的形成是大脑加工语言信息的初步结果,是语言信息网络构建不可缺少的环节。想象能帮助我们理解、组织进入大脑的信息,并使获得的信息持久化。

构建英语语言信息网络的基础材料是语言信息。语言信息通过视觉、听觉等渠道进入学习者大脑,大脑再对这些外界信息产生反应(external responses),通过分析、抽象、综合、概括、对比等过程,形成基本的信息影像(images),这就是思维。影象是语言心智图谱(mind map)构建的基础。大脑不断地从外界摄入新信息,融合旧信息,继续对已有的影象加工、改造,形成新影像,这就是想象。Stevick将影像看作是“a composite that we perceive (more or less vividly )a result of the interaction between what we have in storage and what’s going on at the moment”。[9]Paivio认为大脑加工信息而形成影象的过程是一种双重编码体系(dual encoding system)。该体系由语言文字密码和想象构成。学习者最初获得的英语语言信息是一连串的文字符号或声音表征(密码),这些信息进入大脑等待译码。译码是学习者大脑先前的知识或者已有的语言认知图式,社会体验再辅助于定形化的语言规则和新信息相互作用的过程。这一过程离不开想象。虽然学习者有时完全可以透过文字符号或声音表征理解语言信息所承载的意义,但仅仅通过这种方式所获得的意义只是表层的或者低层次的。英语语言信息网络构建的最终目标是学习者在大脑构建高层次、有意义的、能自动无意识地处理语言信息的语义网络。学习者要从低层次对文字符号或者声音表征的破译发展到高层次的对语义网络的有意义建构,需要发挥自身的想象力。神经生理学家Damasio认为,想象能帮助我们理解并组织进入大脑的信息,能给我们提供推理和决策的方法,能帮助我们选择适当的反应方式。我们大脑无论接受什么样的英语语言信息,以什么样的方式加工这些信息,想象一直参与其中,不受时间束缚,此时、彼时都有可能发生。[10]Damosio认为,知识的神经基础是依靠影像在大脑中形成的。想象似乎不是在大脑中某一个特定的位置产生的,而是在不同神经区域按照不同定位方式形成的。[10]所以,想象是比思维更加基本的活动要素,是一种特殊的思维形式,是人类一种高级认知活动,对思维具有极强的影响力。想象丰富了语言心智图谱的内容。心智图谱的

最基本条件反应就是展示这些影像,然后按照一定的顺序将这些影像组织起来,形成基础性的英语语言信息网络。所以,英语语言信息网络是各种不同的影像以及语言心智图谱依照各种不同的范式的综合。 三、想象和情感的相互作用

想象与情感在语言信息网络构建中存在一种循环关系。情感的不同状态渗透到想象中,对影象的形成过程起起加速或者抑制的作用。想象作为一种催化剂又刺激情感状态的变化,促进积极情感的发展或抑制消极情感的滋生。

(一)想象和情感的相互促进

大脑通过思维和想象加工语言信息,形成了影象。影象的形成看起来似乎是思维和想象的结果,事实上,只有思维和想象是远远不够的。Rogers认为,由文字密码和想象构成的这种体系并不完整。因为我们所从事的一切与语言认知相关的活动,内在的(大脑加工语言信息)还是外在的(从外界摄入语言信息),似乎永远离不开情感因素的影响。[11]Rogers曾指出:“我们时时有一种需要,那就是,把我们情感中的一些方面‘注射’到我们的思维中去,竭尽全力地去思考语言符号所隐藏的深层次含义”。[11]Hamilton也认为“情感是一种信息密码,会不同程度地编入认知记忆图式中,对认知结构产生这样或那样的影响”。[12]现代脑生理学研究也表明,大脑神经细胞处于一定的能量状态下,才可能进行思维活动。决定大脑能量状态的因素除了饮食结构等之外,还有情感因素。情感的不同状态会使大脑活性呈现出高低不平的状态。积极情感促使大脑中相应的语言神经细胞活性加强,语言神经纤维通道畅通无阻,学习者对语言信息摄入自如,信息量累积加速,对信息加工的程度也会相应的提高,这样有利于构建英语语言信息网络。消极情感状态则使脑细胞处于休眠状态,阻止语言信息的输入。

英语语言信息网络的构建不仅涉及对语言信息的处理从“低层次”发展为“高层次”的过程,同时还涉及语言信息结构的重新构建。语言信息量累积到一定程度后,必然会形成与该阶段累积的信息量和学习者对语言的认知水平相适应的信息网络或者心智图谱。这种网络仍然处于一种不成熟的状态,随时还要不断地接受新信息,与已有的信息结构建立新联系。新旧信息的联系会打破已有信息结构的平衡,这样就会导致信息结构的内在组织发生变化,重新调整信息结构。如果重新调整的信息组织结构比较合理,会使信息处理发生质的变化,学习者使用时,这些信息单位就容易被激活,信息处理的效率就会提高,这有利于语言信息网络更加趋于成熟。而激发新旧信息之间的联系的纽带正是想象和情感在其中的相互作用。

想象与情感促进英语语言信息网络构建的作用可以通过学习者对词汇的认知窥见一斑。英语学习者时时要处理一些词汇,这些词汇只是一连串的字母组合,每个字母本身并没有实际意义,也没有情感成分,这些词汇之所以能引起情感反应,是因为我们大脑中有与这些单词连在一起的影像。没有这些影像,我们看到的只是一些孤零零的字母组合。想象在单词和意义之间架起了一座桥梁。所以说,情感因素渗透到想象中,而想象又刺激情感状态的变化和发展。这种相互影响的关系对语言学习至关重要。积极情感参与学习过程时,学习得到加强,在情感与语言之间建立联系最容易的途径就是影像。所以,想象的充分利用有助于激发积极情感。

语言是意义和形式的统一体。英语语言信息网络构建的是语言意义,而非语言形式,虽然具有表征性的语言符号是构建英语语言信息网络的基础。Anderson在谈到学习者对语言信息的处理时认为,人们对任何知识的学习都要经历三个阶段:认知阶段,联络阶段和自动无意识阶段。[1]母语习得者对母语的习得几乎无一例外的都能达到自动无意识阶段,就是因为他们注重语言意义而非语言形式。然而,将英语作为外语的学习者,由于英语语言习得的自然环境缺损,学习关键期的错失,英语课堂教学内容的单一化(仅仅破译语言文字符号),教学目标的应试化等,他们把英语学习看作是一种对语言文字符号的简单地心理反应、解码和记忆,而非对现实语言意义的构建,在学习中不自然地过分关注了语言形式而非语言意义。他们在认知阶段和联络阶段所获得的都是一些事实性的符号信息以及由这些事实性符号信息所构成的信息组,这些信息还没有完全固化在语义网络中成为大脑自动化处理语言信息的机制。这样,他们对英语语言的学习只能达到联络阶段。而决定英语语言信息网络在大脑构建成功的因素就是看学习者对英语语言的学习是否达到自动无意识阶段,也就是说,大脑是否具备了能自动无意识地处理语言信息的能力。从联络阶段要发展到自动无意识阶段需要学习者调动自身的积极情感,发挥自身的想象力。因为学习者通过想象,再借助于积极情感可以使更多的信息或者信息组形成一个个影像,众多影象的组合则是语义网络形成的必要条件。

(二)想象对消极情感状态的抑制

学习者构建英语语言信息网络时,难免会受到来自于自身或者外界各种消极情感因素的影响,这些因素主要包括自信心缺失,焦虑,担心,害怕等,他们抑制英语语言信息网络的构建。想象作为一种催化剂可以通过抑制消极情感的滋生,如降低焦虑程度等增强学习者的自信心、自尊心以及移情等。

英语语言信息网络构建中的焦虑是最大的情感障碍。它一方面来自于构建者自身,如天生的竞争性,[12]与老师的关系,[13]对老师教学的期望值过高等。另一方面来自于社会因素,如各种考试压力,课堂教学沉闷的氛围和文化冲突[14]等。想象则有助于消除焦虑的负面影响。Seville大学对大学生听力对比测试实验结果证实了这一点。该实验分控制组和实验组,每组15人。研究人员要求两组被试者参加同样的听力测试。研究人员只对实验组考前实施“放松―想像”练习。结果发现,实验组学生考试成绩明显高于控制组。

自信心是学生对自己学习能力的信念,它影响学习者选择学习任务、认知方式和学习状态,影响学习者对学习的坚持性和情绪的调节,是个性发展的主要因素。想象可以帮助学习者建立自信心。神经语言学研究显示,如果你把自己想象成一个什么样的人,结果往往就会成为你想象中的人。哈里?埃默森?福斯特博士指出:“在你身上树立一个你自己的影像,你就会向这个影像靠拢。假使你把自己惟妙惟肖的想象成一个失败者,单凭这一点,你就与成功无缘。你若把自己想象成一个胜利者,这将对你的成功起到不可估量的作用”。为什么我们大脑里一个积极的影像会帮助我们建立良好的自信心?Maxwell博士做出了这样的解释:“人们的精神系统不能区别想象的经历和实际的经历。无论什么情况,它都自动地给你的信息做出反应…它对你信以为真或想象为实的情况做出恰当的反应”。也有人认为有意的想象在脑子里能建立新的“记忆”,这些积极的记忆可以改善一个人的情感状态,而情感状态对学习者的语言信息输入和加工有着重要的影响。

同时,想象也有助于学习者移情(empathy)心理的培养。移情是语言交际中重要的情感因素。它指的是学习者设身处地从别人的角度看问题的一种意识或行为。人们在社会中能够和平共处,移情起着重要作用。Miller指出:“用我们的想象和直觉,我们能够观察别人的感觉和思想,它在交流行为,尤其是语言涉及到文化学习时特别重要”。[15]

自然语言处理篇9

论文摘要:由于自然语言的语义存在不确定性,形式化很困难,因此语义处理成为自然语言处理的瓶颈所在。基于大规模标注语料库的语义处理已经成为发展趋势,语料标注本质上就是语言知识(包括语义)形式化。现有句法标注模型主要包括基于短语结构语法(PSG)和基于依存语法(DG)的句法标注模型,还存在一些局限性。文章在现有句法标注模型的基础上结合认知语法(CG)的有关理论提出改进思路,以探索新的句法标注模型。

人类社会发展的基本轨迹是:原始社会—农业社会—工业社会—信息社会。人工智能的目标是用计算机模拟人的智能,以最大限度地解放和延伸人的智能,无疑是信息社会的制高点。语言是人思维的物质外壳,人不可能离开语言而具备真正属于人的高级智能。因此,模拟人类语言智能的自然语言处理无疑是人工智能的重要研究方向。然而,迄今为止的研究表明,在可以预见的将来,语义处理将是自然语言处理的瓶颈所在。原因是语义十分复杂,而基于现有计算机软硬件的自然语言处理要求语义形式化。解决这一问题的根本之道是:探索新的句法标注模型,进行大规模的语义标注,基于语料库进行语义知识获取和自然语言处理。

一、句法标注模型

语言的复杂性在于语言与认识的关系。语言具有意义,而意义是入对主客观世界的认识结果。主客观世界的复杂性决定了意义的复杂性,进一步决定了语言的复杂性。语言本身又可以视为人的主客观世界中的一部分,因此语言研究是一种特殊的认识活动,是人对语言的认识。由此可见,语言离不开认识。人对主客观世界的认识可以如此描述:认识主体借助认识工具按照认识方法处理认识对象获得认识结果。认识是由多种认识因素(主体、工具、方法、对象)共同作用的活动,认识结果是这一活动的产物,被多种认识因素共同决定,任何一种认识因素的改变必然导致认识结果出现或大或小的差异。显然,认识结果与认识对象不能等同,是认识主体对认识对象的选择性反映,认识具有主观能动性。从这个意义上讲。认识不可能也不应该去被动地还原认识对象,而是从符合主体目的性出发,力求简单有效地描述和预测认识对象。借用模型的概念,认识结果就是认识对象的模型(model),认识就是建立认识对象的模型,简称建模(modeling)。这是一种实用主义认识观。

模型一般分为心理模型(psychological model)、数学模型(mathematical model)和物理模型(physical model)。心理模型是认识对象在人认识中的定性关系,是数学模型的基础;数学模型是认识对象在人认识中的定量关系,是物理模型的基础;物理模型是人借助特定材料和工具按照认识对象的数学模型实现的物质结构。传统意义上的建模主要指建立数学模型和物理模型,一般意义上的建模还包括建立心理模型。人的认识能力是有限的,表现在:人不能建立任意认识对象的心理模型,也不能建立任意心理模型的数学模型,也不能建立任意数学模型的物理模型。由于具有明确的实用主义特点,建模在理工科领域大行其道,在文科领域也逐渐受到青睐。人类将二进制数学模型成功实现为晶体管物理模型,并开发出越来越复杂和先进的计算机软件和硬件,从而进入信息时代。20世纪以来一些主要或次要的语言理论都或多或少应用了数学模型,特别是一些面向语言计算的语言理论。随着计算机技术的飞速发展,人们对计算机自动或辅助处理语言信息的需求越来越大。但计算机的根本缺陷在于,凡是不能建立数学模型的信息都无法处理。传统语言理论往往只在心理模型层面定性研究,无法满足这一需要。因此有必要引入数学模型研究语言,称为语言数学模型,简称语言模型(1anguage model)。统计语言模型(sta-tistical language model)就是一个成功的例子。但统计语言模型的性能取决于训练语料的规模和质量。目前,由于语料的不断积累和计算机技术的不断进步,语料规模已不成问题,语料中包含语言知识的数量和质量才是关键。

计算机的语言知识主要来源于人。将语料中包含的语言知识标注出来,有助于计算机获得更丰富、更有价值的语言知识,从而提高语言处理水平,这就是语料标注(corpus tagging)。一般认为主要包括词汇标注(1exical tagging,分词、词结构标注、词性标注、词义标注等)、句法标注(syntax tagging,语法树标注、语义树标注等)、语篇标注(discourse tagging,语体标注、领域标注等)等内容。经过标注的语料还可以用于语言学研究、语言教学、语言测试、词典编撰等诸多理论研究和实践应用领域,越来越受到人们重视,并形成一门新兴学科——语料库语言学(corpus linguistics)。目前,相对句法标注,词汇标注有更成熟的规范、准确率更高的技术和更大的标注规模。句法标注的主要困难在于,没有一个真正成熟的语法或语义标注模型。句法结构尤其是语义结构很难统一描述,现有的句法理论还不完善,难以制定统一规范,标注主观性很大,自动标注准确率比较低。因此,句法标注成了语料标注的瓶颈问题。由于句法知识在语言知识中的重要地位,有理由相信:如果有了大规模、高质量的句法标注语料库,围绕语料库的各种研究和应用有可能在现有基础上产生质的飞跃。因此,研究句法标注模型应是当务之急。语料库语言学属于交叉学科,句法标注模型是语料库语言学的基础理论,又与语言学的句法理论密切相关。一方面可以借鉴现有句法理论,另一方面,也可以从语料库语言学的角度研究句法,提出新的句法标注模型。 "

二、现有句法标注模型

句法标注(Syntax Tagging,ST)以句子的语法知识和语义知识为标注对象,是语料标注的重点、难点所在,要以一定的语法理论为基础。根据语法理论制定的句法标注规则、过程和结果,称为句法标注模型(Syntax Tagging Model,STM)。短语结构语法(PhraseStructure Grammar,PSG)和依存语法(DependencyGrammar,DG)是现有句法标注的两种基础语法理论,彼此却有很大的不同。基于PSG的句法标注模型称为短语结构句法标注模型(PSG—based Tagging Mod—el,PSGTM),基于DG的句法标注模型称为依存句法标注模型(DG—based Tagging Model,DGTM)。根据现有语料标注的实践结果来看,PSGTM与DGTM都存在一定缺陷。

美国语言学家乔姆斯基(Noam Chomsky)于1957年出版专著《句法结构》,从而奠定了短语结构语法(PSG)的理论基础。其后发展起来的许多语法理论可以直接或间接归到这一流派,如中心词驱动的短语结构语法(HPSG)、广义短语结构语法(GPSG)等。到目前为止,PSG仍然是最重要的句法标注基础理论,为世界上众多语料库项目所采用和发展。法国语言学家特思尼耶尔(Lucien Tesnire)于1959年出版专著《结构句法基础》,从而奠定了依存语法(DG)的理论基础。其后发展起来的许多语法理论可以直接或间接归到这一流派,如词汇依存语法(WD)、概念依存理论(cD)、核心依存理论(KD)等。相对PSG而言,DG偏重于语义,在CD、KD上表现得十分明显。另外,DG更简洁、直观、经济,适应性更强,因此反而有后来居上之势,目前已经成为世界上较为通用的句法标注基础理论。不过,在具体的句法标注实践中DGTM还是暴露出一些问题,“对一些没有明确依存关系的成分,标注起来则有些力不从心”,存在“依存失败”现象,最突出的是难以标注缺省结构。缺省结构一直是句法标注中经常出现而且很难解决的问题。

人类的自然语言符合经济性原则,而缺省结构恰恰体现了这一原则。借助句子的前后上下文省略一些成分,人们仍然能够理解,但对计算机来说却是一种挑战。句法标注的根本目的是让计算机能够正确提取句子的语法和语义知识。缺省结构在真实语料中大量出现,常常使得原本正常的句法结构变得异常,难以按已有规则进行标注。这是任何句法标模型都必须面对的问题,目前PSGTM和DGTM都还没能够很好地解决。以DGTM为例,在很多情况下,DGTM不但不能正确标注缺省结构,反而在一些语言规则的强制限定下给出违背真实语法或语义结构的标注结果,形成干扰信息。请看以下4个句子:

句1:我看一下下书

句2:(真是好书啊?)我看一下

句3:我看一本书

句4:(好多书啊!)我看一本

句2是句1的宾语省略句,句4是句3的宾语省略句。(为简便起见,把“一下”、“一本”作为一个词处理)。

三、改进DGTM

美国认知语言学家兰盖克(Ronald w.Langach.er)分别于1987年、1991年出版专著《认知语法基础》一、二卷,开创了认知语法(CG)理论,关于语法结构有如下观点:如果一个构件A使另一构件B的一部分抽象变为具体,那么构件A就叫做概念自主(coneep.tually autonomos)的构件,构件B就叫做概念依存(conceptually dependent)的构件。

举例来说:独立地看,“一本”隐含一个抽象的、可数的、可用“本”量化的事物,可表示为“一本(x)”。“书”使“x”变得具体,因此“书”是概念自主的,“一本”是概念依存的。从信息表达的角度来看,“书”表达了相对完整而具体的信息,因此是概念自主的;“一本”表达了不完整不具体的信息,因此是概念依存的。从数学表达式的角度来看,“一本”类似函数,“书”类似参数,函数的地位显然是第一位的,决定了对参数的处理过程和返回参数。例如,“旧书”与“一本书”的区别不在“书”,而在“旧”和“一本”。再从阅读认知过程来看,当人们读到“一本”时,实际上已经在期待“一本”后面那个具体事物跟着出现。为什么我们觉得“我看一本”是缺省句?因为“看”和“一本”相对“书”都是概念依存的,因此人们会判定,“我看一本”的缺省成分可能是“书”。而读到“我看书”时,人们不会认为这是一个省略句,因为“书”表达的信息已经自足了。 "

由此有足够的理由认为:在句法结构中,“一本”应是“书”的父结点,而不是按传统的补足中心原则,中心成分总是限定成分的父结点。依存成分是自主成分的父结点,这一原则可以称为依存中心原则(Dependency Head Principle,DHP)。采取这种原则的DGTM必然会有不同的标注结果。 根据函数、输入参数、返回参数的关系,各句结构的逆构造过程如下:

句1:我看一下书:(((我)看(x))一下)(书)=((看(x))一下)(书)=看(x)(书)=看(x=书)

句2:我看一下:((我)看(x))一下=(看(x))一下=看(x)

句3:我看一本书:((我)看(x))(一本(书))=看(x)(书)=看(x=书)

句4:我看一本:(我)看(一本(x))=看(x) 直观看来,改进DGTM与原DGTM的标注结果有了很大的差异由于不采用补足中心原则,因此改进DGTM标注结果并不符合在补足中心原则影响下人们长期以来形成的语感。但更符合人们阅读认知经验,而且可以按函数标准给出形式化地解释,其解释结果符合句子本身的语法和语义结构,没有错误和干扰信息。因此,改进DGTM更适合计算机处理,更符合句法标注的本来目的。

四、结语

PSGTM的语法理论基础是PSG,DGTM的语法理论基础是DG,改进DGTM的DHP受CG的启发,其语法理论基础应该是CG。但CG只是从理论上提出了“概念自主”和“概念依存”的概念,并没有严格定义和证明依存成分与自主成分之间的主从关系。在CG的实际应用中,存在有时自主成分为短语中心语,有时依存成分为短语中心语的情况。

自然语言处理篇10

〔作者简介〕范学宁(1971-),男,湖南湘潭人,江南大学外国语学院副教授,博士,博士后。

范新莹(1989-),女,山东德州人,江南大学外国语学院硕士研究生。

① 在计算语言学、自然语言处理和人工智能的研究中,“系统功能语言学”和“系统功能语法”这两个术语往往不加以区分。严格地说,前者指的

是整个语言学理论,而后者只是其中的词汇-语法系统。本文采用“系统功能语言学”这一术语,但是在涉及PENMAM的时候沿用了“Nigel

语法”及其“系统语法”的提法。

〔摘要〕 系统功能语言学应用于语篇生成系统中需要进行知识表示。通过考察PENMAM,发现其一种主要的表示方法是系统网络。然而,这种方法不能充分表示语言的交际性以及三元功能,在进行计算机实现时也存在一些缺陷。基于此,文章进一步提出改进系统网络表示法的两种基本途径:基于复杂性科学的理论途径和基于人工智能的技术途径。此研究能够促进系统功能语言学与其他学科之间的交叉、融合,从而更好地开展面向自然语言处理用途的语言研究。

〔关键词〕 系统功能语言学;语篇生成系统;知识表示方法;系统网络

〔中图分类号〕H319〔文献标识码〕A〔文章编号〕1008-2689(2015)03-0026-05

引言

“自然语言生成”又称为语篇生成,指计算机通过自然语言文本来表达给定的意图和思想。而“语篇生成系统”是相应的计算机软件系统,它能够自动地生成可以理解的自然语言文本。

从20世纪60年代开始,系统功能语言学就开始应用于自然语言生成的研究。进入70、80年代之后,它在一大批语篇生成系统中得以实际采用,比较著名的有PROTEUS、PENMAM、SLANG、COMMUNAL等等。[1](39-42) 90年代之后,它的影响力开始波及国内自然语言生成界,例如中科院研制的汉语句法实现系统 [2][3]。直至今天,它对于一些新系统的建构也具有很强的借鉴作用。

然而,系统功能语言学并不能直接应用于语篇生成系统。它需要进行“知识表示”或形式化表示,即采用一定的符号把语言学知识编码成一组数据结构,才能为计算机接收并便于软件系统使用。[5]

本文将考察一个具有里程碑意义的语篇生成系统―PENMAM:结合它的基本框架,重点研究系统功能语言学在应用过程中所采用的系统网络表示法。根据复杂性科学和人工智能的最新发展,进一步提出改进系统网络表示法的理论和技术途径。

一、 PENMAM系统的基本框架

PENMAM是Mann、Matthiessen等人在20世纪80~90年代开发的一个大型英语生成系统。它在应用系统功能语言学的过程中提出了著名的Nigel语法,并进一步应用到了德语、日语、法语、西班牙语、荷兰语、土耳其语等不同语种的自然语言生成。[6]目前,许多新建的语篇生成系统也往往与PENMAM/Nigel进行对比,以证明自己的先进性。①

(一) PENMAM的设计框架

在PENMAM的设计框架中,“资源”与“过程”被明确地区分开来。其中,“词汇-语法资源”应用的是系统功能语言学中的词汇语法知识。图示如下:

图1 PENMAN的设计框架

下面,通过一段范文来演示PENMAM的工作流程:

You should replace (setq x 1) with (setf x 1). Setf can be used to assign a value to any generalized-variable. Setq can only be used to assign a value to a simple-variable.A generalized-variable is a storage location that can be named by any accessor function.

这个文本的目标是向读者建议用(setf x 1)取代(setq x 1)。首先,PENMAM从知识库中进行检索,选择两种Lisp形式差别方面的知识。然后,从修辞资源中选择合适的修辞结构,用以表示两种Lisp形式之间的对比关系。在这两个过程中都需要参考读者模型,目的是判断哪些信息与当前文本目标相关、但又不为读者所已知。最后,采用系统功能语言学进行词汇-语法表达,并编辑为上述文本。[1](9)

(二) Nigel语法和环境

Matthiessen等人进一步将PENMAM的设计框架概括为两个主要的组成部分:“Nigel语法”和“环境”。[1](10)

图2 Nigel语法和环境

环境主要由“知识库”和“文本规划”两个部分组成。它们包含了许多语法信息,例如事物的性、数、格等。

Nigel语法是一个以系统功能语言学为基础的模块,它包括“系统语法”和“选择与询问界面”。前者由“系统”、“实现规则”和“词库”三个基本要素组成。后者是系统语法与环境之间的交互界面。它的作用是向环境不断提出询问,并根据回答对系统进行有目的的选择。

以名词词组的生成为例,界面会向环境询问有关事物的语法范畴,例如单复数、限定性等等。然后,它会在图3所示的名词网络系统片段中进行相应的选择。例如,选择[复数,限定,指示,远指],则会生成一个以指示代词“those”引导的复数名词词组。

图3 名词网络系统片断(简易图)

二、 PENMAM/Nigel中的系统网络

表示法的特点与不足

从知识表示的角度来说,PENMAM的一个主要贡献是建立了一个巨型的系统网络。在Nigel语法中共绘制了2000多个子系统,因此成为了当时最大的英语系统语法。

这些子系统由五个基本式构成。其中,基本式1和基本式2图示如下:[7]

图4 基本式1 图5 基本式2(简易图)

基本式1是一个满足入列条件a的x/y析取系统,即只能在x或y两个项目中择一。在上面的图3中,[指示,非指示]和[近指,远指]属于这种类型。

而基本式2是一个合取系统。它由两个平行的x/y系统和m/n系统构成,共有四种不同的组合:xm、xn、ym、yn。在图3中,[单数,复数]和[限定,非限定]是两个平行的系统,因此也相应地具有四种基本组合。由于[限定]和[指示]均包含了两种不同的选择,其中的两种基本组合还可以进一步细分。以[单数,限定]为例,它包含[ 单数,限定,非指示]、[单数,限定,指示,近指]和[单数,限定,指示,远指]三种情况。

有必要指出的是,这个巨型系统网络在表示能力和实现技术方面均存在一定的缺陷。具体地说,主要有如下两点:

1 它的拓扑结构是一个非循环有向图。当PENMAM遍历系统网络的时候,一般遵循相对固定的次序,即自左而右、自上而下,但不可以回溯。[2](36)

从语言学的角度来看,这个系统网络不能充分表示语言活动的交际性:它只能进行自上而下的语言生成,而不能进行自下而上的语言理解。换言之,它只是“自言自语”,而不能根据对方的提问进行相应的回答。

此外,它的运行机制是自左而右,因而不能有效地表示三元功能的组织原则。根据系统功能语言学的基本观点,语言系统可以分为三个主要的层次:语境层、语义层和词汇-语法层。在任何一个层次中,概念功能、人际功能和语篇功能都同时发生作用,而不是先此后彼。

2 它在计算机上实现时采用的是深层生成技术。这是一种基于特征的技术,其缺点是生成效率偏低,难以满足实际工作中及时性需求。此外,它的结构比较复杂,难以进行后期的维护与更新。

这些不足往往为语言学工作者所忽视,但是它们在技术上制约了PENMAM/Nigel进一步处理大规模真实文本的能力。

三、 系统网络表示法的改进途径

(一) 复杂性科学的理论途径

近三十年来,在系统科学的基础上演化出了一门新的学科―复杂性科学。目前,它的影响力已经从自然科学渗透到了人文、社会领域,成为了当代科学发展的前沿课题之一。

复杂性科学的研究对象是复杂系统。而语言本身就是一个复杂系统,具有一系列复杂的特征:[8]

1 非线性和非平衡:一个复杂系统通常由众多的子系统组成。它们之间存在非线性和非平衡的相互作用,使整体超越各部分的简单相加。

当系统功能语言学表示为一个巨型系统网络时,同样会体现出非线性和非平衡的特征。我们可以将这个巨型系统“还原”为五个基本式,但是它并不是五个基本式的简单“叠加”。换言之,五个基本式在组合过程中会相互作用,必然产生出各种复杂的相关结构。

2 动态性和自组织性:复杂系统总是处于不断运动变化之中。在没有外界特定干预的情况下,就可以自行构建一个宏观有序的结构。

当系统功能语言学应用于语篇生成系统时,所建立的系统网络同样具有动态性:在系统网络中的每一次选择都会反过来对系统网络结构本身产生影响,从而实现该系统从一种状态向另一种状态的变化。

此外,这些网络系统必须具有自组织性。在建立一个系统网络的初始时候,往往需要通过人工的方式进行;而一旦建成之后,则需要充分发挥该系统的自主性。这是衡量系统网络是否具有智能的一个重要标准。

总之,复杂性科学为系统功能语言学的知识表示研究提供了一个新的理论视角:它促使人们关注语言系统的复杂性,并充分认识到了在建立复杂系统网络过程中必然出现的一些非规范特征。

(二) 人工神经网络的技术途径

与复杂性科学十分契合的一种人工智能技术是人工神经网络。它是一个大规模的非线性自适应系统,可以分为互联型和分层型两大类型。其中,后者又可以进一步分为简单前馈型、反馈型前馈型和内层互联前馈型。[9]

图6 反馈型前馈网络

图7 内层互联前馈网络

在这些网络中,图6和图7适合于表示系统功能语言学知识。与传统的系统网络相比,它们具有如下优势:

1 人工神经网络分为不同的层次。在每个层次中可以包含不同的处理单元。它们通过三种方式进行联结:层间联结、层内联结和循环联结。

系统功能语言学的基本理论框架是一个分层结构―语境层、语义层、词汇-语法层和音系层。上一个层次可以视为输入层,而下一个层次则为输出层。

在每个层次中都包含了一些不同的子系统,它们相当于一个个的处理单元。在这些子系统之间,也存在三种联结方式。层间联结为不同层次子系统之间的体现关系,例如语义层的及物性系统体现于词汇-语法层的小句系统。层内联结为同一层次子系统之间的相互关系。例如,词汇-语法层包含词汇与语法两个子系统,它们形成了一种连续统的关系。循环联结是一种从输出层至输入层的特殊联结。它的方向与语言生成的过程相反,因此可以用于表示语言的理解。

值得一提的是,系统网络的五个基本式均不能有效地刻画上述子系统之间的层间联结和循环联结。换言之,选项之间存在相互的影响,并且可以反过来对入列条件进行反馈调节。图示如下: Halliday和Matthiessen提出了一种递归动词词组系统,可以表示选项对于入列条件的反馈作用;Martin提出了一种“渐变系统表示法”,用以表示两个选项之间的相互作用。[10]在图8中,将这两种非经典的系统网络表示法进行了整合。

图8:复杂系统的两个特征

2 人工神经网络的运行机制具有明显的非线性特征,具体表现是信息的分布表示以及运算的全局并行与局部操作相结合。

这种工作机制与系统功能语言学的三元功能组织原则一致。基于三元功能,语境层、语义层和词汇-语法均被一分为三。以语义层为例,语义信息相应地分解为概念意义、人际意义和语篇意义,并分别“储存”在概念系统、人际系统和语篇系统之中。在语言生成的过程中,这些子系统需要进行局部的操作。例如,在概念系统内进一步区分拟生成小句的及物性过程类型,在人际系统中明确小句的语气和语态,而在语篇系统中划分小句的主位和述位。从全局来看,这些操作不是线性进行的,即先完成一个系统内的操作,再进行另一个系统内的操作。恰恰相反,它们是同时进行的;最终进行整合并生成为同一个小句。 在计算语言学中,这种整合过程往往被称为“合一”。

3 人工神经网络具有良好的学习能力,可以根据所在的环境改变其内部结构。此外,它容错性强,能够有效地处理从未遇到过的异常情况。

这些性能有助于提升语篇生成系统的鲁棒性,从而适应于更多的应用领域。在PENMAN/Nigel中,系统网络的选择依赖于环境中的信息;而这些信息往往通过手工的方式预先设置,因此存在较大的局限性。与之相比,人工神经网络能够进行无监督学习,即从没有标识的训练样本中挖掘隐藏的结构性知识信息。由于具备了较强的容错性,它还可以进一步处理存在缺陷的信息。

因此,人工神经网络则为更好地表示和实现系统功能语言学的基本理论框架提供了一种切实可行的计算机技术。

四、 结语

系统功能语言学是一种“适用语言学”,具有广泛的应用领域。在各种应用领域中,Halliday[11] 尤为重视自然语言处理,并明确提出能否将语言学理论直接应用于人工智能是检验语言理论是否正确、是否完善的重要手段;同时也是使语言理论发挥更大作用的大好机会。[12]

为了实现上述目标,就有必要研究系统功能语言学的知识表示,即将原本用自然语言描写的语言知识转换为一种可以为计算机识读的方式重新表示出来。从某个角度来说,能否直接采用自然语言处理中行之有效的知识表示方式,就成为了检验系统功能语言学能否直接应用于人工智能的一个重要评判标准。

在此背景下,本文结合Penman对系统功能语言学在语篇生成系统中一种常见的知识表示方法进行了评述,并提出以人工神经网络作为一种改进的系统网络表示法。通过这项研究,有助于加强系统功能语言学与复杂性科学、人工智能等相关学科之间的交叉与融合,从而促进它在自然语言处理中的应用与发展。

〔参考文献〕

[1] Matthiessen,C. M. I. M. & Bateman J. A. Text Generation and Systemic Functional Linguistics [M]. London: Printer Publishers,1991.

[2] 吴华.汉语自然语言生成的理论、方法的研究及系统实现[D]. 北京:中国科学院自动化研究所,2001.

[3] 曹文杰,宗成庆,徐波.基于中间转换格式的中英文语言生成方法研究[J]. Journal of Chinese Language and Computing, 2004,(1): 21-34.

[4] Reiter, E. & Dale, R. Building Natural Language Generation Systems [M]. Beijing: Peking University Press,2010.

[5] 李学宁,张德禄.系统功能语言学的形式化进程―兼评《系统功能语言学在自然语言生成中的应用》[J]. 山东外语教学,2012,(1): 27-32.

[6] 张建华,陈家骏.自然语言生成综述[J]. 计算机应用研究,2006,(8): 1-3,13.

[7] 胡壮麟,朱永生,张德禄,李战子.系统功能语言学概论[M].北京:北京大学出版社,2005.

[8] 成军,莫启扬.语言学研究的复杂性探索:语言结构生成、演化的动力学机制[J]. 西南大学学报(社会科学版), 2009,(4): 158-163.

[9] 张德丰.MATLAB神经网络编程[M].北京:化学工业出版社,2011.

[10] Martin, J. R. Systemic Functional Grammar: A Next Step into the Theory C Axial Relations [M]. Beijing: Higher Education Press,2013.