词汇分布语义的语言学基础分析

时间:2022-12-24 10:20:47

词汇分布语义的语言学基础分析

一、引言

自然语言处理是人工智能领域极其重要也极具挑战的研究方向,属于计算机科学与语言学的交叉学科。它将抽象的人类语言转换成适合计算机处理的形式,从而建立语言、知识与客观世界之间的可计算关系。自然语言处理的核心,是让机器具备理解各种语言形式(词汇、短语、句子、篇章等)内在含义的能力。词汇是自然语言的基本单位,词汇的语义表示因此也成为自然语言理解的基本问题之一。传统上,人们采用人工构建语义词典和语义知识库的方式来表达词汇语义①。但人工标注的方式成本高昂,覆盖面亦有限,难以获得大规模高质量的标注数据。随着深度学习技术的发展和文本数据的爆炸式增长,利用机器学习算法在大规模语料上对词汇表示进行抽象和学习,成为当前词汇语义表示的主流方法。这种表示方法又称分布语义,它通过对语料的学习,将符号表示的词汇转化为数学表示的向量,使得词汇具有语义可计算的能力,已经在智能搜索、语音识别、机器翻译、诗歌创作、古文断句、信息过滤、意图理解等领域得到了广泛使用②。尽管词汇分布语义在应用上取得了很大的成功,然而也应当看到,对其背后的语言学机理,我们还缺乏全面的认识。我们要问,这种通过对语料的学习而自动获得的分布语义,本质上是一种什么样的语义?它能否涵盖词汇的完整意义?这种语义表示的潜力和局限又是什么?我们认为,要回答这些问题,需要结合相关的语言学理论来深入思考。本文试图从语言学学说史的角度审视词汇分布语义的理论基础,并以在海量《人民日报》语料库上训练得到的词汇分布语义作为实证分析的依据③,以厘清词汇分布语义在自然语言处理领域的潜力和边界,并为自然语言理解模型的构建和应用提供新的思路。

二、意义即使用:词汇分布语义的语言哲学基础

词汇的意义理论是语言哲学的两个基本问题之一④。什么是词义?对这个问题的讨论,最早可追溯至古希腊时期对“词”与“物”的关系之辩,即名实之争。“逻各斯(logs)”学说的提出者,古希腊哲学家赫拉克里特(Heraclitus)主张“本质说”,认为名称与它所代表的事物之间的联系是不可分割的,名称包含了事物的本质⑤。与此相反,德谟克里特(Democletus)主张“约定说”,认为名称与事物之间的联系并非由事物的本质决定,而是约定俗成的⑥。后来柏拉图(Plato)在他的《对话录》中提出了“语词是命名(naming)”的折中观点,认为事物的意义在于名称和事物之间的自然联系,但这种内在联系会随着时间推移而减弱。柏拉图的学生亚里斯多德则坚决主张名实分离,认为名称不是自然赋予的,而是约定俗成的具有意义的声音,在成为一种符号时才成为名称⑦。公元二世纪语言学的亚历山大里亚学派(theAlexandrians)也传承了这一观点⑧。古希腊哲学家关于名实关系的争辩,对中世纪以后的语言哲学学说,产生了极其深远的影响。意义的指称论(referentialtheoryofmeaning)即秉持“约定说”的名实分离观点,认为词的意义就是词所指的对象。近代英国哲学家、逻辑学家密尔(J.S.Mill)把名称分为专名和通名,其中通名既有外延又有内涵,外延表示所指称的事物,而内涵表示所指事物的特性,即意义⑨。德国哲学家弗雷格(G.Frege)进一步发展了指称论,在1892年发表的《论意义和所指》一文中,弗雷格对符号的意义和所指(一译“意谓”)做了明确区分。他以望远镜观察月亮来比喻:月亮是所指,望远镜物镜中的影像是意义,视网膜上的图像是意象,意义介于所指和意象之间,既不是所指对象本身,也不像意象那样主观,而是一种客观的存在⑩。指称论的另一位代表人物罗素(B.A.W.Russell)则提出,应将语词分为专名和摹状词,专名的意义就是所指称的对象,摹状词的意义由所组成的语词的意义确定輥輯訛,罗素的意义理论被称为“逻辑指称论”,并深刻影响了他的学生维特根斯坦,早期维特根斯坦就认为,名称和对象之间存在直接的对应关系,名称所指的对象就是名称的意义輥輰訛。由上可知,指称论者虽然在具体观点上有所差异,但都主张语言是对世界的反映,词汇的意义在于所指称的世界中的事物。但是,指称论是以名称为范例来看待词汇的,而词汇并不都是名称,许多词汇的意义,要根据上下文甚至社会语境才能确定。后期维特根斯坦就否定了自己早期的指称论观点,在后期著作《哲学研究》中,他提出“意义即用法”的观点,他说:“一个字词的意义是它在语言中的用法。”輥輱訛例如,作为路标的箭头符号之所以能够指路,是因为人们使用它,按照它的指向行走,正是使用赋予箭头符号以意义。根据维特根斯坦的观点,词汇的意义受到语言使用规则的制约,因此必须研究语言游戏的规则,这种思路被称作意义的使用论(usetheoryofmeaning),并直接促使人们对词的用法进行经验性研究。意义的使用论被多个语言学派所吸收和采纳,但“使用”这一概念过于空泛,不少语言学家给出了更为明确的关于“词义”的阐述。语言学伦敦学派的创始人弗斯(J.R.Firth)说:“词汇的意义取决于搭配”,认为意义存在于词汇出现的上下文之中,上下文可以帮助理解词义。輥輲訛英国语言学家克鲁斯认为:“一个词项在各种语境中遇到的全部正常关系称为它的语境关系(contextualrelations),…,词的意义是由它的语境关系构成的。”輥輳訛用词的上下文信息来表达词的意义,与传统语义学和乔姆斯基(A.N.Chomsky)的生成语法理论形成了鲜明对比,但在实践中却有很强的可操作性。我们以汉字“埙”为例,假设一个人并不清楚这个字的含义,但告诉他这个字在如下的文本中出现輥輴訛:(1)正是周敏在城墙头上吹动了埙,声音沉缓悠长,呜呜如夜风临窗。(贾平凹《废都》)(2)它的外形有椭圆形、圆形、橄榄形不等,大多由陶土烧制而成,所以又叫陶埙。(新华社新闻文本)(3)若不会吹笛,埙和箫都成,曲风应是悠扬轻远的。(剧本《武林外传》)那么,根据“埙”这个词在上下文中的分布,不难推断出它的意义:“一种陶制的吹奏乐器”。由此可见,如果给定足够多的上下文,就能够利用分布统计方法来刻画每个词的含义。词汇分布语义各种模型的基本思想,正是通过机器学习算法来学习词汇在大规模文本语料中的分布模式,从而获得词汇的语义表示。在各具特色的词汇分布语义学习模型中,Word2Vec神经网络模型是较有影响力的一种輥輵訛。本文采用Word2Vec的Skip-Gram算法对《人民日报》语料进行训练,然后将得到的词向量降到3维(原参数设为256维),再检索“埙”的语义近邻分布,结果如下图1所示。由图1中词汇的空间分布,可以得到更多关于“埙”的语义知识,例如,由“编钟”、“篪”、“古琴”、“青铜器”等近邻词可以推断,“埙”应是一种远古乐器。可见,词汇分布语义实质上是通过词汇在空间中的位置来表达语义的。自然语言本质上是符号化的,而在分布表示框架下,符号表示的词汇最终被转换成了数学表示的向量,这种转换具有非常重要的意义,因为在转为数学向量之后,词汇语义变得可计算甚至可推理了。例如,通过向量计算,可以发现“埙”与“箫”的距离要明显小于它与“架子鼓”的距离,也就是说,“埙”在语义上要更接近“箫”。同时,这种语义距离还具有可推理的性质,例如,通过计算,我们可以得到类似于“吹奏乐器-埙=打击乐器-架子鼓”这样的语义推理结果。那么,通过空间距离来表达词汇语义,是否符合人类对概念的认知规律呢?我们可以从认知语言学的角度看待这个问题。温格乐(F.Ungereer)认为,概念结构是体验性的(embodied,一译“具身”),语义的形成,很大程度上源于我们的身体体验輥輶訛。认知语言学的代表人物莱考夫(G.Lakoff)指出,隐喻是人类语言的普遍现象,是人类认知和思维的本质輥輷訛。格雷迪(E.J.Grady)的基本隐喻理论认为,儿童在概念认知的早期,能学会数百个可被辨识的基本隐喻,基本隐喻又进一步构成了复杂隐喻輦輮訛。莱考夫总结分析了约50条基本隐喻,其中非常重要的一条就是“相似是近(similarityiscloseness)”,该隐喻是人类对挨近的相似对象进行观察而获得的基本经验,表明人类的思维会将实体概念映射到空间,而相似的概念在空间中的距离也相近輦輯訛。莱考夫认为,人类正是通过“相似是近”这一基本隐喻来进行概念层面的抽象思维。由此可见,用词汇在向量空间中的位置来表示词汇,用词汇间的空间距离来表示词汇的语义相似度,可以从认知语义学中找到理论依据。

三、句段与联想:词汇分布语义的两类上下文

词汇分布语义通过空间距离表达语义相似程度,而这种距离正是通过对词汇在语料中的“使用”模式进行统计,由学习模型自动习得的。因此,有必要审视词汇的“使用”指的是什么?以及对“使用”的不同定义得到的词汇语义有何区别?瑞士语言学家索绪尔(F.D.Saussure)是现代语言学的奠基者輦輰訛。索绪尔认为,语言是一套具有价值的符号系统,符号的价值在于对不同功能的区分,而这种区分是不能脱离系统而存在的。按照索绪尔的观点,作为语言符号系统的一部分,词汇不仅具有意义,而且具有价值,词汇的价值由它与其他词的关系决定,索绪尔将这种关系分为两类:句段关系和联想关系輦輱訛。句段关系是指话语中各个要素挨序排列结成的线条性关系,其特征是有序的,在现场的(法语inpraesentia)輦輲訛,例如,语词中构字成词,连词成句,集句成段等都属于句段关系;联想关系的特征是无序的,非现场的(法语inabsentia),可替换的輦輳訛。下面以一个简单例子来说明句段关系和联想关系,如下图2所示。在这个例子中,“李白”和“诗人”属于句段关系,“李白”和“杜甫”则属于联想关系。索绪尔指出,整个语言机构都无外乎对这两种关系的运用。从这个角度来看,词汇分布语义模型对语义的学习,最终可以归结为对这两种关系的学习。句段关系是词汇的横向组合,通过对固定的语言单元内(如句子、段落、篇章)词汇的共现关系(co-occurrence)的建模,可以刻画词汇的分布语义。例如,我们统计词汇在上述3个句子中的共现次数,如下表1所示。不难看出,“李白”和“诗人”的共现频率最高,因此语义上更为接近。具有联想关系的词汇不在同一现场共现,但具有相似的上下文语境,且一般能够互相替换。例如,我们依据上述语料可以构建一个词词共现矩阵,如下表2所示。可以看出,“李白”和“杜甫”虽然不在同一个句子中出现,但拥有相似的上下文(即“唐代、诗人”),因此语义相似度较高。当然,上述例子仅是一个简单示例,但如果依据海量的语料来构建词汇的共现矩阵,无疑可以表达更为丰富全面的语义。这个共现矩阵的规模通常会很大,潜语义分析、非负矩阵分解、典型相关分析等自然语言处理领域的分布语义技术,通过不同的途径对共现矩阵进行降维,从而得到词汇的潜在分布语义。但这些方法对词汇上下文的使用,仍可以归结到索绪尔关于句段关系和联想关系的论述。由此可见,词汇在语料中的“使用”,最终可以用索绪尔的句段关系和联想关系来概括,那么这两类关系得到的词汇语义又有何不同?我们在《人民日报》语料上的实证结果表明,句段关系得到的词汇语义,更偏向于语法搭配的相似性,较易得到主题相关性的词汇语义(例如“杭州”与“西湖”,“李白”与“诗人”等);联想关系得到的词汇语义,更偏向于功能相似性的词汇语义(例如“杭州”与“苏州”,“李白”与“杜甫”等)。

四、描写语言学:词汇分布语义的理论依据

布龙菲尔德(L.Bloomfield)的结构主义语言学是对索绪尔语言观的继承和发展,其1933年出版的代表作《语言论》,奠定了描写语言学的理论基础,标志着语言学一个新时期的诞生。作为结构语言学的一个重要流派,描写语言学建立了一整套描写语言的严格技术,包括替换分析、对比分析、分布分析、直接成分分析等语言分析方法輦輴訛。布龙菲尔德之后,在海里斯(Z.S.Harris)等人的努力下,美国描写语言学呈现出精密的分析手续和高度的形式化,其中分布分析技术成为最重要的方法论。在《结构语言学》中,海里斯给出了分布的定义:“一个语言成分(element)的分布就是它所出现的全部环境(environments)的总和,也就是这个成分的所有的(不同的)位置(positions)或出现的场合(occurrences)的总和,这个成分出现的这些位置是和其它成分的出现有关系的。”輦輵訛海里斯认为,分布是语言结构分析的主要依据,分布可以确定语言的成分以及各个成分之间的关系。他又认为依据分布能够得到意义,分布的不同,也就是意义上的不同輦輶訛。海里斯的“分布区别意义”的思想后来不断被其他学者的实验所证实,并成为词汇分布语义的理论基础。基于“相似词的上下文也相似”的分布假设,研究者提出了各种词汇分布语义学习模型。除了词汇的上下文外,还可以通过其他语言要素的分布来学习词汇语义,这些语言要素包括词汇的形态学特征,如前后缀、词元、词干、偏旁部首等,以及词汇的语言学特征如词性、语法成分树、语义角色、句法依存树、回指等輦輷訛。词汇分布语义模型是建立在对海量语料分析的基础上的,它天然符合美国描写语言学的主张,即通过客观和机械的方法来研究语言。因此,如果语料中词汇的语义发生变迁(词义扩大、缩小、产生新义或消亡),模型中的词汇分布语义也会随之改变。我们对《人民日报》语料进行历时分割,使用字+词+词性的分布,训练得到词汇分布表示后,发现某些词汇随社会发展而出现词义变迁现象。以词汇“革命”的为例,可以观察到其词义在20世纪70年代和80年代的有着显著变化。如下图3所示,70年代,“革命”一词与紧密相关,语义近邻中包含大批与阶级斗争密切相关的词汇。80年代,邓小平“改革是中国的第二次革命”的著名论断赋予了“革命”一词新的科学内涵,其语义近邻词中出现了“拓荒牛”、“开拓创新”、“奋力拼搏”等反映社会变革的具有鲜明时代特征的词汇。可见,通过历时语料的训练,词汇分布语义能够为观察社会变迁和文化演变提供新的视角。

五、结语

自然语言理解是人工智能的一种高级表现形式,词汇的语义表示属于自然语言理解的基础研究。通过对语言学学说史的梳理和对语料库的实证分析,可以认为,当前以神经语言模型为代表的词汇分布语义,其哲学渊源是意义的“使用论”;而词汇和语言要素之间的句段和联想关系,是词汇“使用”的具体表现,并可由此来刻画词汇的意义;以美国描写语言学为代表的结构语言学,构成了词汇分布语义的理论基础,分布的不同将导致意义的不同。至此我们可以回答引言中的三个问题。第一,词汇分布语义本质上是从语料中习得的语义,反映的是相应语料中词汇的使用模式和偏好,因此也会客观折射出社会文化生活的某些风貌特征。第二,词汇分布语义建立在描写语言学的结构主义之上,结构主义是由索绪尔关于语言是一个符号系统的理论发展而来的,主张语言分析要使用机械方法的立场。如果承认这一点,那么基于语料的词汇分布语义,理论上是能够完整覆盖语料范围内的所有词义的。需要指出的是,虽然词汇分布语义表达的是作为语言的基本单元的词汇的意义,但在深度学习领域发展起来的循环、卷积、递归等神经网络模型,目前已经能够对不同粒度的语言单元进行组合,从而获得更大粒度的语义表示,因此,词汇语义表示研究的进步,对意义“使用论”在语言哲学方向的发展,也提供了一种新的视角和途径。第三,词汇分布语义建立在分布假设基础上,不可避免存在固有的局限。首先,分布语义的假设是“相似的词具有相似的上下文”,然而此处的“相似”这个概念,实际上指的是语义上的关联,既包括同义,也包括反义、上下位等其他语义关系;其次,分布语义反映的是语料库中词汇的使用模式,而语料库又不可避免地带有社会文化和制度的烙印,包括现实世界中固有的偏见或歧视,例如性别歧视、种族差异等,因此,在基于词汇分布语义的人工智能决策应用中,需要充分考虑社会公平和基本伦理。

作者:潘俊 吴宗大 单位:南京大学