期刊关键词抽取方法

时间:2022-04-23 05:13:35

期刊关键词抽取方法

1引言

关键词是与文章内容和主旨密切相关的短语,被广泛应用于新闻报道、学术期刊等领域。关键词可以提高文档的管理和检索效率,还可以为一些文本挖掘任务提供丰富的语义信息,例如文档的分类、聚类、检索、分析和主题搜索等任务[1]。期刊的关键词对应学术期刊中的keywords部分,包含简单关键词(SimpleWord,SW)和复杂关键词(ComplexWord,CW)两大部分,其中SW表示由一个简单词组成的关键词,CW表示由多个简单词组成的关键词。根据IEEEExplorer[2]统计数据显示,每年约有24万篇新学术期刊被收录。根据某些学科期刊的要求,在文献发表时作者需要在期刊中对关键词进行注明。但仍有一些学科的出版物与早期发行的期刊、书籍、文献的部分章节不包含关键词等信息。缺乏关键词会在期刊的查阅和参考过程中造成困难。虽然可以使用索引对全文进行检索,但这种方法工作量大、且检索结果依赖于分词效果,难以给出准确的检索结果。而关键词抽取就是从文章中选择一小部分单词或短语来描述文章重要内容[3]。因此,需要寻找一种有效的期刊关键词抽取方法。针对传统方法的不足并结合最新研究成果,本文提出了一种基于融合词性的BiLSTM-CRF的期刊关键词提取方法。在实现数据时序和语义信息挖掘的同时,也保证了单词与单词之间的关联性。在真实数据上的实验结果表明融合词性的BiLSTM-CRF模型是一种有效的期刊关键词自动抽取方法。

2相关工作

目前,关键词抽取任务主要有两种方法,基于无监督的方法和基于有监督的方法[4,5]:2.1基于无监督的方法:无监督方法仅通过一些事先规定的关键词权重的量化指标,计算权重排序关键词重要性来实现。TFIDF是字符串频率关键词[6,7]抽取的一种典型方法,其本质是无监督的,可以简单快捷的进行关键词抽取。该方法仅扫描语料库一次,即可获得所有单词的文本频率。但除了词频之外,仍需要考虑许多因素,例如词的词性以及在文本中的位置等。为了提高该方法的性能,必须人工的对其许多规则进行设计[5]。在新闻领域,字符串频率方法比有监督的机器学习方法更有效。因为机器学习的方法在模型训练时需要花费大量的时间,并且文档需要标注。其次,每天都会发生新事件,新闻的内容具有多样性。但无监督方法只提供了单词在文本中的相对重要程度,无法有效地综合利用词法和语义信息对候选关键词进行排序[8]。2.2基于有监督的方法:有监督的方法将关键词抽取问题视为判断每个候选关键词是否为关键词的二分类问题,它需要一个已经标注关键词的文档集合来训练分类模型,即通过在一个有标注的数据集上训练分类器,以便决定候选词中哪些是关键词。不同的机器学习算法可以训练出不同的分类器,如朴素贝叶斯[9],决策树[10]、最大熵算法[11]和支持向量机[12]等是关键词抽取中的代表性方法,通过大量数据来训练分类器。可见有监督方法可以利用更多信息具有更大的优势,且实验效果比无监督方法好[4]。这种方法具有较高的准确性和较强的稳定性,但需要很大的语料库,且所有文本需要进行标注。标注人员具有一定的主观性并且标注任务具有复杂性。不同的标注人员在进行同一个文本的标注时,具有不同的认知和看法,标注的质量会影响模型的性能。并且上述方法都将关键词抽取问题视为一个二分类问题,对每个单词独立处理,忽略了文本结构信息。为解决该问题,可以将关键词抽取问题转化为序列标注问题,常用的模型有最大熵模型(MaximumEntropy,ME),隐马尔科夫模型(HiddenMarkovModel,HMM),条件随机场模型(ConditionalRandomField,CRF)。其中CRF模型的应用最为广泛,性能也最好,可以较为精确的实现关键词的有效提取,但却需要人工设计特征,特征设计的优劣与否将会直接影响到模型的性能和最终的抽取效果。随着深度学习的不断发展,深度神经网络,尤其是长短期记忆网络(LongShortTermMemory,LSTM)模型,前一时刻隐藏层的信息可以加入到当前时刻的输出,通过LSTM层可以高效地利用上下文信息,处理长序列依赖问题。通过结合LSTM模型和CRF模型,综合利用多种信息,可以使得效果更好[13]。在近期的研究中,已有学者将BiLSTM-CRF网络模型用于开放式关系抽取[14]、命名实体识别[15]、中文分词[16]等自然语言处理任务中。Alzidy等已经将BiLSTM-CRF网络用于关键词抽取任务中[17],使用固定的词嵌入来表示单词,输入网络,得到序列标注结果。

3融合词性与BiLSTM-CRF的抽取模型

针对从文本中自动抽取关键词的问题,现有的解决方法大多基于二分类的思想。这种方法忽略了单词之间的关联性,将每个词视为独立的部分,因此无法通过联系上下文来准确把握文的有效信息,从而导致模型具有较差的关键词抽取能力。针对该问题,本文结合条件随机场与深度学习中双向长短期记忆网络(BidirectionalLongShortTermMemory,BiLSTM)模型可以自动提取特征的优势,将期刊关键词的抽取问题转化为序列标注问题,提出了融合词性与BiLSTM-CRF的期刊关键词抽取方法。融合词性与BiLSTM-CRF的关键词抽取模型如图1所示:关键词自动抽取模型共包含三大部分:(1)对期刊文本进行分词和词性标注的预处理;(2)将预处理后的文本使用word2vec模型进行WordEmbedding向量化,获取字词的向量表达式;(3)使用BiLSTM-CRF模型实现关键词的自动抽取。3.1特征提取:(1)词性标注在关键词组合的过程中,可能会采用不同的词性组合方式,但通过对期刊中大量的关键词研究发现,期刊中的关键词一般由名词,形容词和动词组合形成[13],因此在实验中需要对词性进行标注,例如:信号控制单元(n+vn+n),高性能电池(ad+n),其中,n表示名词,vn表示动词,ad表示形容词。加入词性特征对期刊关键词的识别有一定作用。(2)依存句法分析依存句法分析就是确定一个句子中词语与词语之间的依存关系或者对句子的句法结构进行分析。词语之间的依存关系主要有介宾关系、动宾关系、主谓关系等。本文采用语言技术平台[18](LanguageTechnologyPlatform,LTP),对期刊文本进行依存句法分析,通过过滤不可能组成关键词的依存关系,可以提高识别关键词的效果。(3)词向量表示本文采用Word2Vec模型[19]中的Skip-gram模型[21]来训练词向量。Skip-gram模型是在已知当前词语的情况下,去预测上下文信息。模型的目的是要学到好的词向量表示,然后能够很好的预测它上下文的词语。Skip-gram模型如图2所示。在训练词向量的过程中分别将词、词性、依存句法分析等特征通过word2vec工具转换成词向量表示,词的维度为200维,词性和依存句法分析的维度分别为10维,最后通过嵌入式向量引入模型进行融合,生成最终的特征向量表示。3.2LSTM网络:循环神经网络(RNN)[20]被广泛应用于命名实体识别、语音识别等自然语言处理任务中,具有记忆历史信息的能力,能够使模型通过长距离的特征对当前的输出进行预测。但随着RNN网络深度和训练时长的增加,在对较长序列数据处理时存在梯度消失和梯度爆炸的问题。LSTM网络与传统的RNN具有相似的网络结构,通过使用专门构建的记忆细胞代替RNN网络中隐藏层的更新模块,使LSTM网络具有发现和探索数据中长时间的依赖信息的能力。LSTM的神经元结构如图3[21]所示。由上图可知,LSTM模型使用门结构对细胞状态进行保持和更新,一个LSTM存储单元主要由输入门(i),输出门(o),遗忘门(f)和记忆细胞(c)组成。LSTM模型可以通过下列公式实现:其中,σ表示Sigmoid函数,tanh是双曲正切函数,t表示当前时刻,t-1表示前一时刻,it、ft、ot、ct分别表示当前时刻输入门、遗忘门、输出门和记忆细胞的输出,W和b分别表示模型训练过程中的权重矩阵和偏置向量。在序列标注任务中,由于引入了记忆单元和门结构,在输入句子较长时,可以防止距离当前词语较远但依赖关系较强的信息被遗忘。本文定义标签集{B,M,E,O},其中,B表示CW的首部和SW,M表示CW的中部,E表示CW的尾部,O表示其他文本,LSTM模型[22]如图4所示。在对期刊的关键词进行抽取时,通常需要在给定时间访问过去或未来的输入特征,而单向LSTM网络只能处理和存储前一时刻信息,因此可以使用图5所示的双向LSTM网络[22]来完成该任务。这样可以在指定的时间范围内有效地使用上下文信息。其中,过去的特征通过Forward状态获取,未来的特征通过Backward状态获取。然后使用时间的反向传播来训练BiLSTM网络。随着时间推移,在展开的网络上进行的前向和后向传播与传统网络的前向和后向传播类似,但需要设置隐藏状态。在对整个句子进行前向和后向传播的时候仅需要在句子的开头将隐藏状态重置为0。由图5可知,BiLSTM网络可以同时获取较长语句的前后文信息,保证了上下文之间的依赖关系。在期刊关键词抽取任务中,若起始词为关键词,LSTM网络会忽略语句开头与结尾间的依赖关系,因此会导致误判。因此,BiLSTM模型为有效的进行关键词抽取奠定了基础。3.3融合词性特征的BiLSTM-CRF模型:条件随机场是一种针对序列标注问题效果最显著的条件概率模型,其本质是一个无向图模型。本文在BiLSTM模型的基础上,结合CRF处理序列标注问题的天然优势,有效的引入标签之间的转移关系,构建转移状态矩阵,从而更有效的实现关键词的自动抽取。将BiLSTM网络和CRF网络整合为BiLSTM-CRF模型,如图6所示。通过BiLSTM网络,模型可以有效的利用过去的输入特征和未来的输入特征挖掘期刊文本数据的隐含特征,通过CRF层,利用状态转移矩阵模型可以有效的利用过去和未来的文本的标签信息预测当前的标签。由图6可知,BiLSTM-CRF主要包含WordEmbedding向量化,BiLSTM网络,CRF三个部分。模型的输入为分词和进行词性标注后的序列文本。在WordEmbedding向量化过程中使用Word2Vec模型[19]通过训练后,根据给定的语料库可以快速有效地把对文本内容的处理简化为K维向量空间中的向量运算,将一个词语表达成向量形式,从而可以使用向量空间上的相似度来表示文本语义上的相似度。本文使用Word2Vec模型中的Skip-Gram模型,通过给定单词来预测上下文信息,使用无监督的方式通过学习文本来用词向量的方式表征词的语义信息。将获取的融合词性后的词向量输入BiLSTM网络中,得到包含前后文信息的文本序列的双向表达,通过CRF预测最终的标签序列。

4实验结果与分析

本文使用中国知网的期刊数据,实验数据包括基础科学、工程科技Ⅰ辑、工程科技Ⅱ辑、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ辑、社会科学Ⅱ辑、信息科技、经济与管理科学10个大类以及168个二级分类。实验期刊数据是1989年到1992年约300万的期刊量。其中每篇期刊数据包括来源库、题名、作者、单位、文献来源、关键词、摘要、发表时间、第一责任人、基金、年、期、卷、期、页码等数据项。在实验过程中,需要在保证数据多样性的同时确保数据的有效性,因此从采集到的期刊数据中的各个大类和二级分类中随机选出5040篇作为训练数据集,1680篇作为验证数据集,1680篇作为测试数据集。本实验采用融合词性与BiLSTM-CRF的关键词抽取模型,需要在WordEmbedding词向量的训练过程中结合期刊的词性特征。同时,论文的题目和摘要最能表达文章的核心内容,所以在实验过程中,本文使用jieba分词工具对获取的期刊数据的摘要和题目进行分词和词性标注处理,除了对测试数据进行中文分词和词性标注处理外,不进行任何数据预处理操作。通过模型获取最终的关键词抽取结果并与期刊数据中的获取关键词进行比对,得到最终的实验结果。数据的标注样例如表1所示,本文将关键词抽取问题转换为序列标注问题,定义标签集{B,M,E,O},其中,B表示CW的中部,E表示CW的尾部,O表示其他文本。标注样例如表1所示:4.1评价指标:为度量模型的性能病并验证本文所提模型的准确性和有效性,在实验中采用准确率(Precision,P)、召回率(Recall,R)和F值(Fscore)对关键词抽取模型的性能进行评价,将模型抽取的关键词与原始期刊文献中的关键词进行对比,可以得到:准确率P,召回率R和F值得取值范围均为0到1,P越大表示抽取出的关键词正确率越高,R越大表示越多的关键词被正确抽取,F值是基于P和R的调和平均定义的,故F值越大则表示模型的性能越好,当取值为1时,表示所有的关键词均被正确的抽取。4.2实验结果与分析本文实验均在硬件配置为Nvidia1080Ti显卡,I77700K处理器,64G运行内存,运行环境为Ubuntu16.04操作系统的计算机上实现的。编程语言为python3.5,模型的搭建使用TensorFlow框架。实验过程中,期刊关键词抽取模型的超参数设置可能会对实验结果产生直接影响。为确定参数设置对模型性能的影响,使模型性能最优,本文开展了大量的超参数比选实验。实验结果表明词向量和词性向量的维度对实验结果具有较大影响,而BiLSTM网络模型中的参数对实验结果的影响较小。在比选实验后,最终关键词抽取模型的参数设置如表2所示:为确定所提融合词性的BiLSTM-CRF模型对期刊关键词的抽取的有效性,本文共设置了五组实验进行对比。将本文模型与LSTM模型,BiLSTM模型,BiLSTM-CRF模型,融合词性的BiLSTM模型,融合词性的BiLSTM-CRF模型进行对比,并分别设置实验编号为Case1,Case2,Case3,Case4,Case5。不同模型组合得到的实验结果如表3所示:表3不同Case2是在Case1的基础上将LSTM模型改进为BiLSTM模型,无论是在CW还是SW的层面上,准确率,召回率和F值都得到了提升,表明BiLSTM模型更适合作为基础深度神经网络进行关键词抽取。Case4是在Case2的基础上融入词性特征,在CW和SW上,F值分别从82.73%和44.27%增加到83.43%和47.19%。分别提升了0.70%和2.92%。而Case3和Case5则分别在Case2和Case4的基础上加入CRF模型,就CW而言,两组对比实验的准确率分别提升了0.42%和2.05%,召回率分别提升了2.46%和2.79%,F值分别提升了1.46%和2.43%,就SW而言,两组对比实验的准确率分别提升了5.62%和10.06%,召回率分别提升了5.93%和9.19%,F值分别提升了5.82%和9.62%。实验结果表明,在加入CRF模型后,关键词的自动提取性能在SW层面上的提升比在CW层面上的提升更为显著,融入词性特征后模型性能的提升比未加入词性特征的模型性能的提升更为显著。同时可以看出,在BiLSTM模型的基础上,加入CRF模型比仅融入词性特征对模型的提升更为显著,这是由于在训练模型的过程中,CRF可以自动学习一些约束添加至最终的预测标签中,保证预测结果的有效性,在模型训练过程中,这些约束可以通过CRF模型自动学习到。在五组对比试验中,无论是CW还是SW,融合词性的BiLSTM-CRF模型均获得最高的F值,模型对关键词的抽取能力更强。为进一步证明方法的有效性,将本文方法与三种常用的关键词抽取方法:TextRank[23]SGRank[24]SingleRank[25]行比较,实验结果如表4所示:BiLSTM-CRF模型性能显著优于三种常用的关键词抽取方法。在三种无监督的算法中,SGRank对CW和SW类关键词提取的准确率,召回率和F值均优于其余两种算法。结合表3中的实验结果,使用到的方法均不能有效抽取CW类关键词,需要在后续的研究中更为充分的考虑文本中的上下文等有效信息来解决这一问题。

本文针对传统BiLSTM网络忽略了文本结构信息以及人工抽取特征困难的问题,提出了一种基于融合词性的BiLSTM-CRF的关键词抽取方法。该方法将关键词自动抽取问题转化为序列标注问题,在传统BiLSTM网络的输出层后加入CRF模型,可以自动学习一些约束并添加至最终的预测标签中,使得最终的输出标签前后具有关联性。同时,在输出网络时,显性的加入词性特征,构成最终的词向量矩阵。实验结果表明,本文提出的基于融合词性的BiLSTM-CRF模型相较未加入CRF以及未融合词性的模型具有更高的准确率,召回率和F值,是一种有效的关键词自动抽取方法。但是本文的方法仍存在一定的局限性,针对CW类型的关键词抽取问题,模型性能较差。在未来的研究中,需要着重解决对复杂关键词的自动抽取问题并进一步提升对简单关键词的自动抽取的准确率,结合其他有效信息对模型进行改进,进一步提升对关键词的自动抽取效果。

作者:成彬 施水才 都云程 肖诗斌