期刊选择学术论文内容的分类

时间:2022-05-09 03:59:26

期刊选择学术论文内容的分类

1引言

在数据采集技术和数据存储设备得到快速发展的大环境下,多种针对数据分析、挖掘的应用应运而生。在学术研究过程中同样需要数据分析的应用,例如期刊论文的分类研究。然而,在论文文献分类中目前还未有普遍使用的统一标准。由于期刊数量和投稿人数量逐年增加,论文的增长趋势也不容小觑[1]。长期以来由于审稿周期较长、稿件本身的时效性使得一些投稿人未能遵守底线,一稿多投和一文多刊的现象层出不穷[2]。早期在有关期刊投稿指南的相关研究中,研究者往往仅给投稿者提出一些主观的期刊投稿建议,例如“了解认识期刊”、“了解同行评审和稿件要求”等[3],这些建议缺乏可执行性,在具体操作时仍不能给予投稿者切实有效的帮助。随着,信息共享意识的觉醒以及信息系统的普及应用,相关学者提出了构建期刊投稿网络系统的设想,希望通过多家期刊共同参与,建设一个科学、透明、共享的投稿平台[2]。对一篇具体的论文而言,文献篇幅一般较长,故其具有包含大量信息的特殊性。为了有效提取文本的关键信息,在进行文本分类时常选择对能够容纳一篇论文最为核心信息的题录信息进行处理[4],从而更精准地概括文献的内外部特征、进一步挖掘出期刊收录偏好特征。综上,本文希望以图书馆、情报学学科SSCI核心期刊为例,获取该学科期刊下十年内收录文献的题录信息,挖掘收录偏好特征相近的期刊进行聚类后构建层次体系结构,然后通过机器学习和深度学习的方法对该层次分类模型进行验证,选择最优的特征组合和分类算法,根据以上分析结果考虑将内容相似度较高的期刊进行合并,从而获得最佳的期刊投稿推荐意见。

2近期相关研究

我国对期刊类目划分的研究呈现两大明显的操作路径:一是基于期刊内容的类目划分[5]。例如,沈立力[6]基于期刊搜索的关键词将民国期刊分成诗歌、时政等共五个类目。二是针对期刊等级进行类目划分[7],这种思路的类目划分已经有十分成熟的理论且被学者广泛应用于各类期刊等级划分中,最典型的理论即为布拉德福定律。例如,兰超英、张凌云[8]以我国旅游学术期刊为例通过期刊评价的各种指标找出了期刊合集中对应的分级层次。以上提到的期刊类目划分思路大都基于人工统计和手动分类,近些年,一些基于机器和算法的方法才开始不断涌现[9,10,11]。主流的文本聚类算法包括基于层次的聚类方法和基于划分的聚类方法。除此之外,还有基于网格[12,13]、密度[14,15]、模型[16]的聚类方法。CURE[17]、ROCK[18]、CHAMELEON[19]是层次聚类中最具代表性的三种算法。层次聚类算法一般适用于小型数据集[20],张雅杰[21]、言迎[22]等曾利用层次聚类的方法对连州市和益阳市的土地进行划分。最经典的划分聚类算法当属1967年提出的k-均值(k-means)聚类算法[23],后来大多数划分聚类算法都是基于该方法进行改进。例如k-modes算法[24,25]、一致性保留k-means算法[26]。划分聚类的方法应用得较为广泛:李洋[27]将k-mean应用于对入侵检测库和安全级别的构建当中。邢留伟[28]通过k-means算法进行客户数据建模达到了对客户进行更精准细分的目的。众多学者将机器学习算法和深度学习算法应用于文本分类研究,例如在专业期刊自动分类[29]、门户网站文本情感分析[30]和新闻文档的主题分类[31]中都曾得到良好的实验效果。齐玉东[32]将军事文本文档进行分类实验,分别利用SVM[33],CNN[34],RNN[35]等机器学习和深度学习的算法得到了较高的准确率,召回率和F1值。汪少敏[36]等对比了传统机器学习分类算法和深度学习分类算法在文本分类中的效果,在进行测试的数据集上体现出了深度学习算法的优越性。对以上期刊类目划分研究的总结可以窥探出期刊类目划分逐渐由人工向机器过渡。但在人工类目划分标准下,主观因素难免影响划分结果。针对某一研究领域的期刊一般只有该专业学者才具有类目划分的知识储备,很难形成对多种学科领域具有全方位指导价值的方法体系。这时,机器划分的优势得以体现。且很多学者已经利用机器学习、深度学习算法在多种文本实验中得到良好的分类结果;一般情况下随着文本量和语料丰富程度的增加,深度学习常常表现出比机器学习更具优势。在此背景下,本文提出利用机器方法和深度学习方法为期刊论文投稿的多分类问题提供解决方案,同时也为高水平期刊收录内容的差别化探索提供思路。

3实验设计和优化

3.1研究框架。为了构建某一学科下的期刊分类体系,本文设计了总体研究框架如图1所示。本文以图书馆、情报学(LibraryandInformationScience,LIS)学科英文期刊为研究对象,选择题名(TIss)、关键词(KWss)、附加关键词(DEss)与摘要(ABss)四个字段的信息作为实验数据,经过数据预处理后得到每类期刊的期刊术语矩阵。采用余弦相似度的计算公式得到基于期刊题录信息的层次聚类模型。在此模型基础上,选取不同特征来源组合的期刊术语矩阵,按照一定的比例划分训练集和测试集,分别应用机器学习和深度学习分类算法的进行训练并将输出的结果与测试集的类别矩阵进行比较后得到相应的准确率,进而对不同特征来源组合和不同算法下的分类效果进行分析,确定最合适的特征组合和分类算法。在得到实验结果后,笔者尝试将分类结果中的某些易混淆的期刊进行组合,再次进行准确率的统计,以期获得更好的分类效果。3.2数据来源与初始化本文数据来自WebofScience数据库。检索范围为LIS学科于2014、2015、2016年连续三年进入前三区的26种期刊(分区标准参考《中国科学院文献情报中心期刊分区表》),首先,确定检索年限为2009-2018年,共得到20297篇文献的题录信息,具体信息如表1所示:将以上得到的题录信息导入文献题录信息统计分析工具SATI[37]中进行预处理后,得到每篇文献的题名(TIss)、关键词(KWss)、附加关键词(DEss)与摘要(ABss)的分词结果以及对应的来源期刊(SO),最后为每篇文献进行编号后得到其对应的六元组信息,以其中的一条记录为例,详见表2。构建期刊术语矩阵作为分类算法的输入,其中期刊术语矩阵的构建方法形如其中,JTM为一个m*n维的矩阵,Cik和Cjk为术语权重值,m为术语向量的总个数(一个特征术语向量表示一个期刊),n为m个期刊所包含的术语总量,该矩阵是由<期刊编号,术语,术语权重>三元组转化而来。其中,术语的选择范围为六元组中可以提供的题名、关键词、附加关键词与摘要信息的组合,术语权重表示方法采用根据实验的具体需要进行适当选择。3.3方法论(1)聚类算法聚类即通过获取数据不同的特征将其划分成不同的类别。本质就是通过一定的方法,使得同一类数据间相似度更高,不同类数据间相似度更低[38]。聚类的步骤一般如下:①文本分词。即将文本分割成有意义的最小单元。②文档特征表示。即用数学表达式的形式将文档特征提取出来。③确定聚类模型。3.2小节提及,将收集到的数据。导入文献题录信息统计分析工具SATI中得到相应的分词结果即可。文档特征提取的方法一般有两种思路:基于概率和基于语义的提取方式[39]。由于本文的实验数据是论文题录信息的分词结果,词与词之间不存在语义联系,故而首先排除基于语义的提取方式。文档频率[40,41]、互信息[42,43]、信息增益[44,45]都是常见的基于概率的文档特征表示方法,但是基于已有研究[35]中互信息倾向于对罕见词的提取以及信息增益方法操作的繁琐程度,实验最终敲定基于文档频率的特征提取方式。特征选择的常见矩阵形式有0-1矩阵、TF-IDF、TFw、词向量、文本卡方值等。此次实验中,为了凸显题名、关键词、附加关键词与摘要四种字段对于文档特征的不同的表征程度,按照题名:关键词:附加关键词:摘要=4:2:2:1的权重构造TFw矩阵作为输入数据。在选择聚类模型时,笔者结合此次数据的特点对第2节梳理的两种主流聚类算法进行取舍:首先,需要建立的期刊分类模型不需要提前给出具体划分的类别数目,不符合划分聚类算法的前提要求;其次,本次实验数据规模较小,符合层次聚类算法的适用条件。因此最终选定层次聚类法进行实验,进行SSCI期刊分类体系结构的构建。(2)分类算法分类是指将未标明类别的实验数据分类到某一预定标签的类别中。文本分类的步骤一般如下:①确定分类的类别。②清洗、分词等工作。③确定文本特征表示方法。④应用文本分类模型训练文本分类器。⑤评价分类器模型并进行文本分类。在此次文本分类实验中,分类的类别已经通过聚类算法构建的分类模型给出。清洗、分词的工作同。3.3.1节文本聚类的处理方法一致。文本特征的表示方法上,选取不同的字段组合作为此次实验的因变量之一,考虑到实验的复杂性,采用这些不同字段组合的0-1矩阵作为文本特征的提取。因此,本文分类实验中核心的问题就落在“分类模型的选择”和“分类效果的评价”上。选择分类模型时,传统的机器学习分类算法有朴素贝叶斯、决策树、K近邻、支持向量机(SVM)等。通过应用场景预判以及前人经验支持[15],当需要分类的文本具有矩阵稀疏、维度较高的特点时,为了得到更好的分类效果和分类效率,SVM算法识别能力好、训练效率高、稳定性强的优势较为明显,因此本文采用SVM算法进行机器学习部分的建模。随着深度学习算法的日渐成熟,例如CNN,RNN等算法在多种数据集上都呈现出相较于传统机器学习算法更明显的分类优势,因此为了对比机器学习与深度学习算法在相同数据集上的实验效果,在SVM算法的基础上,本文尝试使用CNN,RNN算法进行深度学习实验部分的建模。在进行分类效果评价时,需要考虑以下几个参数:①TP_num:正例被分为正例的个数。②FP_num:负例被分为正例的个数。③FN_num:正例被分为负例的个数.④TN_num:负例被分为负例的个数。定义TP_num+FN_num=P_num,即实际正例个数;FP_num+TN_num=N_num即实际负例个数。

4SSCI期刊分类模型的构建

在十年的数据中选取2017年的数据共计2141篇文献的题录信息在Matlab中进行层次聚类后得到以下的层次分类图,如图2所示。根据以上层次聚类效果图所显示的聚类结果,可将26种期刊划分为六个期刊分区分别为C_1、C_2、C_3、C_4、C_5、C_6,每个期刊分区中所包含的期刊分别如下表所示。结合期刊的具体内容进行得到:①C_1中的期刊主要为计量学和图书馆学领域的期刊。例如,在该分区下的期刊RE是一本跨学科的同行评审国际期刊,它的官方介绍中“科学计量学与研究评价之间存在着密切的关系”这样的描述也印证了这一结论。②C_2中四种期刊都是信息系统领域的专业期刊。在数据爆炸的信息时代,信息系统的设计与研究也发展成为LIS学科一个重要的分支。③C_3中围绕“信息管理”、“信息处理”、“信息技术”等出现的关键词则将这其指向情报学这一领域的研究,因为情报学自发展初期就离不开信息管理、处理等环节。④C_4中的期刊更偏向计算机科学领域,这一趋势是伴随着计算机科学愈发走向成熟的产物。⑤C_5中的两种期刊与健康学、医学的联系非常紧密,偏向医学信息学领域相关的研究。⑥C_6中的两种期刊与其他期刊不能聚成一类,故将这两种期刊分为其他类。

5基于层次分类法的期刊论文自动分类

选取TIss、KWss、DEss、ABss字段表征单篇论文信息的内容。由于不同字段对论文的表征程度不同,因此不同组合对于分类的效果会产生不同程度的影响。一般认为,TIss字段最能展示论文的核心内容,因此被认为是表征能力最强的字段。KWss是作者挑选出来作为核心检索字段的一组词汇,也具有较强的反映文献内容的能力。DEss是对关键词的补充,和KWss所具有的表征内涵相似。ABss是对文章内容的高度概括,文章中出现的核心信息往往能在摘要中得到体现。但当摘要以句子的形式呈现时,往往会包含一些非核心词汇,一定程度上会削弱其对文献的表征能力[11]。在本文的实验中,选取以上字段进行不同的组合作为分类算法的输入。实验分两层展开,首先进行第一层分类,即将每篇论文映射到六种期刊分类(C_1、C_2、C_3、C_4、C_5、C_6)。然后对每一类中的期刊分别第二层的分类,即将每篇论文映射到该区下对应的期刊中。5.1第一层分类实验在第一层次分类实验中,先后选取TIss、TIss+KWss、TIss+ABss、TIss+KWss+DEss、TIss+KWss+DEss+ABss五种组合方式进行实验,同时按照3.3节对分类算法的选择,先后分别使用SVM,CNN,RNN进行分类,对应每组实验的数据量如表4所示。(1)对整体Accuracy的分析在以上不同的特征组合和分类算法下进行实验后,统计每组实验的准确率,得到如图4的结果:通过上图正确率的比较可以发现:①随着语料的增加,即在特征来源的组合变得逐渐复杂的趋势下,分类的正确率基本呈现上升趋势。②特征来源仅为TIss时,SVM的正确率已经可达70%,说明TIss对于文献的表征能力已经十分显著。然而当语料较少时,CNN与RNN的分类效果不是特别理想,这与深度学习需要大数据量的要求一致。③特征来源分别增加KWss和ABss后,SVM分类的正确率分别提高了6%和3.68%,说明这两种操作对于SVM分类的效果都呈积极影响,KWss的表征能力优于ABss。对比来看,当使用CNN与RNN分类时,ABss的表征能力优于KWss。④当语料增加为TIss+KWss+DEss+ABss时,正确率下降为49%。究其原因:ABss中一些词的含义并不能十分准确地表征论文内容,有时甚至会干扰机器学习时的判断能力,因此正确率会急速下降。和SVM分类效果不同,特征来源的组合达到最复杂的TIss+KWss+DEss+ABss时,两种深度学习分类算法的效果都达到最优,CNN的分类结果可以达到80%以上。综上分析,在使用SVM进行分类时,最佳的语料组合方式为TIss+KWss+DEss,在使用深度学习算法进行分类时,最佳的语料组合方式为TIss+KWss+DEss+ABss。对比两种深度学习算法CNN和RNN的分类效果,在每组实验中CNN分类效果都优于RNN的分类效果,认为前者在区分期刊术语语料的能力上更强从而更适合此次实验语料的分类。因此在以下实验和分析中,在深度学习算法部分仅采用CNN算法进行实验并对其结果进行分析。(2)对分类F1值的分析针对特定算法选定最匹配的语料组合后,对第一层的六个类分别进行F1值统计如下图所示。在每一类的F1值中,CNN的准确率都要优于SVM的准确率,这和上文中该层次的整体准确率对比的结果相一致。其中两种分类算法下都是C_3的准确率最低,分别为63%和59%,C_5的准确率最高,分别为96%和89%。针对这两组极值数据分析后得到以下两个方面的影响因素:①参加实验的文本数量的差异:统计C_3和C_5下参与实验的文本数量后发现,C_3的训练和测试文本量相对较少,C_5的训练和测试文本量相对较多。一般认为当训练样本充足时,训练效果越好。且由于样本量不均匀问题存在时,样本量比例较多的类一般会收获较高的准确率。因此,足以证明文本数量对于分类效果的影响较为明显。②两种期刊类别下收录期刊内容的差异:考察C_3下的期刊内容发现,其下共8种期刊,都为情报学相关研究,但是每种期刊的研究内容各有针对性。例如IP&M的文章大多是情报学领域偏向工程性的文章;ONR其收录的文章偏向情报学与社会科学领域的交叉与应用;JOD的文章更多关注情报学传统的研究领域——文献学。故若同一分区下的期刊各自研究方向存在差别,收集到的题录信息差异性大,则该类别的内聚性相对较低,与其他分区下的期刊内容混淆性较强,利用基于相似度计算的分类算法进行分类时效果相对较差。以同样的视角观察C_5,该分区是LIS学科下医学信息学领域,其下仅有两种期刊:JHC和JAMIA,这两种期刊从内容上主题十分明确。统计这两种期刊参与实验的数据中高频出现的10个词分别为:health、record、patient、electron、data、clinic、inform、medic、system、care。可以明显看出,这些单词能够轻易表征出医学信息学研究领域的主题信息,所以可以认为该C_5的两种期刊的内聚性很强,与其他期刊分区下的内容区分度较高。综上,不同分类算法和特征来源的组合可以得到分类效果最佳的搭配。应用到具体的场景中,在进行论文投稿选择期刊时,可以将论文先进行第一层次的大致划分,考虑可以将论文投至哪一分区,这样可以选择投稿的期刊范围就可以进一步缩小,从而也更具针对性。5.2第二层分类实验在进行第二层分类时,由于26种期刊中都包含的字段只有TIss和ABss,且第一层实验中验证了TIss+ABss的组合分类效果整体优于其他字段组合,因此选择TIss+ABss的组合进行实验。在算法选择上,由第一层实验得出SVM和CNN的准确率相对较高,因此仅使用这两种算法进行实验。每一个期刊分类中参与实验的数据量如表5所示。(1)对整体Accuracy的分析在选定TISS+ABSS该特征组合后分别使用SVM和CNN分类算法进行实验后,统计每个期刊分类的准确率,得到如图6的结果:通过上图正确率的比较可以发现:①第二层实验的六组实验中,实验的正确率明显下降,其中SVM分类在C_2的实验数据中仅有36.61%,CNN分类的正确率也仅有41.07%。在C_1,C_3,C_4类的分类效果也不甚理想。究其原因,相比于第一层实验中每次接近6000条数据的数据量,由于所能获取的第二层实验的数据量有限,直接导致算法学习得不够充分,从而间接导致测试正确率不高。②在数据量一致的前提下六个期刊类别的实验结果表明,CNN算法相比于SVM算法的优越性仍然明显。说明尽管本期刊题录语料不能充分训练的小样本集上,深度学习仍具有机器学习算法未能超越的优势。③获得更高正确率的两个期刊分区C_5,C_6除了拥有相对更丰富的语料这一特征外,该类别下的期刊种类相比于其他类更少,仅仅有两种期刊,这与分类算法在二分类上的分类效果优于多分类的特性相符合。(2)对分类F1值的分析对第二层实验中六个期刊分区下属共计26种期刊分别使用SVM和CNN算法分类的F1值进行统计后绘制下图。由于分类实验已经深入第二层,相比第一层期刊分区的分类实验结果这一层的准确性明显下降。通过对六个期刊分区分别观察并对比后发现:①在不同的期刊分区中,下属的期刊数不同则得到的实验准确率也有相应差别。C_1、C_3分区下期刊较多,因此每一种期刊参加训练的数据量相对较少,可以很明显地观察到有些期刊的分类准确率较低。由于C_5、C_6分区下仅包含两种期刊,其准确率都达到了85%以上。②观察以上六图,SVM分类算法和CNN分类算法的优劣对比明显,在绝大多数的情况下,CNN算法都比SVM算法更适合于此次实验的分类模型。5.3分类结果的优化在得到第二层次分类实验中直接对应到单个期刊的分类结果后,联系实际期刊投稿的应用场景:在进行投稿时,不单给投稿者某一个特定期刊的投稿意见,而是给出推荐准确率排名前几位的期刊,投稿投中的准确率往往会大幅提升。因此考虑对分类结果中错误分类期刊比例进行统计分析,将某一类期刊下最易混淆的某几种期刊进行组合,即将期刊收录内容相近的几种期刊同时视为可以投稿的对象后观察分类准确率的提升效果。本文仅以第二层次分类实验中CNN分类结果下C_1的六种期刊为例,其他五个分区可参考其优化思路。调查这六种期刊的错分情况如表6所示,已知CNN算法对该期刊分区的分类整体正确率为66.07%。以80%为阈值,将分类错误数占该类错误总数比例超过该阈值的类别进行组合。按照这一规则,进行如下几组实验:观察上图发现,将期刊进行组合后,每一种组合的分类准确率都得到了一定的提升,提升最为明显的是实验A+D,分类准确率提升至90.31%。应用到具体场景中,在提供期刊投稿意见时,若该篇文章被划分至C_1,首先进行分类算法的应用,若该文章的研究主题更接近期刊C&RL或期刊JAL,可以同时推荐期刊C&RL和JAL给该投稿人,同理若该文章的研究主题更接近期刊JOI、RE和SCIM中的一种,可同时推荐期刊JOI、RE和SCIM作为目标投稿期刊。据此思路优化后得到的C_1期刊分区新的层次体系如图9所示。按照同样的方法也可将其他期刊分区进行优化。综上分析,针对每一期刊分区下的已有的分类体系上,在保证准确率的前提下,可以将最易错分的特定期刊作为一个推荐组合,建议投稿人向多个期刊投稿。这样既能保证推荐结果的准确性又能保证针对性。

6结语

本文以LIS学科领域26种SSCI核心期刊为研究对象,进行面向期刊选择的学术论文分类研究。核心步骤是收集这26种期刊下十年内收录文献的题录信息,选择其中一年的数据,使用层次聚类进行层次模型的构建。在此基础上使用机器学习和深度学习的分类算法对十年的数据进行分类。结果表明:①特征来源的多元化和数据规模的扩大可以增加语料的丰富程度,从而在一定程度上可以提高分类的准确性。在期刊分区数据量接近的情况下,期刊数目的增加对于分类的效果呈消极作用。②在语料充足、数据量一致的条件下,深度学习算法体现出相比于机器学习算法的优越性,符合深度学习算法适用于较大数据运算量的特性。③将内容相近的期刊进行组合后有利于分类准确程度的提升。当然,本研究仍然存在以下不足之处:本文的数据仅仅是WebofScience数据库中26种核心英文期刊十年内的数据,在进行聚类时也仅使用了2017年一年的数据进行实验,数据量的局限性可能会导致聚类、分类结果出现一定的偏差。关于以上提到的不足,在后续的研究中需要对此进一步优化。例如可以通过扩大时间跨度来获取更多的题录信息进行实验,则本研究的内容将更加科学合理。

作者:王鑫芸 王昊 邓三鸿 张宝隆 单位:1.南京大学信息管理学院 2.江苏省数据工程与知识服务重点实验室