学术期刊影响力排序与分区方法

时间:2022-03-10 05:20:28

学术期刊影响力排序与分区方法

学术期刊(以下简称“期刊冶)在促进科学知识的创新、科技成果的转化以及社会科技的进步等方面发挥着重要作用。在一定时间内某期刊所出版的学术论文对后续某段时间内相关领域知识创新的促进能力被称之为期刊影响力[1]。期刊排序分区是衡量期刊影响力的重要指标,通常由某种或某些文献计量学指标(又称“期刊表征因素冶)来度量,对总体评估期刊的学术质量、宏观考量期刊的办刊定位与出版策略、学术绩效短期评价、图书机构期刊采购等具有非常重要的参考意义。特别地,从科研管理实践来看,期刊排序分区是对于以数量胜质量、赚取奖金和应付考核投机行为的低成本有效对策[2]。最常见的期刊影响力度量指标是影响因子。普遍认为,影响因子越大,期刊影响力就越大。因此,期刊排序分区方法通常与影响因子有关。例如,适用于SCI英文期刊的排序分区方法主要包括:科睿唯安公司的期刊引用报告分区方法(简称“JCR分区冶)[3]和中国科学院文献情报中心的分区方法(简称“中科院分区冶)[4]。在JCR分区方法中,将某一个学科的所有期刊都按照上一年的影响因子降序排列后,依据学科内期刊总数目,平均将这些期刊分为4个区,每个所占期刊数目比例为25%。在中科院分区方法中,采用期刊的前3年影响因子均值进行降序排位,然后将这些期刊以固定但非平均的方式划分为四个区,期刊的区分位分别是5%,6%~20%,21%~50%,51%~100%。然而,随着各个学科知识创新日渐加速、跨学科研究日趋普遍、文献出版方式日呈多样化,仅仅使用影响因子来进行期刊分区存在一定的缺陷。研究工作者试图开发一个更为合理的期刊影响力度量指标,探索可以较为全面反映学术期刊质量和影响力的新型期刊分区方法。在影响因子基础上,人们已经研究了多种新的指数,如h指数[5,6]、及其改进g指数[7]、特征因子[8-9]、f(x)指数[10]、PR8指数[11]以及学术期刊影响力指数(AcademicJournalCloutIndex,CI)[12]等。特别地,中国科学文献评价研究中心的期刊影响力指数CI,目前已经成为了国内中文期刊文献分区的重要依据。该指标是一种依赖于将“总被引频次冶和“影响因子冶的非线性综合指标[12]。CI分区方法首先将期刊的CI值作为排序度量值对特定学科的所有期刊进行降序排位,然后采用与JCR分区相似的方式,依据某个学科内所有期刊的数量来平均分割成四个分区。尽管影响因子是衡量期刊影响力的重要指标,但是期刊影响力是多个方面因素的综合影响结果,其影响因素指标体系是由一系列具有内在关联的评价指标所构成[13]。显然,综合各种指标的期刊影响力评价方法能够从多个层面反映出期刊影响力的真实水平。然而,当前分区方法没有反映出其它多种期刊因素(如即年指标、半衰期、互引指数等)。近年来,不少研究趋向于利用采用相关系数[14]、线性回归[15]、因子分析[16-17]等线性分析方法综合多种期刊表征因素,进行期刊影响力综合评价并排序。尽管文献[14]中同时也使用TOPSIS来捕获期刊表征因素之间非线性关系,但仅限于因素之间的二次关系。总的来说,当前方法难以捕获多个期刊表征因素之间的非线性关系,而且难以描述特定学科内期刊的全局和局部关系。另外,诸多期刊因素之间存在多重共线性关系会干扰期刊影响力评价。因此,针对目前的分区方法不足,本文利用相关系数矩阵和方差膨胀因子挑选高独立性的若干重要期刊表征因素,并利用深度自编码器的高维非线性刻画能力,综合集成这些因素,从而生成一种新的期刊排序度量指标并基于此进行期刊分区。

1方法

1.1实证数据选取与预处理。本文数据来源于2017年中国学术期刊影响因子年报(人文社会科学)[12],总共选择“图书馆学;情报学冶(以下简称“图情冶)、“法律冶和“体育冶三个学科中的学术期刊为实证研究样本,其中“图情冶学科包含43种期刊,“法律冶学科包含94种期刊,“体育冶包含41种期刊。每一种期刊包含学术期刊影响力指数(AcademicJournalCloutIndex,简称CI)和期刊分区(Q),以及35项学术期刊计量指标或表征因素(简称“因素冶)。例如,复合类指标、综合类指标、人文社科影响因子指标、出版指标、引证指标、网络传播指标等。因为少量期刊缺失个别因素的数据,需要对数据进行筛选。本文采用如下筛选方案:(1)剔除存在较多缺失因素数据的期刊:“图情冶期刊中的英文期刊《JournalofDataandInformationScience》,“法律冶期刊中的《中国法律评论》、《交大法学》、《苏州大学学报(法学版)》、《国际法研究》、《医学与法学》、《广西政法管理干部学院学报》、《河南警察学院学报》、《中国律师》、《新疆警察学院学报》、《广州市公安管理干部学院学报》、《辽宁公安司法管理干部学院学报》、《中国刑警学院学报》,“体育冶期刊中的英文期刊《JournalofSportandHealthScience》和《当代体育科技》;(2)存在缺失单个因素数据的期刊,采用该学科内其它期刊该因素值的平均值作为其估计值,如《情报学报》的“web即年下载率冶;(3)用边界值代替非确切数值,如“>20冶的数值均以“20冶替代;(4)删除不必要的冗余因素和分区无关因素,如“影响因子排序冶是与“影响因子冶的冗余,“研究层次冶是与分区无关的因素。最终选用42种“图情冶期刊,82种“法律冶期刊和39种“体育冶期刊为研究对象,每一种期刊均包含33个因素,如表1所示。根据中国学术期刊影响因子年报的方法,这些因素分为三组,分别是:“上年期刊主要影响因子冶,“其它各类计量指标冶和“人文社科类影响因子、被引频次及可被引文献量冶,详细信息如表1所示。因为所有期刊影响力因素的取值范围差异很大,比如“复合总被引冶的数值量级可达上万,而“复合影响因子冶的数值量级只有10左右,所以本文采用数据标准化来减少计算误差。标准化的定义为:z(i)=x(i)-滋(i)滓(i)(1)其中为x(i)为期刊x的第i个因素的原始数值,滋(i)和滓(i)分别为数据中所有期刊的该因素的均值和标准差,z(i)为标准化之后该因素的数值。1.2深度自编码器。深度自编码器(以下简称自编码器)作为深度学习领域的重要组成部分,是一种无监督的深度神经网络[18]。它不仅能够表达高维非线性变量关系,而且能够将其压缩为低维关系,从而为衡量期刊的排序分区提供一个可视化的表达和分析。在实际应用当中,自编码器具有重建过程简单、可堆叠多层等优点,通常由输入层、编码解码隐含层和输出层组成。其中,输入层和输出层维度(神经元数目)相等,输入层和隐含层之间构成编码器,输入信号x沂Rd通过编码过程在编码隐含层产生含数据特征的激励a沂Rm,解码隐含层和输出层之间构成解码器,a通过解码过程得到重构信号y沂Rd,解码是编码的逆向运算。在本文中,x代表期刊,用d个期刊因素表示,y表示重构之后的期刊。自编码器的训练目标是使原始输入y抑x,从而捕获数据中最重要的信息。如图1所示,本文采用L层自编码器,其过程可用如下公式表示:输入层-编码隐含层:a(1)=f(Wx+b)(2)编码隐含层:a(i+1)=f(W(i)a(i)+b(i)),i=1,…,L(3)其中,W和b分别为各层的权值矩阵和偏置项,L为编码隐含层的数目,f(誗)为激活函数,本文中采用sigmoid函数,其定义为f(z)=11+e-z,值域为[0,1]。在本文的自编码器实现中,输入层包含神经元数目对应于期刊因素的数目。同时,也设计了包含不同隐层数目的自编码器构架,用来调查特定学科内期刊的全局和局部关系以及期刊排序分区。在可视化当中,最后一个编码隐含层的神经元输出值分别作为期刊的坐标值。该值又称为隐空间主元值,简称隐元值。

2实证分析

2.1期刊因素分析与选择。尽管期刊拥有多达33个因素,然而有的因素与其它因素密切相关,相互之间存在较高的相关性,导致因素之间存在共线性问题。比如在2017年的“图情冶期刊中,第2个因素“复合影响因子冶与第3个因素“复合他引影响因子冶之间的相关性高达0.9969,它与第4个“复合5年影响因子冶之间的相关性为0.9768。再如,第11个因素“可被引文献量冶与第33个因素“可被引文献量2016冶的相关系数等于1,其中的原因在于数据来源于2017年中国学术期刊影响因子年报,所以这两个因素包含相同的数据。指导期刊发展的首要任务是明确重要的因素、并剔除冗余的因素。以“图情冶期刊为例,我们首先计算了方差膨胀因子(简称VIF)。结果表明,“可被引文献比冶(15.279)、“基金论文比冶(22.645)、“平均引文数冶(24.273)、“引用半衰期冶(20.735)和“被引半衰期冶(15.520)这五个因素的VIF在15和25之间,存在较严重的共线性现象,括号中数值为对应的VIF值;更为严重的是,其它因素的VIF远大于25,甚至高达10的7次方,存在极度共线性现象。由此可见,“图情冶期刊的因素之间存在非常严重的多重共线性现象。其次,按照表1里面的因素编号顺序,我们计算了建立因素之间的两两相关系数矩阵,从而挑选共线性程度较低的期刊因素。因为我们不关注相关性的正负,而是关注相关性的大小,所以相关系数矩阵包含的是相关系数的绝对值。为了进一步分析这些因素之间的关系,我们应用非负矩阵分解算法对该矩阵实施聚类。经观察发现,这些因素可以形成4个聚类。其中,第1个聚类包含11个因素,包括10种综合类、复合类以及社科统计源期刊引用的影响因子和即年指标、以及“web即年下载率冶,其内部的平均相关系数高达0.935。第2个聚类包含10个因素,包括8种复合类、综合类总被引和各种统计源引用、“被引期刊数冶和“总下载量(万次)冶,其内部的平均相关系数为0.841。第3个聚类包含7个因素,包括4种可被引文献量、2种半衰期和“引用期刊数冶,其内部的平均相关系数为0.545。第4个聚类包含5个因素,分别是“可被引文献比冶、“基金论文比冶、“平均引文数冶、“他引总引比冶、“互引指数冶,其内部的平均相关系数较低,仅为0.229。图2(a)显示了因素相关系数图,其中节点表示期刊因素,连边表示因素之间的相关系数,粗连边表示高相关性,细连边表示低相关性;为了突显聚类,因素聚类用虚线框和对应的序号进行标定。最后,针对相关系数很高的聚类,只选择其中第一个因素作为该聚类的代表因素。对于相关系数较低的聚类,选择全部的因素。总共获得了8个因素,包括“复合总被引冶、“复合影响因子冶、“可被引文献量冶、“可被引文献比冶、“基金论文比冶、“平均引文数冶、“他引总引比冶和“互引指数冶。在重新计算它们的VIF之后,我们发现由于“可被引文献量冶的VIF值(4.314)相对其它的因素而言数值较大,而且与其他因素的相关性超过了0.600,因此为了降低共线性程度进一步剔除了该因素。最终采用其它7个因素进行期刊影响力分析。如图2(b)所示,这些因素的VIF值均小于2.500,平均VIF值为1.693,“基金论文比冶具有最大的VIF值2.207。同时,我们也统计了它们之间的相关系数。如图2(c)表示,其相关性绝对值总体较低,平均相关系数仅为0.250;最大的相关性发生在“基金论文比冶因素,它分别与“平均引文数冶和“复合影响因子冶之间的相关系数值为0.557和0.520;最小的相关性发生在“复合影响因子冶和“他引总引比冶之间,两者几乎完全独立。这些结果表明,所选因素之间具有很低的共线性程度,可以用来进行下一步的期刊排序,从而可以用来指导期刊发展和提高期刊影响力。2.2基于深度自编码器的期刊排序。在实证分析中,根据隐层数目与神经元数目,设计了不同构架的自编码器,以将上一节选出的期刊因素拼接在一起作为自编码器的输入。采用了四种不同层数的自编码器构架,其隐层数目分别为1,2,3,4,并分别调查了每一种构架对应的隐层神经元数目。通常隐层数目在3及以上的自编码器被称为深度自编码器。为了描述方便,这里采用{A,B,C,D}的格式来表示自编码器构架,其中字母数目表示层数,字母本身表示该层的神经元数目。以“图情冶期刊为例,我们设计了渐进式的构架设计策略,即先调查隐层数目为1时对应的神经元数目,然后在此基础上调查隐层数目为2时对应的神经元数目,以此类推,直至确定最后一个自编码器构架中的神经元数目。具体过程如下:(1)当采用一个隐层{L}的时候,我们分别调查了L分别等于2~10、15、20、30、40、50和60条件下自编码器的隐空间输出结果。由于CI是目前最好的期刊影响力度量指标之一,我们计算了第一个隐元与CI的相关系数,并期望第一隐元能够正向衡量期刊影响力,所以选择这个相关系数为正且数值最大时对应的神经元数目作为该隐层的最佳神经元数目。我们发现,L=3对应最好结果。同时,该值也可为多个期刊的影响力分布提供了一种可视化手段。因此我们选择3作为自编码器{L}的隐层神经元数目,同时也是自编码器{L,3}中第二个隐层的神经元数目。(2)当自编码器采用{L,3}构架时,我们分别调查了L在同样条件下自编码器的隐空间输出结果。通过与上一步类似的方法,确立隐层神经元数目L=5。(3)当自编码器采用{L,5,3}构架时,确立隐层神经元数目L=50。(4)当自编码器采用{L,50,5,3}构架时,确定隐层神经元数目L=30。虽然可以继续增加层数时,但是采用更多隐层构架的自编码所产生的隐元数值却越来越小,趋向于过拟合。最终,我们最多只考虑采用四层的深度自编码器构架。此外,尽管最终获得了三个维度的隐变量,但结果表明只取前两个隐元来显示期刊分布就足够了。图3(a)、(b)、(c)、(d)分别显示了“图情冶期刊由四种自编码器生成的隐空间分布。为了方便可视化,使用CI分区作为期刊的标记,其中圆点、方块、三角和浅蓝菱形分布表示1、2、3、4区期刊。由四个不同构架自编码器生成的期刊分布结果如下:(1)当采用第1个自编码构架时:对比CI分区结果,第一个隐元与CI值的Spearman相关系数等于0.7582。其中,CI值排名前三的1区期刊《中国图书馆学报》、《图书情报工作》、《情报杂志》与其它1区期刊相对分散;有两个1区期刊《大学图书馆学报》《图书馆论坛》与2区期刊靠近;大多数2区期刊与1区期刊邻近,但《医学信息学杂志》远离其它2区期刊;隶属于3区的期刊与4区期刊和2区期刊均呈现较大重叠混杂。(2)当采用第2个自编码构架时:第一个隐元与CI值的Spearman相关系数等于0.8028。期刊分布更加突显了1区期刊与其它期刊的不同,大部分1区期刊保持与其它期刊分离的状态;两个2区期刊《情报学报》和《现代图书情报技术》靠近1区期刊;此外,在2区期刊当中,除了《医学信息学杂志》之外,《现代情报》也略远离其它同分区期刊;4区期刊《图书情报导刊》远离其它的同分区期刊。(3)当采用第3个自编码构架时:期刊的分布范围进一步缩小,期刊分区边界初步显现,呈现出与第一个隐元相关的趋势,其与CI值的spearman相关系数为0.826;CI值排名第一和第二的1区期刊《中国图书馆学报》《图书情报工作》突显出了与其它期刊不同,而其他两个2区期刊《情报学报》和《现代图书情报技术》呈现靠近1区期刊的趋势,分别与《情报杂志》、《情报理论与实践》和《情报科学》相近。(4)当使用第4个自编码构架时,所有期刊被映射成一条近似单调直线,能够使用第一个隐元对期刊进行排序和分区,其中第一个隐元与CI值的Spearman相关系数为0.8503;1区期刊可分为三组,第一组包括《中国图书馆学报》和《图书情报工作》;第二组包括《情报杂志》《情报理论与实践》《情报资料工作》《情报科学》《图书情报知识》《图书与情报》,但是2区期刊《情报学报》和《现代图书情报技术》位于其中;第三组包括《大学图书馆学报》《图书馆论坛》,但是它们与其他分区的期刊混杂在一起。此外,其它分区期刊存在不同程度的混杂重叠。总的来说,自编码器能够一个以非线性方式综合了多个高独立性期刊因素的期刊排序度量,其第一个隐元可以用来作为期刊排序度量值(排序得分)。另外,也应用深度自编码器在“法律冶期刊和“体育冶期刊。由于篇幅限制,只选用了采用一个隐层和四个隐层这两种自编码器构架的期刊排序结果,如图4所示。期刊排序结果表明,这两大类期刊表现为与“图情冶期刊相似的规律。当采用一个隐层时,期刊较为分散,第一个隐元与CI的相关系数分别为0.748和0.501,但是该构架利于发现离群期刊,如“法律冶期刊里面的《法制与社会》和《武汉公安干部学院学报》,“体育冶期刊中的《冰雪运动》。当采用四个隐层时,期刊分布呈现规律性,第一个隐元与CI的相关系数分别为0.796和0.838。再次说明,第一个隐元可以用来作为分区得分。2.3分区方法对比。现有分区方法均根据期刊顺序和数量来实施,可分为基于平均划分的方法和基于固定非平均划分的方法。前者的代表方法包括JCR分区方法和CI分区方法,后者的代表方法有中科院分区。基于现有的划分策略,本节对应地设计了深度学习平均分区方法(简称DL平均分区)和深度学习非平均方法(简称DL非平均分区),并以“图情冶期刊为例进行对比分析。JCR分区和中科院分区分别使用影响因子作为期刊排序度量,而中国学术期刊影响因子年报(简称“年报冶)提供的两大类影响因子:复合类和综合类。为了实施后续的期刊分区方法对比,首先调查了复合类影响因子与综合类影响因子在JCR分区和中科院分区中的差异。对比结果表明,两者无论是对于JCR分区还是对于中科院分区而言,结果非常接近,在42个“图情冶期刊中只有2个期刊的分区不同。因此,在后续的分区方法对比当中,只采用“复合影响因子冶(简称“影响因子冶)来分析JCR分区和中科院分区结果。对应于期刊分区策略,分区方法对比分为两个部分。首先,以CI分区为基准,对比了采用平均划分的JCR分区方法和DL平均分区方法。主要对比结果如下:(1)在CI的1区期刊列表中,JCR分区将《情报科学》和《图书馆论坛》分为2区,DL平均分区将《大学图书馆学报》和《图书馆论坛》分为2区;(2)在CI的2区期刊列表中,JCR分区将《图书馆杂志》《国家图书馆学刊》分为1区,将《图书馆理论与实践》和《医学信息学杂志》为3区;DL平均分区将《情报学报》和《现代图书情报技术》分为1区,将《图书馆杂志》、《图书馆工作与研究》和《图书馆理论与实践》为3区;(3)在CI的3区期刊列表中,JCR分区和DL平均分区同时将《中华医学图书情报杂志》分为2区、将《农业图书情报学刊》和《农业网络信息》分为4区;此外,JCR分区将《文献》为4区,而DL平均分区却将其分为2区,将《图书馆学刊》和《四川图书馆学报》分为4区;(4)在CI的4区期刊列表中,JCR分区将《大学图书情报学刊》《图书馆界》为3区,DL平均分区将《古籍整理研究学刊》《图书馆界》《数字图书馆论坛》《中国典籍与文化》分为3区。其次,以采用非平均划分的中科院分区为基准,对照CI值和CI分区,设计了一个CI非平均分区,并对比了DL非平均分区。主要对比结果如下:(1)中科院分区的两个1区期刊中,CI和DL非平均分区将《大学图书馆学报》分别分为2区和3区;(2)在中科院分区的六个2区期刊中,CI和DL非平均分区都将《图书情报工作》分为1区,将《情报杂志》分为2区;前者将《情报资料工作》《现代图书情报技术》分为3区;后者将《图书情报知识》《图书与情报》分为3区;(3)在中科院分区的十三个3区期刊中,CI和DL非平均分区都将《情报理论与实践》《情报科学》分为2区;前者将《信息资源管理学报》分为4区;后者将《情报学报》分为2区,将《图书馆杂志》《图书馆工作与研究》分为4区;(4)在中科院分区的二十一个4区期刊中,CI非平均分区将《图书馆理论与实践》分为3区,DL非平均分区将《中华医学图书情报杂志》和《文献》分为3区。综上所述,在给定平均划分条件下,三种分区方法在1区和4区的分区结果差异不大;在给定非平均划分条件下,由于非平均划分条件下1区和2区期刊数目较小,三种分区方法的结果差异稍大;少量期刊主要表现为分区差值临近,没有出现跨越一个及以上分区的差异情况;此外,《中国图书馆学报》在所有分区结果中均排名第一。详细对比结果如表2和表3所示。

3结论

现有分区方法(JCR分区、CI分区和中科院分区)只使用单个期刊因素或两个期刊因素对期刊进行排序,而忽视了能够充分反映期刊性质的其它多种期刊因素。另外,在使用多种期刊因素来评价期刊影响力时,因素之间的多重共线性关系会干扰评价的准确性。针对这些问题,本文以“图书馆学;情报学冶为实例进行研究。首先,利用相关系数矩阵和方差膨胀因子挑选了高独立性的七个重要期刊因素,包括“复合总被引冶、“复合影响因子冶、“可被引文献比冶、“基金论文比冶、“平均引文数冶、“他引总引比冶和“互引指数冶。然后,应用渐进式深度自编码器构架设计策略,提出了一种基于深度自编码器的期刊排序方法。实例研究结果表明,本文方法不仅能提供一个多层次分析特定学科中期刊的全局和局部关系,而且能够以非线性方式将多个期刊表征因素融合为单个期刊排序得分,进而能进行期刊影响力排序并实施期刊分区。