学术期刊扩散因子改进路径

时间:2022-08-03 03:15:37

学术期刊扩散因子改进路径

学术传播不仅要看数量,也要看学术传播的广度,扩散因子就是在这样的背景下产生的。Rowlands[1]认为期刊是知识扩散的单元,最早提出期刊扩散因子(JournalDiffusionFactors,JDF)的概念,即期刊论文每被引100次所涉及到的期刊数量。中国科学技术信息研究所同年在中国科技期刊引证报告中首次公布扩散因子,以后每年均公布该指标,扩大了该指标的影响。扩散因子的产生源于对期刊知识扩散和知识流动的评价要求。Singh[2]认为知识扩散(knowledgedif鄄fuse)应该等同于知识交流(knowledgeexchange)或知识流动(knowledgeflow)。Chenetal.[3]认为对于学术期刊而言,知识扩散是知识在科学文献间的传承,具体通过文献之间的引用来反映,也可以称为基于引文的知识扩散。Bonnevie[4]认为期刊被引是一种引证分析,反映施引期刊的范围,高比率表示期刊的影响范围较大,期刊有较高的影响力。关于扩散因子存在的问题,沈志超、龚汉忠等[5]研究发现扩散因子与总被引频次和影响因子在部分期刊中并不平行一致,并且扩散因子与部分期刊实际学术影响力也不一致,甚至呈现反向变化趋势,建议暂停使用该指标。钟阳春、庾家良等[6]认为扩散因子计算公式中,分子是有限量,分母是无限量,现有的计算公式不能正确反映期刊的影响力,特别是不能正确揭示影响力正比于他引率和被引用刊数的本质。刘雪立[7]讨论了扩散因子的人为操纵问题,认为如果某刊扩散因子明显低于同学科其他期刊,则可高度怀疑该刊有人为操作的可能。扩散因子自从提出后,一些学者对其进行了进一步的拓展。Frandsen[8]认为扩散因子并不适用于评价期刊,提出修正指标新扩散因子(NewJournalDiffu鄄sionFactors,NJDF),即用期刊被引刊数除以载文量。叶艳、张李义[9]对扩散因子进行修正,采用他引影响因子来进行计算,即期刊被他引100次所涉及的期刊数。综上所述,关于扩散因子及其应用的相关研究,总体上文献不多。对于扩散因子的修正和改进,尚需要进行进一步的研究。总体上,在以下方面有待进一步深入研究:第一,期刊影响力与期刊扩散能力是两个不同的概念,前者可以通过被引频次、影响因子等指标反映,而后者可以通过被引刊数、扩散因子等来进行反映。关于影响力与扩散能力的关系,尚缺乏足够的基础研究和理论上的总结。第二,期刊载文量越大,选题和栏目更加丰富,内容跨度也大大增加,客观上会拉大期刊的扩散因子,而关于这方面的研究总体不多。第三,自引无疑对扩散因子会产生影响,但是将自引剔除,完全采用他引次数来计算扩散因子值得商榷,因为适当的自引是正常的。本文在分析期刊载文量与自引等问题对扩散因子影响的基础上,提出一个新的文献计量指标———扩散指数,基于中国知网CNKI的引文数据,并以图书馆情报与文献学CSSCI期刊为例,并对扩散指数的统计特征及与其他文献计量指标关系特点进行分析,以期优化扩散因子,丰富文献计量指标。

1扩散指数的原理

1.1期刊影响力与期刊扩散能力。期刊的影响力主要是通过期刊被引相关指标来反映的,期刊影响力的评价指标众多,基于被引次数计算的指标大多数都是,如总被引频次、影响因子、5年影响因子、他引影响因子、即年指标、h指数、特征因子、论文影响分值等等。期刊影响力指标又可以进一步分为数量指标与质量指标,数量指标就是反映被引总量的绝对指标,如总被引频次、载文量、地区分布数等;质量指标是相对指标,影响因子、他引影响因子、h指数等。期刊的扩散能力是指期刊对学科内和学科外期刊的影响,由于学科特点不同,不同学科期刊的扩散能力是不一样的,对于一些相对封闭的学科,与学科外其他期刊的关系相对较小,甚至与学科内的其他期刊关系也是如此;而对于一些基础类、方法类学科,可能对其他学科也有较大影响,拥有较大的学科扩散能力。期刊论文在学科内外的扩散对于人类的知识进步具有重要意义,尤其对于交叉学科、跨学科的研究更有较大影响。由于学科扩散一般难以计量,所以人们还是通过论文被引刊数与被引数量来间接进行反映,扩散因子就是在这样的背景下产生的。1.2期刊影响力与期刊扩散能力不存在必然的联系。期刊影响力与期刊扩散能力是两个完全不同的维度。由于期刊定位不同,即使对于同一学科的期刊,有的期刊更加强调专一性,论文侧重在学科内某个相对较窄的研究领域,可能拥有较高的影响力。有的期刊则强调一定的宽度,论文涉及的范围较广,可能拥有较好的学科扩散能力。这两类期刊不存在好坏之分,更没有必要求全责备。尽管可能更多的杂志均同时追求影响力与扩散能力,但也不能因为扩散因子与影响因子的相关性问题来否定扩散因子。由于不同学科特点不同,有的学科可能追求专业性的期刊更多一些,有的学科可能追求宽度的期刊更多一些,所以不同学科期刊影响力与扩散能力的关系也会表现出不同的特点,可能正相关、负相关或不相关,这些都是正常的。扩散因子的提出者Rowlands[1]研究了图书情报领域的42种期刊,发现期刊扩散因子与影响因子无正相关性。一些研究发现扩散因子与期刊影响力指标不相关,甚至负相关,就认为是扩散因子指标的问题,其实并非如此。关于扩散因子与影响因子的关系,其实还有一个隐含的问题,就是评价对象的时间轴并不统一。扩散因子是根据总被引频次与被引刊数计算而来的,而这两个指标的时间范围是期刊创刊以来到统计当年;影响因子是根据期刊过去两年发表的论文在统计当年的平均被引次数,时间范围是3年。扩散因子更具有存量指标的特点,影响因子更具有流量指标的特点,两者进行相关分析本质上存在逻辑错误,无论相关还是不相关均具有较大的偶然性。1.3扩散因子没有考虑载文量的影响。载文量对期刊扩散因子的影响问题比较复杂。第一,载文量越大,可以刊载更多的论文,这些论文所涉及到的知识宽度会越来越大,扩散因子越大。如果期刊为了提高扩散因子而人为增加载文量,相对而言是比较容易的,所以在对扩散因子进行优化时,必须充分考虑到这个因素。Frandsen[8]提出新扩散因子,用期刊被引刊数除以载文量,倒是解决了这个问题,但是没有考虑期刊的被引次数的影响。第二,载文量与期刊栏目设置和办刊风格也有较大关系,如果期刊涉及的选题范围较广,这会增强载文量对扩散因子的影响,如果期刊选题相对较窄,也会弱化载文量对扩散因子的影响。载文量对扩散因子的影响同时具有正向机制与反向机制,最终结果取决于哪种机制更加强大。需要说明的是影响因子与载文量也有一定的关系,但研究结论并不一致。Bordonsetetal.[10]研究发现,随着期刊载文量上升,期刊的影响因子逐年下降,这与影响因子的算法有关系。俞立平、张再杰等[11]此处同期载文量与影响因子不存在互动机制,载文量只对未来影响因子产生影响,影响因子也只对未来载文量产生影响。俞立平、张再杰[12]还发现,改革开放以,学术期刊发展分为起步期、成长期和调整期,载文量与影响因子的关系由正相关演变为负相关。1.4自引对扩散因子的影响。自引对扩散因子的影响包括两个部分,第一是对分子被引刊数的影响,在正常引用的情况下,期刊一般也会出现自引,所以自引对分子是没有太大影响的。第二是对分母被引次数的影响,过度自引无疑会增加被引次数,也就是说增加分母,从而降低扩散因子。也就是说,扩散因子天生就具有防止期刊过度自引的功能。在这种情况下,如果采用他引影响因子计算扩散因子,反而会提高扩散因子。1.5扩散因子的时效性较差。扩散因子计算的时间跨度问题是个隐含问题,这一点被忽略了。根据扩散因子的定义,分子为期刊创刊以来发表的所有论文在统计当年的被引期刊数,分母为期刊创刊以来所有论文在统计当年的总被引频次。由于这个界定,导致扩散因子在评价时时效性比较差,虽然扩散因子每年公布,但本质上它具有存量指标的特点。俞立平[13]发现总被引频次具有流量指标与存量指标的特点,认为对于时效性较强的评价,采用总被引频次要慎重。扩散因子本质上具有类似特点,侧重长期评价,对于时效性要求较强的评价,不宜采用扩散z因子,或者要对其进行优化。1.6扩散指数。综合以上分析,可以得出如下结论:第一,采用扩散因子进行评价,完全可以不考虑其与期刊影响力指标的关系;第二,不需要考虑自引对期刊扩散因子的影响,自引一般难以提高扩散因子;第三,必须考虑载文量对期刊扩散因子的影响;第四,必须考虑增强扩散因子的评价时效性。考虑载文量对期刊影响因子的影响,需要在扩散因子的基础上再除以载文量,为了和扩散因子加以区别,本文将其命名为扩散指数(JournalDiffusionIndex,JDI),即期刊每100篇论文100次被引涉及的期刊数量,即:JDI=JDF2P2伊100=U2C2伊P2伊10000(1)公式(1)中,JDF2为两年扩散因子,即根据期刊过去两年的被引刊数和被引频次计算的扩散因子;P2为期刊过去两年的载文量,U2为过去两年期刊发表的论文在统计当年的被引刊数,C2为期刊过去两年发表的论文在统计当年的被引次数。比如某期刊2015年载文量为100篇,2016年载文量为100篇,这两年的载文量合计200篇,在2017年被引400次,被引刊数为60种,则该期刊的扩散指数为7.5(60/200/40010000)。与扩散因子相比,扩散指数具有以下特征:第一,扩散指数充分考虑到载文量对扩散因子的影响,一定程度上可以防止期刊为了提高扩散因子而人为增加载文量。第二,扩散指数充分考虑到期刊评价的时效性要求。一般而言,办刊历史越长,期刊被引刊数越多,扩散因子越大,因此对于办刊历史较短的期刊而言是不公平的,但采用较短的计算时间窗口,可以适当减少这个问题。至于扩散指数的其他特征,有待进行进一步分析。

2研究数据

本文基于中国知网的引文数据,采用图书馆情报与文献学CSSCI期刊来进行相关分析。中国知网的引文数据库收录的期刊较多,包括7000多种自然科学与社会科学的学术期刊,与CSSCI引文数据库相比各有特色,CSSCI引文数据库所包含的期刊主要为人文社科领域的学术期刊,并且只包含CSSCI核心版与扩展版的期刊。从学科跨度角度,中国知网的引文数据库更具有代表性,涉及的期刊更多,而且打破了自然科学与人文社科的界限。CSSCI图书馆情报与文献学期刊共有20种,《情报学报》、《图书馆》引文数据尚不全,所以最终采取18种期刊的数据进行研究。扩散指数计算的时间为2017年,涉及到的被引刊数、被引次数也为2017年,而时间为2015-2016年。扩散指数的计算结果如表1所示。扩散指数的计算结果中,《中国图书馆学报》、《图书情报知识》、《国家图书馆学刊》排在前3位,也就是说,这些期刊近两年具有更好的扩散能力,尤其是在有限版面有限载文的情况下。扩散指数排在后几位的期刊主要是《图书情报工作》、《情报杂志》、《图书馆学研究》等,主要原因是这些期刊载文量较大,对扩散指数具有较大影响,换句话说,扩散指数能够抑制载文量扩大对其的影响,这和扩散指数设计时的初衷是一致的。

3实证结果

3.1扩散指数的统计学特征分析。表2位扩散指数、影响因子、h指数的统计学特征比较。为了保证数据的可比性,h指数的计算也是2015~2016年发表的论文在2017年的结果,这样可以保证扩散指数、影响因子、h指数的评价对象一致,时间跨度相同,具有完全的可比性。从数据分布看,扩散指数、影响因子的Jarque-Be鄄ra检验值分别为7.241、54.688,p值分别为0.027、0.000,拒绝正态分布的原假设,说明这两个指标均不服从正态分布。而h指数的Jarque-Bera检验值为0.631,p值为0.729,不能拒绝正态分布原假设。从离散系数看,扩散指数的离散系数为0.710,影响因子和h指数的离散系数分别为0.487、0.236,扩散指数拥有最大的离散系数,用来评价时区分度良好,非常适合期刊数量较大的学科。3.2扩散指数与期刊影响力关系的回归分析。扩散指数属于期刊扩散能力指标,而影响因子与h指数属于期刊影响力指标,根据前文分析,这是两类不同性质的指标。为了进一步分析影响力对扩散能力的影响,采用回归分析的结果如下:log(JDI)=8.977+2.051log(IF)-3.161log(h)(8.714)(8.135)(-8.097)R2=0.845n=18(2)回归结果中,影响因子和h指数均在1%的水平下通过了统计检验,拟合优度R2较高,为0.845,说明期刊影响力与期刊扩散能力的相关度较高。影响因子的回归系数为2.051,h指数的回归系数为-3.161。h指数的回归系数为负数,原因有两个,第一是可能存在多重共线性,导致回归系数为负;第二是,在降低多重共线性影响的情况下,h指数的回归系数仍然为负数,在说明h指数更多代表了期刊的质量,高质量的期刊可能更加追求专业性,所以拥有较高的影响力,但不太具有较好的扩散能力,因此有必要进行进一步分析。下面进行多重共线性检验,影响因子的特征值为0.088,VIF为5.758,小于10,说明影响因子不存在多重共线性;h指数的特征值为0.002,接近0,VIF为37.043,大于10,说明h指数存在多重共线性。在这种情况下,就不能采用传统的最小二乘法进行估计,而需要采用岭回归进行估计。岭回归是Hoerletal.[14]提出的一种改良的最小二乘法,专门用于共线性数据的回归分析,其基本思想是当自变量间存在共线性时,解释变量的相关矩阵行列式近似为零,X'X是奇异的,也就是说它的行列式的值也接近于零此时传统的最小二乘法估计会失效,必须采用岭回归进行估计。岭回归岭迹图如图1所示,当k=0.3时,回归系数比较稳定,而当k>0.6时,回归系数又开始发散,因此取k=0.3时的估计结果:log(JDI)=0.452+0.121log(IF)-0.756log(h)R2=0.923(3)岭回归的结果显示,即使在大幅降低多重共线性的情况下,h指数与扩散指数的相关系数仍然为负,说明其结果是稳定的,也就是说,期刊的h指数与扩散能力具有负相关性。4研究结论(1)扩散指数是衡量学术期刊横向扩散能力的优秀指标学术期刊的扩散能力与影响力是学术期刊的两个重要标志,虽然任何期刊都在追求这两种能力,但各有侧重,两者并无本质的必然联系。扩散因子存在的主要问题是评价对象是创刊以来的期刊所有论文,所以时效性差,另外没有排除载文量增加对扩散因子的影响。本文提出扩散指数JDI,即期刊过去两年发表的论文在统计当年每100篇论文100次被引用涉及的期刊数量,用来对扩散因子进行优化,使得扩散因子难以通过提高载文量进行认为操纵,另外提高了评价的时效性。(2)扩散指数与影响因子正相关,与h指数负相关本文研究发现,扩散指数与影响因子正相关,与h指数负相关,这些结论是在降低多重共线性后采用岭回归分析的结果,因此具有更好的稳定性。扩散指数与h指数负相关的机制是,h指数更强调质量,而学术质量越高的期刊更加追求专业性,创新性较强,被引次数很高,但扩散能力反而不高。当然这是本文有限数据下的研究结论,至于其他学科扩散指数与影响力的关系有待进一步研究。需要说明的是,不能用期刊的扩散能力来判断影响力,或者用影响力来判断期刊的扩散能力,所以无论扩散指数与影响力指标的关系如何,并不影响扩散指数的使用。(3)扩散指数区分度较好,不服从正态分布本文研究发现,扩散指数的离散系数大于影响因子,影响因子的离散系数大于h指数,因此扩散指数拥有较高的区分度的概率较大,比较适合评价期刊数量较多的学科。此外,扩散指数和影响因子一样,并不服从正态分布,根本原因是扩散指数较高的期刊数量较少,大部分期刊处于中低水平。(4)保证评价对象的时间轴一致才能进行比较所有的学术期刊评价指标均对评价对象的时间跨度有具体的限定,但这一点非常容易被忽视。比如将扩散因子与影响因子相比,扩散因子评价的是期刊创刊以来的所有论文,而影响因子评价的是期刊过去两年发表的论文,时间轴并不统一。本文扩散指数的评价对象是期刊过去两年发表的论文,因此与影响因子才能直接比较,如果与h指数比较,那么h指数也必须是期刊过去两年发表的论文进行统计。

本文仅仅是图情学期刊进行实证研究,由于不同的学科,作者引用行为之间差异很大。本文的研究结论普适性有待进一步探索。此外,文史哲一些学科领域可能引用图书等文献较多,这对扩散指数的应用也有一定的影响。扩散指数的进一步研究可从学科扩散的角度进行,由于篇幅所限,将在后续研究中进行讨论。

作者:俞立平 周娟美 单位:1.浙江工商大学统计与数学学院 2.中北大学