期刊自引知识扩散速度研究

时间:2022-03-11 05:00:33

期刊自引知识扩散速度研究

科学出版物构成一个巨大的知识扩散系统,引文作为研究者在获取和利用知识过程中留下的痕迹,常用于揭示知识扩散的特征与规律[1]。引文分为自引和他引两类,自引是科学引文系统的有机组成部分,也是引文知识交流的一种特殊形式。依据引用主体的层次差异,自引可分为作者自引、期刊自引、学科自引、语种自引、机构自引等不同类型。和他引一样,自引可以借助数学工具和模型进行计量分析[2]。以往学者们常常从评价计量学角度切入,探讨自引所导致的引文指标膨胀对科学评价效果的影响,研究内容多围绕期刊自引可能引发的强制自引、不当自引、过度自引等负面问题展开,而忽视了自引在科学交流方面发挥的积极价值和功效,关于自引知识扩散速度的研究相对有限[3]。Bonzi和Snyder、Shah等人曾先后证实作者自引比他引更具时效性,研究者对自己的前期成果非常熟悉,所以会优先引用自己新近发表的成果,甚至不必等待漫长的出版周期,在文献正式发表之前就将其纳入参考文献列表当中,使其提前进入引文交流系统,从而有效地降低了引用时滞;而他引往往需要研究者从浩如烟海的文献中进行搜寻和比较、阅读和吸收,并最终施以引用,这一过程既耗时又费力,导致他引明显滞后于自引[4-5]。Lin和Huang的研究结果表明,平均而言作者自引确实更具时效性,但是对于新近发表的被引文献来说,自引与他引之间无明显的差别;作者认为开放获取、电子预印本等新兴的出版模式,缩减了文献发表周期,并提升了文献的可获得性,这在一定程度上削弱了自引在引文时效性方面的优势[6]。上述几项成果都是针对作者自引现象开展的研究,至于期刊自引在知识扩散的过程中是否也具有同样的时效性优势,仍未可知。引用延时(也称引用时滞或引文滞后)是指文章从发表到获得引用的时间间隔,常以年为单位,由施引文献的发表年份减去被引文献的发表年份计算获得。引用延时指标在衡量以引文为载体的知识扩散(或称知识传播、知识交流、知识流动)速度方面获得了广泛的引用:Nakamura等描述了供应链各个子领域之间的知识速度[7];汤易兵等刻画了供应链研究分支领域知识扩散的速度以及知识整合的情况[8];Wang和Zhang比较了国内与国外的引用延时差异,发现国内引用较之国外引用更具时效性,能够更早达到引用高峰[9];王亮等将引用延时赋值为边权,构建引文时序网络,并测量知识扩散速度[10]。此外,引用延时指标被引入专利计量中,用于考察专利技术传播与扩散的速度,例如,贵淑婷和彭爱东以专利文献为节点、以引用延时为边权建立加权有向时序网络,对技术扩散速度及其演化过程进行定量分析[11];Wang等借鉴引用延时概念,将技术学习时滞定义为专利从获得授权到被新专利引用的时间间隔,用于测度企业学习授权专利的速度[12]。纵观国内外相关研究发现:一方面,关于自引知识扩散速度的研究成果较少,且都是针对作者自引的计量分析;另一方面,引用延时指标被广泛地应用于衡量知识扩散速度,其有效性已经获得了充分的检验,但是相关研究并未区分自引与他引。鉴于以上情况,本文计划从期刊自引角度切入,围绕“自引较之他引是否更具时效性冶这一问题进行实证研究,计算2009—2018十年间WebofScience(WoS)收录的管理学文献的自引与他引的引用延时,借此考察期刊自引与他引的知识扩散速度,从共时和历时两个维度对引用延时的分布规律和变化趋势进行展示和分析,重点通过自引与他引的引用延时的比较,揭示自引这一特殊的引文交流形式在知识扩散过程中的速度优势。

1数据与方法

期刊自引是指施引文献与被引文献来自于同种期刊的现象,一篇文章若包含适当数量的自引,说明文章与期刊的主题契合度较高,一种期刊若拥有适当比例的自引,说明期刊的报道方向连续和稳定[13]。本文以JCR在2009—2018年间收录的管理学期刊为样本,从WoS中获取样本期刊十年间的发文及引文数据,分别计算自引与他引的引用延时。WoS收录了各个学科具有较高质量和影响力的国际期刊,采用该平台数据可以在一定程度上保证样本的代表性与权威性,也可适当规避由于考虑期刊声望等引用动机导致的引用偏离[14]。本研究采用的样本数据的获取、处理及计算的具体步骤如下:第一步,下载2009—018年每个年度JCR在“管理学(Management)冶学科类别下收录的期刊列表,通过WoS、Scopus数据库以及各个期刊的官方网站对每种期刊的刊名进行逐个核查,尽可能细致全面地收集其自创刊以来的更名信息以及刊名的各种拼写和缩写形式。第二步,从WoS核心合集中进行刊名检索,时间区间限定为2009—2018,所有文献类型都包含在内,下载各篇文献的题录信息(含参考文献),并导入Excel中加以汇总和整理,数据下载时间为2019年6月22日。第三步,结合每篇文献题录信息中包含的SO(出版物名称)、J9(长度为29个字符的来源文献名称缩写)、JI(来源文献名称缩写)、CR(引用的参考文献)等字段,对施引和被引文献的来源期刊(刊名)进行匹配,匹配过程中期刊更名以及名称缩写等情况都考虑在内,识别出期刊自引关系对。第四步,提取施引文献和被引文献的发表年份信息,将样本集合中的被引文献分为自引和他引两类,计算每篇被引文献的引用延时(施引文献的发表年份减被引文献的发表年份),以单篇文献为计算单位。据初步统计,2009—2018十年间管理学期刊发表各类文献101057篇(施引文献),共包含参考文献记录5562215条(被引文献),其中,308646条为期刊自引,占全部参考文献的5.55%,各年度的相关统计数据如表1所示。•2•参考文献分为自引和他引两类,表中的自引证率与他引证率是指参考文献集合中自引与他引的占比。参考文献数=自引文献数+他引文献数,自引证率=自引文献数/参考文献数,他引证率=他引文献数/参考文献数,自引证率+他引证率=1。上述施引文献和被引文献的题录信息及其引用延时数据构成本研究的样本集合,随后开展的统计分析均以此为基础展开。

2研究结果

2.1自引与他引引用延时分布情况的共时分析。首先计算各个引用延时对应的被引文献在全部被引文献中所占的比例,自引与他引文献分类统计,如图1所示,实线显示了相应引用延时的自引文献在全部自引文献中的比例,虚线显示了相应引用延时的他引文献在全部他引文献中的比例。然后,计算各个引用延时所对应的被引文献集合中自引文献和他引文献各自的占比,即不同引用延时所对应文献集合的自引证率与他引证率,结果分别如图2的实线和虚线所示。此外,我们还将引用延时20年以内的曲线放大后放置于坐标图中,以便更为清晰地显示自引与他引的引用延时分布规律及其差异。统计结果显示,单篇文献的引用延时相差很大,其中,最大引用延时达到118年,覆盖了WoS收录的最大时间范围(WoS收录的文献可追溯至1900年,而本文获取的发文数据截止至2018年)。由图1可知,分别有3.86%的自引和0.64%的他引为即年引用(引用延时为0);当引用延时为2年时自引曲线达到峰值,他引曲线的峰值却出现在引用延时为4年时,也就是说,自引的高峰出现在文献发表后的第3年,而他引的高峰则出现在文献发表后的第5年;在2年及以下、5年及以下、10年及以下三个引用延时的时间区间内,自引的比例分别为21.80%、47.86%、74.58%,他引的比例则分别为7.97%、24.96%、50.76%,可见相比较于他引来说,自引更为集中地分布在较短的引用延时范围以内;自引和他引的两条曲线在引用延时为8年时出现了交叉,当引用延时小于8年时自引文献的比例明显大于他引,而在发表时间超过8年(相对陈旧)的被引文献中,自引的比例小于他引。图2显示出不同引用延时所对应的被引文献集合中,自引文献与他引文献各自的占比,我们将其称为参考文献集合的自引证率和他引证率。全部参考文献中,自引证率和他引证率分别为5.55%和94.45%,我们以此平均值为参照,对各个引用延时所对应的被引文献集合的自引证率与他引证率进行比较,统计结果显示:发表当年就获得引用的文献集合中(引用延时为0),自引证率为26.30%,他引证率为73.7%;引用延时为1年和2年时,被引文献集合中的自引比例分别为14.12%和11.69%,远大于5.55%的平均自引证率;随着引用延时增大,自引证率不断降低,而他引证率则持续上升,两者之间的差距越来越大;同样以8年为界,当引用延时小于8年时,各个引用延时所对应文献集合的自引证率普遍大于平均自引证率(5.55%),而当引用延时超过8年时,自引证率开始小于平均自引证率。可见,自引更多地出现在引用延时较短的情况下,而他引则更多地出现在较为陈旧的被引文献中。综上,通过自引与他引的引用延时分布规律的共时分析与比较,本文证实了自引较之他引确实更具时效性,引用延时越低,自引文献的比例越大,自引证率越高,而且自引比他引提早两年达到引用高峰。自引文献更为集中地分布在引用延时较短的区间之内,以引用延时8年为界,引用延时较短的被引文献中自引的比例较大,而较为陈旧(引用延时大于8年)的被引文献中他引的比例更大。在关于不同引用延时对应文献的自引证率和他引证率的比较中也发现,自引更多地出现在新近发表(引用延时较小)的文献中,而在较为陈旧的被引文献中自引的比例很低,新旧文献的划分同样以8年为界。随着引用延时增加,自引证率降低而他引证率增大,两者之间的差距不断加大,显然期刊自引更倾向于选择新近发表的文献。2.2自引与他引引用延时的历时变化规律。历时分析以2009-2018十年间管理学期刊各年度刊载的施引文献及其包含的被引文献为对象,展示自引与他引的引用延时在各年度的分布情况,并考察其在整个观察期内的变化趋势。历时的分析和比较从多个角度展开,相关统计数据分别如图3-图6所示,横坐标为施引文献的发表年份。前文的共时分析初步证实自引更具时效性,而历时分析则主要是为了验证在较长的时期内,自引的时效性优势是否长期而稳定的存在于各个年度,这种优势又是否随着时间变化加强或者减弱。(1)图3小提琴图是根据各年度发表的施引文献所包含的参考文献的平均引用延时(或称平均年龄)绘制而成,展示了各年度自引与他引的引用延时的整体分布情况,左右两侧分别代表自引和他引,两类文献的引用延时差距一目了然。自引的引用延时普遍小于他引,中位数和上下四分位数都明显低于他引。十年间自引与他引的引用延时的极大值有所增大,但整体分布情况并没有显著变化。图3各年度自引与他引引用延时的整体分布情况(2)由图4可知,十年间全部样本文献的自引与他引的平均引用延时分别为7.82和13.36;各年度自引的引用延时平均值(即参考文献的平均年龄)分布在7.22-9.09之间,中位数为5或6;各年度他引的引用延时平均值维持在12.87-13.70,中位数在9-11年间变化;自引文献的平均引用延时(平均年龄)低于他引5-6年。从平均值和中位数的历时变化趋势来看,自引和他引的引用延时平均值都略有增长,但是增长势头并不显著;自引与他引在平均值和中位数两个方面的差值保持基本稳定,十年间并未呈现出明显的增长或者下降的趋势。(3)为了更为直观地比较自引与他引在不同引用延时时间段内的分布情况,我们以每5年作为一个引用延时区间,统计各个区间内自引文献和他引文献的比例,结果如图5所示。约40%的自引文献引用延时在5年以内、约70%的自引文献引用延时在10年以内;对于他引文献来说,引用延时在5年以内的文献比例约为20%,10年以内的文献比例约为45%-50%;具体数值在不同年度略有波动,但整体上自引与他引的引用延时分布规律的差异是显而易见的,在任意一个年份,自引文献都更为集中地分布在较短的引用延时区间内,自引的时效性远大于他引。(4)常见的期刊评价指标,如即年指标、两年影响因子和五年影响因子,分别建立在即年、两年和五年引文数据之上,所以即年、两年和五年可以视为引文分析的三个关键时间区间。鉴于此,本文分别统计各个年度,上述三个时间区间内(即引用延时分别为0年、1-2年、1-5年)的自引文献和他引文献分别在全部自引文献和全部他引文献中的比例。由图6可知,各年度即年自引文献(引用延时为0年)在全部自引文献中的比例保持在3%-5%之间,而即年他引文献在全部他引文献中的占比仅为0.6%-0.8%;两年自引和两年他引的比例分别为15%-20%和7%-8%;五年自引和五年他引的比例分别保持在40%-50%和24%-26%。可见,上述三个关键的引用延时区间内,自引文献与他引文献比例的差距很大,也就是说,相比较于他引,自引更加集中地分布在上述三个关键时间段内,自引文献在发表当年就获得引用的比例远远大于他引,两者相差5-7倍;而在两年和五年时间段内,自引的比例约为他引的2倍。可见,期刊自引在文献的及时性方面更具优势。就十年间的变化趋势来看,上述三个关键时间区间内的自引文献和他引文献在全部自引文献和全部他引文献中的比例都呈现出一定的下降趋势,说明管理学期刊所包含的参考文献的及时性整体有所下降,这也与图4中自引和他引文献平均年龄有所增加的研究发现相吻合。6所展示的相关统计数据从多个方面证实了自引较之他引更具时效性,主要研究发现包括:自引更加倾向于选择新近发表的文献,较为新颖的文献获得自引的可能性更大,自引文献的年龄也明显低于他引,参考文献越新,自引文献与他引文献占比的差别越大。就十年间的历时变化情况来看,自引在时效性方面的优势并非偶然或者暂时的,而是一种长期而普遍的存在。此外,从发展趋势来看,自引与他引在引用延时方面的差距保持较长时期的稳定性,没有呈现出明显的增强或者减弱的趋势。2.3文献自引证率与其引用延时的相关分析。文献的自引证率,即单篇文献所包含的参考文献列表中的自引占比,是文献自引程度的衡量指标。单篇文献所包含的参考文献的平均引用延时,代表着其知识来源的新颖程度。将上述两类指标的年度值导入SPSS,逐年进行Spearman相关性分析,我们将其相关系数汇总如图7所示。相关分析结果显示,在0.05的显著性水平上,单篇文献的自引证率与平均引用延时(即参考文献的平均年龄)之间存在着显著的负相关关系,且这种负相关关系普遍存在于各个年度。上述两类指标之间的负相关关系可以解释为,一篇文献包含的自引参考文献越多,则其引用延时的平均值越小,来源知识越是新颖及时。从历时变化情况来看,Spearman相关系数值在不同的年份有所波动,但是十年间整体呈现出下降的趋势,从2009年的-0.135降至2018年的-0.240,说明负相关的程度不断加强。通过相关分析再次证实期刊自引有助于降低参考文献的平均年龄,加快知识扩散的速度。综上所述,在以引文为载体的知识扩散过程中,自引与他引是两种不同的引文形式,也代表着两种不同的知识来源,反映了一篇文献的作者在研究过程中对于其来源期刊内部和外部知识的利用程度,而引用延时则表征着知识来源的新旧程度。本文借助文献计量手段,从多个角度证实了在以引文为载体的知识扩散过程中,期刊自引作为一种特殊的引文形式,其时效性更强,知识扩散的速度更快。换而言之,借助期刊自引所获得的知识更为新颖及时,而研究者从外部渠道所获得的知识总是具有一定的滞后性。

3结论与讨论

本文以2009—2018十年间JCR收录的管理学期刊为例,将其包含的参考文献分为自引和他引两类,分别计算自引和他引的引用延时,展示其分布及变化规律,比较其引用延时的差异,综合各方面的统计数据和研究发现,充分证实了自引相较于他引,时效性更强,对新知识的捕捉和反映速度更快,有助于加快知识扩散速度。自引的引用延时普遍低于他引,两者的平均值相差约5-6年。文献发表后能够快速地获得自引,而他引则明显滞后于自引,自引的引用高峰早于他引2年。自引更为集中地分布于较短的引用延时区间内,而相对陈旧的文献中他引的比例更高。当引用延时为0年时,对应自引证率的最大值和他引证率的最小值;随着引用延时增加,自引证率不断降低而他引证率则持续增加,两者之间的差别越来越大。单篇文献的自引证率与其平均引用延时之间存在显著的负相关关系,从另一角度证实自引是更为新颖及时的知识来源,其知识扩散速度更快。此外,针对各个年度相关数据的历时分析结果表明,自引的时效性优势是一种长期而稳定的存在,十年间自引与他引在引用延时方面的差距保持基本稳定,没有呈现出明显的增强或减弱的迹象。自引源于科学研究的连贯性与继承性,也反映了学者们在发文和引用过程中的选择偏好性。早在1934年,布拉德福发现了文献序性结构的经验定律———若将科学期刊按照其刊载某学科主题的论文数量以递减顺序排列,则可以把期刊分为面对该学科主题的核心区、相关区和非相关区[15]。随后,加菲尔德证实了引文分布同样呈现出集中离散分布规律,以SCI数据库为例,75%的参考文献来自不足1000种被引期刊,500种期刊发表的被引文献占SCI收录参考文献总量的70%[16]。布拉德福定律描绘的“核心区冶是根据期刊的学科主题相关度及其刊载的文献主题集中分布情况而划定,加菲尔德发现的“核心冶期刊更多地体现出期刊(及其刊载论文)质量的差异。而无论是主题差异还是质量差异都使得核心区的期刊更受关注,这部分期刊在学科领域更为活跃,在知识传播过程中也发挥着更为关键的作用。与此同时,随着科学的飞速发展,各个学科普遍呈现出信息爆炸之势,期刊种类越来越多、刊载的论文数量越来越大。以本研究选取的“管理学冶学科为例,2009—2018十年间,WoS收录该学科的期刊数量由112种增长至217种、年度论文数量由8565篇增长至11769篇。而学者们的注意力却是有限的,能够获取和阅读的文献数量不可能同步增长。当学者们凭一己之力已经无法遍历整个学科的全部文献时,通常会选择本学科领域的少数几种核心期刊作为相对固定的知识来源,长期追踪、阅读和引用这些期刊上发表的文章,并优先将自己撰写的文章发表在这些期刊上。由此可见,某个学科领域快速增长的文献数量与学者们有限的注意力之间的矛盾,进一步增强了学者们在发文和引文过程中对于核心期刊的倾向性选择,并加剧了发文和引文的集中离散分布特征。自引与他引的时效性差异,可以理解为某一学科领域的知识扩散遵从于“从内向外、由近及远冶的基本原则,即一篇文章发表后最先获得来自本期刊内部读者群体的认可和使用(表现为期刊自引),随后扩散到更大的读者群体而吸引更多的外部引用(他引),由此导致期刊自引的知识扩散速度领先于他引。自引与他引的时效性差异可以从以下几个方面解释:第一,对于某种期刊来说,尤其是那些在某一学科影响力大、认可度高、刊载主题论文较多的核心期刊,通常都有相对稳定的读者群和作者群,并且这两个群体的重合度很高,即群体内的许多学者兼具读者和作者两种身份,往往对该期刊所报道的新知识的捕捉和反应速度更快,对该期刊前期成果的利用程度更高,总是优先引用该期刊新近发表的文章,而作者也会优先选择该期刊来发表自己的文章。第二,学科分化加剧,学科壁垒加深,不同学科之间知识流动的阻力较大,学科内和跨学科的知识交流成本存在显著差异。学者们对于自己所属的学科内部核心区期刊的关注程度更高,对其刊载的文献更为了解和熟悉,信息搜寻的成本较低,知识扩散的速度更快;相比较而言,从非核心区获得所需文献往往需要花费更大的时间和精力进行查找、阅读、比较和选择,从而导致引用延时增加。第三,自引所具有的自我推荐和传播功效[17],显著地提升了被引文献及其来源期刊在科学交流系统中的可见度,使其能够得到更广泛的传播和交流,获得更多的外部引用(即来自相关或相近学科领域的他引),虽然无法准确判定哪些他引源于自引的推荐,但是可以肯定的是这种经由自引推荐而获得的他引明显滞后自引。第四,考虑到期刊不当自引(例如强制自引)行为的存在,这种自引多以人为操纵影响因子为目的,而影响因子计算过程中真正起决定性作用的是两年被引频次,也就是说两年自引对影响因子的操纵力更强,所以期刊会刻意提升两年自引量[18]。国内外的统计结果表明不当自引虽不十分普遍,但现实中屡有发生[19]。尽管不当自引的比例尚不明确,但其刻意增加两年自引的行为使得不当自引的参考文献的年龄偏低,这也在一定程度上增强了自引的时效性。

本文以管理学期刊为例,借助引用延时指标考察了期刊自引的知识扩散速度,揭示了自引与他引在引文时效性方面的差异。相关的研究发现不仅能够增进人们对于以引文为载体的知识扩散速度的认识和了解,而且有助于减少一直以来大家对于期刊自引持有的偏见和误解。事实证明,无论自引在科学评价方面的作用是正向还是负向,并不影响自引在促进科学交流、加快知识扩散等方面所能发挥的积极功效,自引有助于加快知识扩散速度。本文只是针对期刊自引的知识扩散速度问题进行初步地探索,研究过程中还存在一些问题和不足:一是仅以管理学期刊为例,对期刊自引和他引的引用延时进行计算和分析,研究发现和结论仅适用于管理学领域,至于期刊自引的时效性优势是否也存在于其他学科还有待检验;二是以往曾有研究证实作者自引能够有效缩短引用延时,本文仅从期刊自引角度比较自引与他引的时效性差别,至于作者自引与期刊自引的关系问题,尤其是作者自引是否会对期刊自引的时效性产生影响以及影响程度如何,需要在后续研究中加以检验。