人文社科期刊论文被引影响因素研究

时间:2022-03-31 04:09:47

人文社科期刊论文被引影响因素研究

GarfieldE创立的科学引文索引和引文分析理论是科学计量学研究的基础,引文分析反映了文献引证和被引证的知识网络,“被引频次”是引文知识网络最直观的体现。虽然学界针对负面引用、错误引用、不良自引等行为提出“被引能否作为合理评价指标”的质疑[1],但不可否认,被引频次已经成为现今衡量论文学术影响力、期刊评价、学者评价最重要的指标之一。中国学术走向世界,是新时代中国特色社会主义思想的重要组成部分,多次强调要大力开展对外文化交流,加强国际传播能力和对外话语体系建设,推动中华文化走向世界。加强中国科研论文的国际影响力,对于提升中国科研话语权和文化软实力具有重要作用,随着中国文化“走出去”战略进一步实施,人文社科领域积极开展国际性问题研究、召开国际会议、扩大英文期刊国际传播、加强国际学术合作和人才交流。增加人文社科期刊论文国际被引是扩大中国人文社科成果国际影响力的重要表现,但期刊论文被引具有复杂性,受到主客观和偶然性因素的影响,因而,了解中国人文社科期刊论文被引的主要影响因素,有助于我国学者有针对性地选择合作模式和学术期刊,提高中国人文社科成果的国际学术影响力。

1相关研究

1.1引用现象研究AvramescuA[2]利用科学信息扩散论将论文的引用周期分为5种类型:广泛认可的引用曲线、基本认可的引用曲线、很少认可的引用曲线、“睡美人”型引文曲线和“昙花一现”型引文曲线。屈文建等[3]重新归纳为6类:将前3种统一为“经典引文曲线”、重新定义“指数下降引文曲线”、“睡美人”引文曲线2类、新增指数增长引文曲线、多峰引文曲线、波形引文曲线3类。高被引论文往往是领域突破性或创新性成果[4],其价值和意义得到了科学界普遍认可和重视,分析高被引论文的特征因素、预测高被引论文方法拓宽了学界对高度引用现象的认识,科睿唯安的“引文桂冠奖”正是利用论文的高被引特征成功预测出多位诺贝尔奖得主。科学界也存在一些从未被引用的论文,但论文未被引并不意味着他们没有学术价值,VanRAFJ[5]从这些零被引文献中发现被“延迟承认”的“睡美人文献”;国内学者杜健等[6]、LiJ[7]等对“睡美人文献”的特征、潜力预测等开展系统化研究。论文引用规律和引用现象的研究进一步完善了人们对引文结构网络的认知。1.2引用动因研究研究人员引用他人论文的原因是复杂多样的,引用行为不仅仅是出于对科研成果的认同,还有很多非科学因素[8],GarfieldE[9]最先提出引用的15种动机,HarwoodN[10]提出引用的11种动机,马凤等[11]归纳出6类引用动机,邱均平等[12]将引用动机分为内在引用动机(知识主张、价值感知)和外在引用动机(信息源便利性、引用输出、引用重要性)两类,内外动机相互影响信息行为。也有学者针对引用中对编委的阿谀奉承、为利益派别的不正当引用现象进行研究,研究结果表明负面引用并不能有效提高引用[13]。随着引用研究的深入,一些学者尝试用理论的角度来解释引用动因。段庆锋等[14]以规范理论和社会构建理论,提出引文是学术性和社会性因素交织作用的结果;杨思洛[15]将前人对引用动因的理论解释归纳为5类:“科学规范理论”、“社会结构理论”、“心理过程理论”、“自反引文理论”、“引文进化理论”;AksnesDW等[16]用“可见动态性”概念解释引用行为,认为引用也存在“马太效应”。1.3影响因素研究TahamtanI等[17]从高度相关的198篇文献中总结出28个与论文被引有关的因素,整体上归为3类:论文相关因素、期刊相关因素、作者相关因素。牟象禹等[18]、韩毅等[19]以中文图情领域为例,分别实证分析了论文被引和未被引的主要影响因素。当前对论文被引影响因素研究可以分为4个方面:1)期刊相关因素[20-21]:如期刊规模和扩散力、开放获取、影响影子等;2)作者相关因素:如研究团队规模与作者合作网络[22]、性别因素[23]、作者学术成就[24]、跨国的合作团队[25]等;3)内容相关因素:如主题词组合新颖性[26]、关键词的数量与多样性[27]、论文热点持续能力[28]等;4)其他指标:如参考文献[29]、论文的长度[30]、期刊出版商[31]等。分析方法不一而足,分析结果也各有异同,如DidegahF等[32]以WOS纳米技术相关期刊论文集为数据,得出期刊影响因子是被引最有效的决定因素之一;而FinardiU[33]以社会科学和自然科学期刊论文集为例,得出影响因子与被引没有显著相关性。究其原因,论文被引受数据集来源、学科领域[34]、国内外平台[35]而有所不同,被引频次影响因素也存在差异性。1.4引用预测研究由于论文引用关系特性,被引需要一定的时间积累,为了更早发现具有高被引潜力的论文,了解相应领域的研究热点和重大发现,学界利用机器学习、回归模型对论文引用进行预测研究。FuLD等[36]以生物医学文章为数据集,认为使用基于内容和文献计量特征的机器学习模型来预测生物医学文献中的引用计数具有可行性。IbáezA等[37]以生物信息数据集测算了叶贝斯网络、逻辑回归、决策树和k近邻算法,并得出朴素叶贝斯和逻辑回归模型4年范围内被引预测成功率可达89.4%和91.5%;耿骞等[38]以图情领域文章数据作为训练集,测算逻辑回归、朴素页贝斯、支持向量集、GBDT、AdaBoost、XGBoost、随机森林7种算法,得出GBDT、XGBoost、随机森林具有较强的预测能力;ZhuXP等[39]采用神经网络模型确定引文计数的最佳特征,提出了GPR、DNN、MLR、SVM等机器学习方法预测论文引文,发现作者特征群影响最大,SVM方法更适合引文预测。YanR[40]比较了线性回归、K近邻、SVR、CART模型的预测效果,CART预测效果最理想,最佳回归预测模型在R平方中实现了0.740的平均预测性能。1.5研究不足之处国内外文献研究发现:1)人文社科国际被引研究较少。受人文社科国际影响力重视程度、人文社科成果多样化、国际论文数据复杂度等因素影响,目前对论文被引研究多集中国内数据库或国外自然科学领域,鲜少对人文社科国际论文成果的被引因素展开深入研究。2)论文被引的影响因素存在差异性。被引频次受学科领域、时间范围、数据库来源等方面影响,影响因素存在差异性,已有的研究多具有特定研究对象,不一定适合中国人文社科国际成果被引因素。因此,本文以WOS收录中国人文社科领域论文为例,分析中国人文社科期刊国际论文被引与作者机构特征、期刊特征、文献特征、其他计量特征指标的相关性,识别论文被引的主要影响因素,从而为提高我国人文社科期刊论文国际被引,加速人文社科成果国际化传播提供数据参考。

2评价指标与研究方法

2.1数据处理。选定WOS社会科学、艺术与人文两个研究大类中共含39个研究方向,加上应用科学中运筹学与管理学、信息科学与图书馆学2个研究方向,共计41个研究方向;限定来源数据库为SSCI和A&HCI,研究国别为CHINA,文献类型为Article、Review、ProceedingsPaper。为了使论文得到充分引用,参考方红玲[41]对SSCI收录图情类期刊和姜春林等[42]对文史哲等学科成果的引文评价时间,选用5年前(即2014年)收录6564篇论文及引文信息为数据源,数据获取时间为2019年5月5日。同时为了解论文的其他补充计量特征是否与论文被引具有相关性,于2019年5月10日利用Altmetrics获取论文的补充计量特征数据共计2844条。2.2评价指标选取。结合上文中论文被引频次影响因素研究,从作者机构指标、期刊指标、文献指标、补充计量指标四大类进行论文被引评价指标的选取,并对所有数据类别进行定义,影响因素的特征编码参见表1。1)作者机构特征指标:作者是论文写作的主体,本文主要考察作者数量、作者国别、跨国合作模式和机构属性等对论文被引是否具有显著影响。2)期刊特征指标:期刊是论文的载体,主要考察论文在高影响因子、高分区或知名的出版社中是否有更好被引表现。3)文献特征指标:文献本身的相关特征,如参考文献数量、OA资源、页码数量,文献标题的长度、关键词数量等是否对论文被引具有显著影响。4)补充计量特征指标:利用论文DOI于Alt-metrics获取对应记录的其他补充计量指标,统计发现除Twitter提及数、Mendeley读者数、Dimen-sion引用外,其他指标多为0,因此这里仅选用Altmetrics的三项补充计量指标数,以及论文元数据中180天使用次数和2013年至今使用次数。2.3研究方法。为验证26个二级指标与论文被引的相关性,利用SPSS20.0分析软件,采用非参数K-S单样本方法对连续变量进行正态性检验,显示14个连续变量显著性水平均小于0.05,不符合正态分布。因此,相关性分析方法采用Spearman,根据相关性取值范围,以0.2为区间,分为极低、较低、中度、高度、极高5种相关程度;对于分类变量组间比较采用非参数检验方法;利用多元线性回归模型进行论文被引多因素分析。

3研究结果分析

3.1连续变量相关性分析。对14个连续变量进行Spearman相关性检验,分析结果如表2所示。WOS被引频次与页码未通过显著性检验(p=0.888),说明中国人文社科期刊论文的国际被引与论文撰写长短没有显著相关性。其他连续变量p值均小于0.05,通过了显著性检验,其中,WOS被引与标题长度、作者关键词、Twitter提及数为极低相关度;与作者数量、合作国家数具有较低相关性;与2年平均影响因子、即年指标、参考文献数、附加关键词、最近180天使用次数具有中度相关性;与2013年至今使用次数(r=0.666)、Mendeley读者数(r=0.659)具有高度相关性;与Dimensions引用数(r=0.964)具有极高相关性。3.2分类变量非参数检验。对12个分类变量分别进行非参数检验,两独立样本采用Mann-WhitneyU检验;多独立样本采用Kruskal-WallisH检验,事后两两比较采用Bon-ferroni法校正显著性p值小于0.05说明差异具有统计学意义。表3为分类变量的被引均值与平均秩次表,图1、图2为多分类变量的成对比较图。1)作者团队规模。根据发文量将作者规模分为5类,不同作者团队规模中WOS被引分布差异具有统计学意义(H=936.019,p=0.000)。两两比较发现:除了3个作者-4个作者合著对WOS被引的差异不具有统计学意义外(调整后p=0.757),其他不同作者团队规模组别对WOS被引差异均具有统计学意义(调整后p=0.000),作者规模越大,被引均值越大。2)通讯作者国别。将通讯作者分为中国和外国2类,Mann-WhitneyU检验结果显示通讯作者为中国(平均秩次为3102.04)与外国(平均秩次为3795.69)对WOS被引频次差异具有统计学意义(U=3156384,Z=-12.862,渐进p=0.000)。3)第一作者国别。一作国别为中国(平均秩次为3146.60)与外国(平均秩次为3796.31)对WOS被引频次差异具有统计学意义(U=2858156.5,Z=-11.323,渐进p=0.000)。4)合作模式。不同国别合作模式上对WOS被引差异具有统计学意义(H=176.741,p=0.000)。外国为主平均秩次为3965.74,中外合作平均秩次为3601.25,中国为主平均秩次为3092.62,对3种不同合作模式两两比较发现:3种国别合作模式对WOS被引的调整后显著性均小于0.05,差异均具有统计学意义。这与Lancho-BarrantesBS[44]发现的国际合作可以增加引文影响力、NomalerO[45]发现的国际合作比国内合作有更大的引用结果相似。5)机构属性。不同机构属性的WOS被引分布差异具有统计学意义(H=20.454,p=0.000)。对机构属性两两比较发现:大学与科研院所对WOS被引的差异性不具有统计学意义(调整后p=1.000);大学与其他机构(调整后p=0.000)、科研院所与其他机构(调整后p=0.001)对WOS被引的差异具有统计学意义。6)期刊国别。发表在国内期刊(平均秩次为2358.89)与国外期刊(平均秩次为3298.53)对WOS被引频次差异具有统计学意义(U=257867.5,Z=-5.214,渐进p=0.000),发表在国外期刊上具有更高的被引表现。7)期刊分区。不同期刊分区的WOS被引分布差异具有统计学意义(H=1564.017,P=0.000)。对不同期刊分区数据两两比较发现,WOS被引频次的差异在6组不同分区数据中差异均具有统计学意义(6组分区比较的调整后p=0.000)。8)出版平台。论文在不同出版平台的WOS被引分布差异具有统计学意义(H=942.776,p=0.000),不同出版平台的平均秩次如表3所示,Elsevier平台出版的被引平均秩次最高(4208.70),而大学出版社出版的被引平均秩次最低(2218.19),这可能跟大学出版社出版发行传播链不够完善有关。两两比较发现:University类别-其他类别(p=0.311)、TaylerFrances-Emerald(p=1.000)、Em-erald-Springer(p=1.000)、Emerald-Sage(p=1.000)、Emerald-Wiley(p=0.622)、Springer-Sage(p=1.000)、Springer-Wiley(p=1.000)、Sage-Wiley(p=1.000)8类不具有统计学意义,其他不同平台出版论文的WOS被引差异具有统计学意义。9)语种。不同语种的WOS被引差异具有统计学意义(H=462.579,p=0.000),英文的WOS被引平均秩次最高(3374.30),中文的WOS被引平均秩次最低(492.19)。两两对比发现:中文-其他语种发表的论文被引频次差异不具有统计学意义(p=0.849),英文-中文(p=0.000)、英文-其他(p=0.000)的WOS被引差异具有统计学意义,国际通用性语言论文被引频次高于中文或其他小语种论文被引频次。10)OA资源。论文是否开放获取对WOS被引差异具有统计学意义(U=1313214,Z=-5.054,渐进p=0.000),开放获取论文的被引表现优于非开放获取的论文。11)基金项目。论文是否受到基金项目的资助对WOS被引差异具有统计学意义(U=2824366,Z=-15.33,渐进p=0.000),受资助论文的被引表现优于未受资助的论文。12)文献类型。文献类型对WOS被引差异具有统计学意义(H=90.172,p=0.000),两两比较发现:三者之间对WOS被引均具有统计学意义(p=0.000),综述论文被引表现优于文章优于会议论文类型。3.4多元线性回归分析。使用多元线性回归进一步分析连续变量和分类变量等多因素相互作用下对论文被引的影响,由于引文数据呈偏态分布,不适合直接使用线性模型,且有的论文被引频次为零,参考阮选敏等[46]的方法,对因变量(WOS被引)进行对数转换,生成新的因变量(WOS被引对数)=ln(WOS被引+1)。通过重新编码的方式,将12个分类变量分别转化为哑变量,回归策略选择Enter强制进入法。为确保数据分析稳定性,Twitter提及、Mendeley读者数、Dimension引用数样本量过少不予分析,删除离群值、强杠杆点、强影响点检测的23个异常值。对处理后的数据进行多元线性回归分析验证,满足多元线性回归分析要求,回归模型具有统计学意义F=159.866(p=0.000),调整R2=0.505。多因素分析发现:作者机构指标(作者团队规模)、期刊指标(2年平均影响因子、分区、出版平台)、文献指标(参考文献数、语种、OA资源、文献类型)、补充计量指标(180天使用次数、2013年至今使用次数)中共计10个指标是影响论文被引的综合因素。而作者数量、合作国家数量、即年指标、页码、标题长度、作者关键词、附加关键词、通讯作者国别、第一作者国别、合作模式、机构属性、期刊国别、基金项目这13个指标p>0.05,在多因素分析中无统计学意义,说明这些自变量不是因变量的独立影响因素。多元线性回归分析结果如表4所示,由于篇幅限制,这里不展示未通过显著性检验的自变量。标化系数反映了影响论文被引的程度,2013年至今使用次数(β=0.317)、以Q4为基准线Q1期刊(β=0.219)、Q2期刊(β=0.143)、2年平均影响因子(β=0.146)、参考文献(β=0.116)对论文被引具有较大正面影响;以高校出版平台为基准线出版平台为其他小型平台(β=-0.057)、以综述为基准线文献类型为会议论文(β=-0.055)对论文被引具有负面影响。

4讨论

4.1作者机构相关因素。作者机构指标中仅作者团队规模通过了多因素的显著性检验,作者规模中以独著为基准线,合作撰写人数越多,被引频次越高,但合作作者规模对整体的论文被引频次影响程度不大,影响程度最大的标化系数也只有0.057。其他作者机构指标通过了单因素分析但未通过多因素分析显著性检验,可能是由于这些指标对于论文被引的贡献度较小,随着多因素分析的调整而消失了。AbramoG等[47]、Chinchilla-RodríguezZ等[48]分别对意大利出版物和阿根廷人文社科领域论文分析也得出合作撰写比独著能够获得更高知名度和影响力。从合作动机来说,科研合作的前提是合作团队具有差异化的优势,合作能够取长补短、优势互补,产生出1+1>2的合作效应。从规模经济理论来说,科研合作使成果更加专业化,如合作团队从论文构思、数据获取处理,模型构建、内容分析各个环节都进行专业分工,使得产生最大程度的效益;此外多团队合作成果有更多学科知识点的融合,更容易产生新兴研究方向和研究热点,从而提高被引。从哲学角度来说,整体功能大于系统各组成要素,科研合作团队规模越大,该团队成员的相应产出越多,形成规模效应,从而提高论文的认知权威和被引频次[49]。4.2期刊相关因素。期刊2年平均影响因子(β=0.146),以Q4为基准线的Q1(β=0.219)、Q2(β=0.143)、Q3(β=0.03)对于论文被引均有正面影响,且整体上对论文被引影响程度较大。期刊影响因子和分区是期刊评价的重要指标,也是论文质量评判的重要依据,论文被引也是提高期刊影响因子和分区的基础。从马太效应角度来说,高影响因子和分区期刊能够吸引更多高质量的论文,从而有更高可能被高度引用;高被引论文也倾向于引用影响力较高的期刊[50],以获得更多权威来佐证论文观点。在期刊论文出版平台选择上,以大学出版社平台为基准线,Elsevier出版平台对被引具有显著影响(β=0.084),而出版在一些非知名的“其他”类别的出版平台上对被引具有显著的负向影响(β=-0.057)。国际出版平台上,Elsevier、Springer等知名商业出版公司通过早期资源整合积累雄厚原始资本,其在市场拓展、平台内容建设、服务创新、品牌策略上都具有得天得厚的优势,发表在“第一梯队”出版平台的论文往往有更规范的出版流程和广泛的传播途径,使得论文更快、更广被他人引用。因而,我国期刊界也在积极探寻与Nature、Elsevier等国际出版商合作,以获得更好的国际显示度和学术影响力[51]。4.3文献特征相关因素。参考文献、语种、OA资源、文献类型等4个指标通过了多因素的显著性检验,参考文献数(β=0.116)是文献特征中影响程度最大的指标,Na-ture也报道过关于引用与参考文献密切相关的研究[52],还有研究表明参考文献的跨学科性对论文被引正相关[53],论文平均被引时差与论文被引负相关[54]。一方面作者撰文时参考大量文献,使其文献结论或观点更具有信服力,从而增加引证的可能性;另一方面随着引文网络的发展,参考文献越多,与之关联的相关文献越多,越有机会通过文献的追根溯源或相关文献扩展发现该篇文献;此外,学者科研行为都需要阅读大量前人综合性研究,而参考文献越多对已有研究越全面,通常能够得到更高的引用。这一现象也可以用于解释相比综述型文献,会议论文对被引具有负面影响(β=-0.064),BornmannL等[55]研究也表明相比于期刊论文、综述等文献类型,会议论文更可能不被高度引用。以中文为基准线,英文论文对被引有正面向影响(β=0.022),这是因为英语具有更强的通用性,便于传播和阅读;PoomkottayilD等[56]以瑞士牙科科学院出版的口腔期刊论文为例,发现英文发表的论文是法语或德语论文被引的6(ISI数据库)至7(Google学术)倍,因此可以通过改变期刊出版语言、双语种翻译等方式出版传播本国期刊论文[57]。开放获取对论文被引具有正面影响(β=0.044),SwanA[58]归纳了包括政治学、哲学、传播学等领域论文开放获取后被引均有较大涨幅,论文的开放获取(OA)能够加速研究结果的传播和利用,从而获得更多的引用。文献特征指标主要通过影响论文的可见性、可用性、可传播性提高论文被引可能性。4.4补充计量相关因素。在单因素分析中,5个补充计量指标均通过了显著性检验,但Twitter提及仅有极弱的相关性,而中国人文社科成果数据的Twitter提及、Mendeley读者数、Dimension引用数样本不足一半,这可能与国内学者难以访问Twitter等有关,同样由于使用习惯、访问速度、语言差异等,Mendeley等科研社交平台的国内用户群相对较少,因而也很难通过国外社交平台传播中国人文社科科研成果,既使有原始传播,缺乏国内用户基础,也难以形成持续的二次传播。此外,Altmetrics、Plumx等补充计量指标主要以国外数据源为主,较少追踪国内学术社交数据,因而这类补充计量指标对国内人文社科成果被引影响不显著。而数据库中80天使用次数(β=0.094)、2013年至今使用次数(β=0.317)对论文被引具有正面影响,这种“提前”的科学评价指标,弥补了引文分析的滞后性,在一定程度上反映学术影响力,论文使用次数等表征信息,是论文“非正式”的潜在使用[59],因而高使用次数(Us-age)的文献更有可能获得引用。

本文以WOS收录中国人文社科期刊论文为例,对论文四大类别指标共计26个二级指标进行特征编码,探究中国人文社科期刊论文国际被引的主要影响因素。单因素相关性分析显示:除页码对论文被引无显著影响,其他13个连续变量和12个分类变量均与论文被引具有一定相关性。而多因素分析显示,1)作者机构指标中:合作撰写论文被引要显著高于独著形式论文。2)期刊指标中:2年平均影响因子与分区对论文被引具有较大正面影响;相比于大学出版社等出版平台,论文出版在Elsevi-er等大型国际化出版平台上对被引具有正面影响,而出版在其他不知名平台中对论文被引具有负向影响。3)文献特征指标中:英语语种、开放获取文献、参考文献数量对论文被引具有正面影响,而相比综述文献,会议论文对被引具有负面影响。4)补充计量指标中:文献使用次数可以视为论文被引的潜在表现。基于本研究结论,针对中国人文社科期刊论文的国际被引提升方面有以下启示:1)加强团队协作。相比自科领域,人文社科国际科研发文上更偏向“单打独斗”,合作撰文甚至跨国团队能够优势互补,通过“合作效应”和“分工优势”提高中国人文社科论文的国际被引。因此,学者在积极寻求个人合作伙伴的同时,高校也应该为人文学者构建畅通的交流渠道,创造良好的团队协作条件。2)遴选优质期刊。“中国科技期刊国际影响力提升计划”的实施,提升了中国期刊的国际收录份额和影响因子,但目前我国被SSCI收录的期刊只有10余种,很多学科零覆盖。期刊发展是一个循序渐进的过程,因而选择高影响因子、高分区、大型出版平台收录的期刊仍旧是当前提高我国论文被引较为直接的方式,只有足够多权威和高影响力期刊广泛传播中国人文社科成果,才能取得我国人文社科领域的国际话语权,进而推动我国人文社科期刊的国际化。3)优化传播途径。通过双语种出版、学术翻译、F5000等多方式传播中国精品期刊的顶级论文;鼓励学者或机构利用机构知识库或其他开放存储仓储提高论文可获取性;利用国际学术交流、国际会议、Researchgate学术社交平台拓宽中国人文社科成果的传播途径。本文存在的不足之处有:1)引文具有国别差异性,虽然WOS收录的中国人文社科期刊论文被引能够在一定程度上体现中国人文社科成果的国际传播和影响力,但引用也具有国别差异,细化国内外引用行为能够更好分析国内成果的国际传播。2)论文引用行为具有复杂性,本文主要基于论文外在特征进行探究,而论文内容的相关性、研究观点的启发性、主题的相似性等影响引文的重要因素还有待在后期研究中进一步探究。

作者:刘意 单位:湖南医药学院图书馆