科学论文首条推特积累速度与用户类型

时间:2022-05-05 09:26:26

科学论文首条推特积累速度与用户类型

1引言

较快的数据积累速度,与广泛性、多样性和开放性一同,被认为是Altmetrics最主要的特征[1,2]。相比于出版延迟等因素所导致的传统引用数据的时间滞后性[3-5],Altmetrics数据可以在科学后的较短时间内实现快速积累,以此为论文影响力计量提供早期评价指标[6]。从科学论文在线发表的时刻开始,文献管理工具或社交媒体平台上围绕论文所开展的学术交流活动和用户传播行为就有可能被追踪记录下来,构成早期的Altmetrics数据。这些非正式的数字学术足迹,一般不需要经过同行评议、学术出版等流程,因此能在论文在线可见后极短时间内出现并且被捕捉[7,8]。例如论文在发表后不久,便会在Mendeley上积累起大量的读者数据,而引用数据则一般需要经过几年的积累才初具规模[9,10]。反之,快速积累的社交媒体数据,也增强了论文在网络环境中的可见度,为论文带来更多点击与访问[11]。在诸多Altmetrics数据来源中,推特(Twitter)数据不仅是论文覆盖率最高的数据来源之一[12,13],而且表现出最快的积累速度[14,15]。推特数据的快速积累具体表现为:当科学论文可在线获取的短短几小时甚至几分钟内,就已经被推特用户提及,从而积累起推特数据[16,17]。受到预印本的影响,论文甚至会在正式发表之前就已经受到推特关注[18]。因此,对于大部分仅拥有推特数据的科学论文而言,它们的首条推特是Altmetrics数据从无到有的分界线,意味着它们首次在社交媒体平台为用户可见,是社交媒体传播的起点。以往关于科学论文推特传播问题的研究,大部分关注的是论文推特提及次数与未来引用次数的相关关系[19-21],或是总推特提及次数随时间推移的积累模式与速度[22]。但对于科学论文推特传播的起点,即来自何地的哪类用户在何时实现了科学论文的首次推特传播,还缺乏具体定量分析。在传统文献计量学领域,科学论文获得首次引用的积累速度与模式已受到学者关注[23,24]。本文则着眼于科学论文获得的首条推特,对WebofScience的论文中拥有推特数据进行了大规模分析,以回答以下研究问题:第一,科学论文首条推特的积累速度如何?对于不同学科领域的论文而言,发表后一般需要经历多长时间才能获得首条推特?第二,科学论文的首条推特是由哪些类型的推特用户的?首条推特和后来的其他推特是否有不同的推特用户构成比例?第三,科学论文首条推特的用户来自哪些国家/地区?来自论文作者国家/地区的推特用户是否会最先关于这些论文的推特?

2数据来源与研究方法

要对科学论文的首条推特进行分析,首先需要确定论文具体的正式发表日期和所有推特的时间。文献计量学分析中常用的宏观时间尺度,如年、月等,并不适用于分析在微观时间尺度(日、小时等)内能够实现快速积累的推特数据,更无法用于识别科学论文的首条推特。因此,本文使用Crossref记录的精确到日的DOI号创建日期代表论文正式发表日期,论文所有推特的日期与用户信息则通过DOI号从Altmet-ric.com提供的数据集中匹配获取。2.1Crossref记录的DOI创建日期Crossref(www.crossref.org)是一个正式成立于2000年1月的国际学术出版商联盟,目前已成为开放科学(OpenScience)的重要数据整合者和提供者。截至2018年9月,Crossref已收录了逾1亿条学术文献记录[25]。Crossref最主要的产品之一,是其为成员提供的数据对象标识符(DOI)注册与储存服务。本文使用Crossref记录的科学论文DOI号的创建日期,作为科学论文正式发表日期的。由于DOI创建日期精确到了具体日期的层次,本文得以实现在微观时间尺度(日)上,对科学论文获得首条推特的耗时进行度量。Altmetric.com从2011年10月开始追踪记录论文的推特传播数据,因此本文选取发表于该时间点之后的论文作为研究对象。自2012年1月1日至2016年12月31日的五年时间里,共有6,859,973篇WebofScience论文(仅考虑Article和Review两种文献类型)拥有被Crossref记录的DOI号。通过对DOI号的匹配,本文从Crossref采集了这些论文的DOI创建日期,以代表论文正式发表日期。2.2Altmetric.com记录的科学论文的推特数据本文基于所选取的6,859,973篇论文的DOI号,通过Altmetric.com提供的数据集搜索匹配了它们的推特传播数据。截至2017年10月,共有2,221,737篇论文(占32.4%)积累了推特数据。根据Altmetric.com记录的所有推特的时间,每篇论文的首条推特,以及与之相关的推特日期、推特用户地理位置、用户类型等数据,同时被提取出来以进行分析。有预印本的论文相比于其他论文而言,具有在电子出版环境下优先可见的优势,有可能更早被推特用户提及,因此,33,879篇有预印本的论文(占1.5%,即Altmetric.com记录有ArXivID的论文)被剔除。对于其余的2,187,858篇论文,本文比较了所有论文的DOI创建时间与Altmetric.com记录的首条推特时间。正常情况下,推特提及应该发生在之后,但有149,212篇论文的首条推特时间早于DOI创建时间,除预印本的影响外,可能的原因还包括:第一,部分情况下,Crossref记录的DOI创建日期与出版商正式在线的日期之间存在细微偏差,论文上线日期可能实际上早于记录中的DOI创建日期。当这类论文在上线后迅速获得推特提及,其首条推特时间便有可能早于记录中的DOI创建日期;第二,由于出版商合并等客观原因,Crossref记录的DOI号可能根据要求更新创建日期,导致已经发表了一段时期的论文获得一个新的DOI创建日期,从而使得以往已经积累的推特的时间早于新的DOI创建日期。为保证分析的准确性,这些首条推特日期先于DOI创建日期的论文也被剔除。最终,2,038,646篇WebofScience论文及其首条推特数据被选取为本文的研究对象。所有6,859,973篇论文以及2,038,646篇拥有首条推特的样本论文的发表年份分布状况如图1所示。2012—2016年这五年间,总数呈增长趋势,且获得首条推特(即至少拥有一条推特数据)的论文的数量也逐年增加。发表于2015、2016年拥有推特数据的论文的比例相较于前几年也有明显提升,2015年和2016年分别有34.6%和34.1%的论文积累了推特数据。2.3CWTS学科分类体系为比较不同学科领域科学论文在获得首条推特时表现的差异性,本文使用CWTS学科分类体系对2,038,646篇样本论文进行了领域分类。CWTS学科分类体系是由Waltman和VanEck提出的基于引文关系的单篇论文学科分类体系[26]。相比于WebofScience使用的基于期刊的学科分类体系,基于单篇论文的CWTS学科分类体系能对论文的所属学科和具体研究方向进行更详细的分类,并且解决了发表于多学科期刊上的论文无法进行有效分类的问题[27]。在科研评价的实践中,CWTS学科分类体系已被应用于“莱顿世界大学排名”(LeidenRanking,http://www.leidenranking.com/)。CWTS学科分类体系基于引文关系,对WebofScience数据库收录的三种可引用类型的文献:研究论文(Article)、综述(Review)、信函(Letter)进行了聚类,这些单篇论文形成了4047个有着各自具体研究主题的子类,即图2中的4047个圆点。这些细分子类又聚集成高层的五大学科类型,分别是人文与社会科学、生物医学与健康科学、物理学与工程学、生命与地质科学、数学与计算机科学。五个学科类型的布局如图2所示。

3结果分析

3.1具有推特数据的论文的学科分布当一篇论文收获了首条推特,也就意味着该论文积累了至少一条推特数据。图3展示了6,859,973篇论文形成的4047个子领域中,2,038,646篇具有推特数据的样本论文的分布状况。每个圆点代表一个子领域,圆点的大小由该领域内总论文数量决定。圆点颜色取决于各个子领域中至少有一条推特数据的论文的比例(Proportionofpaperswithatleastonetweet,PP(Tw≥1))。当子领域内拥有推特数据的论文的比例较高(即PP(Tw≥1)数值更接近于1)时,圆点偏向红色;当该比例较低(即PP(Tw≥1)数值更接近于0)时,圆点偏向蓝色。比照图2的CWTS分类体系可以看出,人文与社会科学、生物医学与健康科学、生命与地质科学的论文推特数据的覆盖率更高,这些学科领域的论文更容易受到推特关注。而在物理学与工程学和数学与计算机科学这两个领域,具有推特数据的论文比例较低。从各个学科论文的具体推特数据覆盖比例来看(见表1),生物医学与健康科学为44.8%,位列所有学科第一位;人文与社会科学位列第二,比例为42.2%;其后是生命与地质科学领域,该领域有31.7%的论文受到了推特关注;物理学与工程学、数学与计算机科学的比例非常低,分别为13.4%和6.9%,出自这两个学科领域的论文在推特平台上的受关注度相对较低。3.2首条推特的积累速度通过计算论文正式发表日期(DOI号创建日期)与首条推特日期之间的天数差值,可以得知每篇论文收获首条推特的耗时(天),即在后的第几天,论文获得了首条推特。图4分别展示了五个学科领域内,历经不同天数获得首条推特的论文的比例。首条推特的耗时被分为六个时间阶段:0—1天(当天和接下来的第一天)、2—6天(后的第二天至第一周内)、7—30天(的第一周后和第一个月内)、31—180天(的第一月后和半年内)、181—364天(的半年后和一年内)、365天—(的一年后)。五个领域具有推特数据的论文中,都有过半的论文在发表后一个月内积累了首条推特,超过80%的论文在一年之内被推特提及。但获得首条推特的耗时,有着较明显的学科差异。物理学与工程学领域的论文尽管推特覆盖率不高,但总体收获首条推特的速度更快,该领域论文的首条推特有43.5%是在后的前两天获得,约80%发生在后的第一个月内。生命与地质科学、生物医学与健康科学的论文在各时期获得首条推特的比例,仅次于物理学与工程学领域。相比之下,人文与社会科学和数学与计算机科学领域里,在发表较长一段时间后才获得首条推特的论文比例更高。尤其是数学与计算机科学的论文,逾40%是在发表一个月之后才获得首条推特,12.3%是在发表一年后才积累了首条推特。表2展示了五个学科领域内,论文获得首条推特的平均耗时。其中物理学与工程学领域的论文平均经历了最短的时间获得了首条推特(约52天),随后是生物医学与健康科学、生命与地质科学领域的论文,平均耗时约66天获得首条推特。人文与社会科学和数学与计算机科学领域的论文获得首条推特的耗时较长,分别为95天和134天。数学与计算机科学领域不仅只有很小比例的论文被推特提及,而且论文一般是在发表较长一段时间后,才被推特用户关注。3.3首条推特的推特用户类型分布Altmetric.com主要根据推特用户的个人简介关键词、有链接关系的期刊的类型和关注者列表这三项个人用户信息,将过科学论文相关推特内容的推特术期刊和学术出版商存在频繁链接关系的用户;实践工作者(Practitioner):临床医师或者从事临床医学研究的研究者;科研人员(Researcher):熟悉科学文献的用户;社会公众(Memberofthepublic):与科学文献没有链接关系并且不属于以上任何一种类型的用户。本文选取的2,038,646篇样本论文的首条推特,是由180,114个不同的推特账号的,其中169,312个推特用户(占94.0%)拥有Altmetric.com识别并匹配的身份类型。此外,为比较论文获得的首条推特和后来其他推特的用户构成,本文采集了这2,038,646篇样本论文的全部推特数据以及用户类型数据。2,038,646篇论文获得的全部推特由1,550,615个不同的推特账号,其中1,438,031个推特用户(92.7%)拥有Altmetric.com识别的身份类型。图5比较了CWTS五大学科领域内,首条推特和后来其他推特的四种类型的用户构成比例。对于各个学科的论文而言,科学传播者在首条推特中所占的比例要明显高于在后来其他推特中所占的比例。科学传播者是与学术期刊、学术出版商频繁关联的一类推特用户。期刊与出版商的工作促成了科学论文的在线发表,科学传播者往往能第一时间接收到论文出版信息,并将其到推特平台,从而提高了论文的可见度。实践工作者主要是从事临床科学的用户,他们更加关注自身所处领域的论文,在生物医学和健康科学中所占的比例明显更高。科研人员是最熟悉科学论文的人,他们在推特传播中的作用仅次于社会公众(即Altmetric.com无法根据用户资料明确划分身份类型的高于在后来其他推特中所占的比例,其他领域的情况则相反。无论是首条推特还是其他推特,物理学与工程学领域的论文拥有最高比例的科研人员参与论文的推特传播,该领域论文的首条推特有大约32%是由科研人员的,这一比例显著高于其他学科领域。表3列举了五大学科领域内,四类推特用户论文首条推特的平均耗时(天)。物理学与工程学领域的论文获得首条推特的平均耗时最短,不论首条推特是由哪类用户的。数学与计算机科学领域的论文获得首条推特的平均耗时相对最长,除了科学传播者贡献的首条推特(平均58天),要快于对人文与社会科学领域论文的首条推特(平均83天)。总体来看,除人文与社会科学领域外,科学传播者论文首条推特的平均耗时是最短的。在生物医学与健康科学、物理学与工程学、生命与地质科学领域,科研人员首条推特的速度仅次于科学传播者。而在人文与社会科学和数学与计算机科学领域,实践工作者却展现出较快的首条推特速度。3.4首条推特的推特用户国家/地区分布样本论文获得的2,038,646条首条推特中,1,002,728条(占49.2%)具有Altmetric.com识别的用户地理位置信息。这些了论文首条推特的用户的国家和地区分布状况如图6所示。美国与英国是最大的两个首条推特用户来源国。第一时间科学论文相关内容的推特用户绝大部分来自北美、西欧和澳洲,相比之下,来自南美、非洲、东欧和亚洲的用户较少。本文从WebofScience中采集了首条推特用户地理位置可被识别的论文的作者机构数据,以统计这些论文是由来自哪些国家/地区的作者发表的。当来自多个国家/地区的作者合作发表一篇论文时,每个国家/地区都计作发表了一篇论文。发表了具有推特数据的论文最多的20个国家/地区及其论文积累的首条推特的数量(括号中)如图7所示。这些国家/地区的论文所收获的首条推特的用户来源,则通过堆积百分比条形图来表示。每一个子块代表来自某一国家/地区了首条推特的用户的比例,越靠近左侧,就表示来自这个国家/地区的推特用户比例越高。来自论文作者本国/地区的推特用户用红色子块突出显示。由美国、英国和西班牙这三个国家作者发表的论文,吸引了最高比例的来自本国的用户第一时间在推特平台相关内容。由于来自美国和英国科学论文首条推特的用户绝对数量最多,对于其他大部分国家/地区发表的论文,来自这两个国家的推特用户同样占据了最高比例,紧随其后的,是来自本国的推特用户最早相应论文的推特内容。然而对于意大利、中国、韩国和中国台湾而言,其论文首条推特的用户来源构成则较为特殊。来自西班牙的推特用户在美国和英国之后,是意大利发表的科学论文收获的首条推特的第三大来源。而中国、韩国和中国台湾这三个亚洲国家和地区,尽管拥有推特数据的论文总数量较高,但首条推特用户来自本国/地区的比例则较低,分别仅有1.2%、1.4%和0.8%的首条推特是由本国/地区用户的,远远低于其他国家/地区的这一比例。由图6可知,来自这三个国家/地区了科学论文首条推特的用户的数量较少,因而可能导致了相比于其他更为活跃首条推特的国家而言,来自本国/地区的用户比例较低。图8详细列举了积累了首条推特的论文数量最多的20个国家/地区所获得的来自这20个国家/地区的用户贡献的首条推特的比例。美国与英国是最主要的了首条推特的用户来源国,分别对各个国家/地区论文首条推特的贡献比例几乎都占据了20%以上。除西班牙、意大利、中国、韩国和中国台湾以外,其他国家/地区来自当地的推特用户对本国/地区的首条推特贡献率紧随美国和英国之后,比例处于6.4%(丹麦)至21.2%(澳大利亚)之间。

4讨论与结论

通过对大规模WebofScience论文首条推特数据的分析,本文发现不同学科论文的推特覆盖率有着较为明显的差异。生物医学与健康科学、人文与社会科学领域的论文拥有最高的推特数据覆盖率,来自这两个领域的论文更容易积累推特数据,其后是生命与地质科学,而物理学与工程学和数学与计算机科学这两个领域推特覆盖率较低。尽管物理学与工程学领域的论文仅有较少一部分积累了推特数据,但该领域论文获得首条推特的平均速度是最快的。总体来看,物理学与工程学、生物医学与健康科学、生命与地质科学和人文与社会科学领域的论文表现出更快的首条推特积累速度,半数以上的首条推特是在后一周之内积累起来的。数学与计算机科学的论文则需耗费更长的时间才被推特用户关注到。论文首条推特者的用户类型构成和后来其他推特者的用户类型构成之间也存在一定差异。各学科中,科学传播者在首条推特者中所占的比例明显高于在后来其他推特者中的比例,并且科学传播者贡献的首条推特的耗时在多数学科中是最短的。而科研人员这类较为熟悉科学论文的推特用户,在多数领域内同样展现出较快的首条推特速度。尤其在物理学与工程学领域,科研人员在首条推特和其他推特者中所占的比例均高于其他学科,对科学论文推特传播的参与度较高,并且首条推特的平均速度仅次于科学传播者。以往的研究已证明用户在推特或者点击访问论文的行为中都展现出地理邻近性的特征,即一般情况下,用户更多地关于本国/地区作者发表的论文的推特[29],或点击访问本国/地区作者新发表的论文[30]。而从最先论文相关推特的角度出发,本文同样发现,对具有推特数据的论文数量较多的国家/地区而言,来自当地的推特用户在本国论文首条推特的用户中占比很高,除美国和英国这两个贡献首条推特绝对数量最多的国家外,来自本国/地区的推特用户是第一时间在推特平台传播当地作者论文的主力军。然而对于部分亚洲国家和地区,如中国、韩国、中国台湾等,来自当地的推特用户对本国/地区论文首条推特的贡献则比较弱,不及来自其他推特活跃国家/地区的用户。本文的研究结果也存在一些局限性。第一,Crossref记录的DOI创建日期与论文正式发表日期较为接近,但某些情况下不能完全准确地代表论文正式在线发表并为推特用户可见的时间。尽管本文已清除了部分日期存在疑义的论文,但其余论文的DOI创建日期也可能与正式在线发表日期之间存在细微偏差,从而一定程度上使首条推特积累速度的计算出现误差。第二,本文使用的CWTS单篇论文学科分类体系只能对研究论文(Article)、综述(Review)和信函(Let-ter)这三类文献类型进行分类,因此本文的样本论文只选择了研究论文(Article)和综述(Review)这两种最主要的文献类型。其他拥有推特数据的文献类型没有囊括在本文的分析之中。第三,本文所使用的推特用户地理位置数据和用户类型信息来自Altmetric.com。由于用户资料填写完整度不高、Altmetric.com分类标准与算法设计等客观因素的影响,并非所有样本论文的推特数据都能识别出具体的推特用户地理位置[31]和准确身份,因此本文对于首条推特用户身份构成和地理位置来源的分析,分别是在约90%和50%的样本量基础上进行的。另外Altmetric.com所界定的推特用户身份类型,存在分类边界的模糊。科学传播者、科研人员和实践工作者的分类界限并不十分清晰。在未来基于推特用户地理位置与身份类型的研究中,如何更加全面、准确地识别参与科学论文传播的推特用户的信息,是亟待解决的一个研究问题。