基于感知的学术期刊评价方法研究

时间:2022-07-27 03:15:15

基于感知的学术期刊评价方法研究

1引言

国外学术期刊评价中最常用的两种方法分别是基于引文(citation-based)的评价法和基于感知(perception-based)的评价法【1】。基于引文的评价法通常使用影响因子、特征因子、h指数及其衍生指标评价期刊,主要优点是定量与客观,但指标片面性、自我引用、期刊操纵引用、不适合人文社科领域期刊等问题也使其饱受争议【2】。近几年采用同行评议对科学研究过程和成果的规范性、科学性和创新性等进行独立学术评判已经逐步成为学界通行的做法【3】,如果将其与引文评价法结合,将进一步提升期刊评价的信度与效度。专家调查法作为同行评议的一种重要形式,在国外一般被称为基于感知的评价方法或陈述性偏好(statedpreference)评价【4】,它利用同行的意见来评价学术期刊,可以反映某一特定学科或领域内具有代表性的大量专家的集体判断和累积意见。此类方法通常向一组专家发放调查问卷,请他们根据自己的感知并结合一定的判据对期刊评分、排序或分类,评价结果一般通过聚合所有受访者的评价情况获得。目前,国内在期刊管理和评价领域的类似研究多集中于前的同行评议【5-6】,缺少对专家问卷调查类期刊评价方法的研究。国外对基于感知的期刊评价方法类的研究较多,但对这些方法进行详细分析的综述类研究尚不多见。Walters【7】介绍了研究人员和图书馆员在开发或使用基于调查的期刊排名时应考虑的五个关键问题,但该研究主要基于2014年以前文献,粗略地对国外基于感知的期刊评价框架进行了介绍,缺乏对该方法的一些具体特征和问题的详细论述。本文将以国外文献为基础,对基于专家问卷调查的感知类期刊评价方法近十五年来(2005-2019)的文献进行梳理,总结此类方法的基本特征,找出现有研究存在的问题,并提出相应的建议,以求为国内相关研究和实践的进一步完善提供参考。

2文献检索与筛选

2019年3月,作者以WebofScience为数据源,检索与“survey-based”、“perception-based”、“statedpreference”、“ex⁃pert-based”等相关的期刊评价类英文文献,时间跨度限定为2005-2019年,检索结果剔除不相关内容后,导入文献管理软件NoteExpress3.2中,得到129篇英文题录。随后在Pro⁃Quest、EBSCO、Emerald、Scopus等全文数据库中进行类似检索,将删除不相关内容后同样导入NoteExpress3.2,合并去重后共得到357篇英文题录。通过详细阅读这些题录中的标题和摘要信息进行初步筛选,保留了103项题录。本文的目的是要对评价方法进行梳理,要求所分析文献中评价过程和评价要素的阐述应尽量完整,故删除了部分评论性研究、论文同行评议类研究以及仅用已取得的专家调查结果与引文分析法的评价结果进行比较或汇总类的研究,据此共剔除了28项研究。对剩下的75项研究下载全文阅读,并以参考文献为线索,新增加39项研究,反复阅读后,最终获得明确使用专家问卷调查法进行期刊评价且详细说明评价过程的30项研究。分析过程围绕基于感知期刊评价中的四个主要环节:期刊来源、受访者样本、评价过程及评价判据展开。

3分析结果

3.1期刊来源。被评价的期刊通常根据学科或研究领域选择,但即使该学科的边界已经比较明晰,期刊列表选择也不是一件简单的事情。据对30项研究分析后发现,研究者一般通过三种方式确定评价期刊列表。(1)封闭式期刊列表。即由研究者预先提供完整的期刊列表,受访者仅对列表内期刊进行评价。30项研究中有13项采用该方式,研究者在选择期刊时一般遵循两类原则:一类研究者认为期刊覆盖面要广,只有这样才能对某一领域期刊进行全面评价【1】,所以多数研究(7项)会以之前研究为基础,对其中出现的期刊进行汇总、去重、剔除停刊等操作,然后在搜索引擎和一些数据库中对新创期刊进行检索【8-9】,从而保证期刊列表的全面性,也有研究者直接使用某个(些)机构最新的期刊排名列表【10】;另一类研究者认为应优先选择重要期刊进行评价,一般采用筛选的方法,如从以前研究中筛选排名靠前或受访者熟悉度普遍较高的期刊、请专家或与同事讨论确定达成共识的期刊【11】、选择被重要数据库收录的最有影响力的期刊【12】等。封闭式期刊列表有利于研究者了解受访者对特定期刊的感知意见,但预先提供的期刊列表容易导致一些新创期刊或新领域、跨领域期刊未被列入而影响其全面性。另外,根据满足感理论,即使是积极性很高的人也可能在对较长列表排名过程中逐渐失去注意力,变得心烦意乱或疲惫【13】,因此如果提供的列表过长可能会影响回复率,进而影响评价效果。此外,预设的列表还可能使部分受访者不得不去评价自己不熟悉的期刊。(2)开放式期刊列表。即研究者不预设期刊列表,完全由受访者提供,有4项研究采用该方式。研究者一般在说明评价判据后,采用开放式问题,通过无辅助回忆技术(unaid⁃edrecalltechnique)【14】或制高点知名度(top-of-mindaware⁃ness)【15】技术请受访者依次列出符合标准的期刊名称,在问卷处理时,研究者会通过查阅现有期刊目录【16】或网络检索等途径对受访者提供的期刊进行核实。开放式期刊列表有助于给予受访者最大的灵活性,最大限度地减少因期刊呈现顺序而导致的顺序效应偏差(order-effectbias)【13】和路径依赖(pathdependency)【17】等问题,确保那些在先前的研究中未出现但又可能是新创的该领域期刊不被排除。但通过受访者提供的期刊很可能是那些最常被他们使用和阅读的期刊,可能存在近因性偏差(recencybias)【18】,且由于受访者知识背景不同,可能会获得一些非本领域期刊,或者产生本领域个别重要期刊被遗漏的情况,期刊名称和评价结果也会非常分散。由于期刊更名或名称相近、不规范简称等原因还会出现期刊名称被张冠李戴的情况,增加问卷统计难度。(3)半开放式期刊列表。即介于上述两种方式之间,采取封闭式列表和开放式列表相结合,由研究者预先提供部分被评价期刊,受访者对这些期刊进行评价的同时还可以增加一定数量自己认为重要的期刊,30项研究中有13项采用了该方式。半开放式期刊列表可以有效解决封闭式和开放式列表的不足,但研究者和受访者提供的期刊比例还需视评价实际情况而定。正如大量研究中讨论的那样【19-20】,考虑到不同学科背景、期刊年龄、发行量、地域影响等因素,决定哪些期刊被包括在内是复杂且困难的。3.2受访者样本。受访者是基于感知的期刊评价中最重要的因素,他们既需要有丰富的学术经验和广博的领域知识,还需要紧跟领域前沿,掌握热点方向。选择合适的受访者和一定规模的受访者样本容量对保证评价效度至关重要。在30项研究中,研究者结合自己的研究目的和评价判据,主要通过以下三种渠道招募受访者。(1)随机选择的期刊作者。有8项研究以本领域期刊作者作为受访者,此类受访者一般被称为活跃研究人员【10,21】,通常最近几年在该领域的某些期刊上发表过论文,研究者认为他们对领域知识和期刊的认知方面更为前沿【10】。主要包括高校教师、从业人员和学生等群体,他们的电子邮件等信息可通过期刊直接获取,比较便利,研究者邀请的目标受访者样本一般在千人以上规模。在Serenko等的多项研究中均以这种方式选择受访者样本【1,8,13】。(2)行业组织、学术机构的研究人员。有12项研究通过国际交流会议、学术机构网站、国际期刊编辑委员会以及有关国家的学术和从业者协会邀请受访者,受访者一般为这些组织或机构的正式成员,身份包括高校教师、学术管理者或从业人员等。(3)高校教师。有10项研究专门以高校群体为调查对象,受访者一般为高校科研人员和教育工作者,招募渠道主要有两种,一种从各学院的网站获取名单和信息,另一种从一些国际或地区学术组织成员中筛选有教师身份的人员【22】。一项有效的问卷调查研究必须包括一个足够丰富的受访者样本,这样才能真正代表期刊的利益相关者意见,否则即使样本容量足够大,类别不足也无法全面解释不同专家群体之间可能存在的明显感知差异。30项研究中,回收到的问卷数量从11到1695不等,平均问卷数量315份,中位数为229份。多数研究者对不同身份群体或不同人口特征(国别、性别、学历、职称、职务等)的受访者评价数据进行了分组统计检验,分析不同地区、不同学术等级、不同子领域的受访者评价结果是否有差异,以发现偏差或证实假设,为后续研究采取措施减少偏差提供参考。三类受访者样本中,期刊作者样本覆盖的群体范围最广,但其中作为学术新人的学生作者群体的领域知识的广度和深度较那些资深研究人员还有很大的差距,对期刊的熟悉程度可能也整体偏低。受访者样本到底怎么选择具体还取决于研究者的评价目的和评价判据,每类群体受访者参与评价的侧重点也会有所不同,这在30项研究中并未发现有价值的规律。30项研究普遍采用便利抽样或滚雪球抽样【14】招募受访者,仅少数几项研究采用了作者随机抽样【10】、过采样(over-sampling)【23】等方式。对期刊作者的随机抽样可被理解为近似概率抽样,但研究者多选择了“高质量”期刊中的作者群,使得样本的代表性存疑。因为尽可能保证受访者的代表性是该类研究具有较高信度与效度的前提,否则必然影响最终评价结果。3.3评价过程。在前两点的基础上,期刊评价的组织管理程序也十分重要,这是一个将受访者与期刊紧密结合的过程,选择的评价方式、采用的测量工具、把握的评价原则等都会影响对受访者感知的准确测量。(1)评价形式。30项研究中除了2005年和2006年有3项研究采用邮寄纸质问卷外,其余27项均采用了网络调查,其中Zsidisin等和Meese等的研究以传统纸质现场调查和网络在线调查两种形式进行。可见随着计算机技术和网络技术的发展,期刊评价领域的网络问卷调查已逐步取代传统纸质调查,主要原因在于前者方便快捷,各种在线问卷软件及数据统计软件的出现有利于研究者快速回收问卷、精确统计和分析数据,既节约了人力、时间和邮寄成本,又大大减少了数据录入环节的错误,而且在线问卷的链接跳转功能也为分类问卷和个性化问卷提供了便利。多数研究者通过发送带有邀请函和问卷链接的电子邮件邀请受访者参与在线调查,为了确保公平参与,在线调查程序一般只允许每个IP地址填写一次问卷。Smith等【24】和Reniers等【25】等几项研究则直接使用电子邮件发送问卷,由受访者回复。有6项研究使用了专业的SurveyMonkey网络调查平台或SNAP调查软件,大大提高了调查效率。(2)测量工具。一般采用Likert量表或“前五法”(TopFiveMethod)【26】,请受访者对期刊进行打分、排序,也有少量研究请受访者对期刊进行了分类。共有20项研究采用了Likert量表,典型的Likert量表一般由研究者提出一个陈述,如“这本期刊的论文对XX领域有重要贡献”,要求受访者根据认同程度进行选择。还有一类量表与Likert量表类似,请受访者根据一定的判据采用5分或7分制对每本期刊打分,本文也将其归入Likert量表。20项研究中有8项使用了5分制,8项使用了7分制,此外还有4项分别采用了9分制、10分制和11分制。在分析问卷数据时,一般假设Likert量表是一种区间测度(intervalscale),可计算平均值和标准差,期刊的排名一般基于得分平均值,也有部分研究按照期刊得分的众数进行排序【20】。一般来说,7分制与5分制在可信度方面没有明显差异,只是前者比后者有更大的区分度,可提供更细的评价粒度,但如果量表的评级过多,会增加受访者的答卷负担,影响评价质量,所以还需综合考虑受访者的工作量和期刊数量决定具体使用几分量表。有7项研究采用了“前五法”或类似方法进行测度。“前五法”在期刊评价领域较早由Kohl等【26】使用,即通过开放式问题、无辅助回忆或制高点知名度等形式请受访者按顺序列出五种最具学术贡献【23】(或对教学科研最重要,或受访者最常阅读或投稿【19】)的期刊,对不同位次赋分后汇总排序;有的研究仅要求受访者列出前五期刊即可,无须排序,研究者会根据期刊被提及的总频次进行排名,相似的方法还有“前三法”或“前十法”。Kohl认为,当内部共识度低于40%时,无序的“前五法”可能不可靠【26】。(3)对不熟悉期刊的处理。受访者对期刊的熟悉程度是多数研究者首要考虑的问题。为保证评价效度,一个很重要的原则就是不强迫受访者评价其不熟悉的期刊。有16项研究对受访者是否熟悉被评价期刊进行了测量。为确保受访者不会被迫在信息不足的情况下作出决定,在Nisonger、Shewchuk【27】、Lowry、Gorman等的几项研究中,受访者可以在不查阅任何知识的情况下,只评价他们熟悉的领域和了解的期刊,而对不熟悉的期刊进行标注或将打分项留空。有的研究在每个问题后面设置“不知道”或“不熟悉”选项【20】,有的研究专门设置一个问题测量受访者对期刊熟悉度【28】,也有研究将受访者对期刊的熟悉程度作为计算期刊整体影响力或重要性的重要依据,认为期刊的影响力或重要性既取决于受访者对期刊的评价力度,也取决于受访者对期刊的熟悉程度。还有研究者特意选择受访者熟悉度较高的期刊,如Garand等研究中仅纳入了之前研究中至少被20%的受访者熟悉的期刊,Shewchuk等剔除了Williams第一阶段研究中受访者普遍不了解的期刊,这为提高受访者对期刊的熟悉度起到了一定作用,但也极易引入评价偏见,如对一些新创期刊或新领域期刊不利。3.4评价判据评价判据是受访者对期刊评价的判断依据或标准,对判据的使用、定义和权重分配是评价必须解决的关键问题。(1)判据的使用。30项研究中,质量(10项)、影响力(8项)、重要性(8项)、贡献(7项)、声望(3项)、阅读偏好(2项)、投稿偏好(2项)、价值(1项)、相关性(1项)等术语都有被作为受访者对期刊的判断尺度。这些判据中,有的只使用一项进行评价,如请受访者列出他们认为的最有影响力的学术期刊【14】、根据期刊对研究和教学的重要性评分【20】、评价期刊对某领域理论和实践的贡献程度【28】,或者直接对期刊质量打分【2,22】。有的研究以几项判据结合进行评价,如以受欢迎度、相关性、学术贡献以及投稿偏好四项指标作为期刊质量维度,从期刊总体影响力、熟悉程度和论文质量以及阅读和投稿偏好几个方面排名期刊【19】,从质量评价、熟悉度、影响三个维度比较不同国家对期刊评价的差异,从质量、效率和影响力三方面对期刊综合排名等。(2判据的定义。多数研究虽然提出了评价判据,但未做具体说明或定义,把对判据的理解交给受访者,仅有少量研究对判据有简单定义,如将期刊质量定义为“期刊的论文对知识有重要贡献”【29】和“在研究中具有重要或影响地位的程度”【9】,有研究者认为可以用质量标准(编辑委员会和审稿人定义的提交论文的科学要求)和科学质量(实际发表在期刊上的论文所达到的质量)作为测度期刊质量的两个维度【30】。Parameswaran等【29】在其研究中将期刊效率定义为“该刊审稿流程及时”,期刊影响定义为“在该刊发文对学者的生涯非常有益”。Ku等认为受欢迎程度是指“期刊被受访者认可的程度”,相关性是指“发表的论文内容与电子商务之间的相关程度”,学术贡献被定义为“期刊推进电子商务研究进展的程度”。(3)判据的权重。人们在评价时对不同评价判据的重视程度也不同。有研究显示【31】,市场营销学者个人认为期刊评价判据的权重分配是对理论的贡献(36%)、期刊声望(26%)、对实践的贡献(24%),最后是对教学的贡献(14%)。而在另一项研究中,从事供求管理研究的受访者则认为评价判据的重要程度可以按照与研究相关性、期刊质量、与从业者相关性和期刊声誉的顺序排序。Rogers等【32】的研究则显示,在商业管理交流学界,影响期刊质量判断的最有力的判据是该领域资深研究人员的感知,其次是期刊被主要索引的收录情况,稿件接受率列第三位,其他因素依次为专业协会的认可、影响因子、期刊国际排名、期刊年龄、编辑声誉和编委会成员情况等。可见,不同领域、不同受访群体对评价判据的重要性认知存在明显差异,在一些子群体中也会存在区域差异,且个人对特定判据的权重感知与其机构适用的权重也会有所不同。

4问题讨论

通过上述分析可以发现,国外基于感知期刊评价方法已经形成了比较稳定的、行之有效的做法,在被评价期刊、受访者、评价过程、判据等评价要素方面已具备了明显特征,这些对感知类评价方法的发展将起到重要促进作用。但现有研究在一些方面仍然不太完善,研究的规范性和方法的科学性仍有待加强,需要在后续研究或实践中深入讨论。4.1评价期刊的分组。首先,在学科高度融合发展、跨学科领域越来越多的新形势下,现有研究在细分期刊领域方面仍有欠缺。每一学科都由若干分学科、分领域、子领域或新分支构成,对某一学科的所有期刊进行综合排名非常不利于小领域和新生领域期刊,但子领域划分过细也容易产生受访者样本量过少的问题。30项研究中仅有三分之一对期刊进行了细分评价,划分的依据包括期刊定位、作者群体、阅读群体、编委会组成、引文领域等,也有研究者以请专家打分或讨论等方式确定期刊分组。而其余多数研究尤其在像政治学、金融、农业经济、人工智能、法律等比较大的领域中提供的列表有近百种期刊,既有综合期刊又有专业期刊和新创期刊,即使考虑了受访者的研究领域分布也无法完全保证评价的公平性,结果会导致一些长期存在的综合期刊一直占据排名前列,而那些跨学科或新领域的期刊在期刊列表中的评级往往不如意,或者被排在靠后的位置。其次,期刊的年龄、学科属性及发行特征等会直接影响受访者的熟悉程度,间接导致不平等的参与结果。Serenko等【17】的研究发现,期刊年龄和期刊评价得分存在显著正相关性,证实了期刊年龄对期刊排名的影响。与更年轻、专业化更强的期刊相比,那些更成熟、更通用的期刊自然拥有更广泛的读者群和更大的引用基础,同时,更大的发行范围、发行量、发文量和更短的出版周期等会为作者创造更多的发文机会,也会使更多的论文被读者阅读,这会让以作者和读者为主要群体的多数受访者更加了解这些期刊。而很多研究已经发现,受访者倾向于给其熟悉的期刊打高分,期刊熟悉度与评价结果之间存在很强的相关性【3】,所以这必然会导致那些出版时间久、综合度高、发行量和发文量大、出版频繁的期刊被排到较高的位置,但却不一定具有相应的整体质量。建议在今后的期刊评价研究和实践中应进一步细分评价领域,并按细分领域对评价结果单独排序,对一些综合类的期刊,可采用主题聚类技术【34】将其归属到某一领域进行评价。在期刊评价和分组过程中也应综合考虑期刊的年龄、学科属性及发行特征等因素,进行同类评价或通过加权、样本折算等方法来体现评价公平性。部分研究在期刊领域细分方面已经开始了积极探索,如Serenko等在其几项研究【8,28,35】中不断对知识管理和智力资本两个领域期刊细分评价。McKercher等认为有必要根据受访者各自的研究领域对期刊进行分组评价,其在酒店和旅游领域的期刊评价研究中,请旅游学者与酒店学者分别对各自领域的期刊打分,以更准确地评价专业期刊在子学科的相对重要性,其后的Law、Gursoy等研究中也在延续这种分组评价的做法。4.2受访者偏见的影响。基于感知的专家问卷调查研究建立在这样的假设之上:受访者可以相对准确地判断每份期刊的质量,并将其反映在他们的评价结果中。但受访者难免会受到一些个人偏见的影响,使他们无法客观感知期刊的真实水平,大量的偏见积聚会对最终结果产生严重干扰。现有研究中对受访者偏见的预防、测度和控制工作还不是很到位,常见的受访者偏见有以下几类:(1)曝光效应(ex⁃posureeffect)。受访者更为熟悉的期刊往往会得到更高的分数,最终的排名会在一定程度上受到受访者对期刊的熟悉度或兴趣度的影响,而不仅仅是它的质量、对该领域的理论或实践贡献等。因为曝光效应增强了他们对期刊质量的认知,与不太熟悉的期刊相比,更为熟悉的期刊标题使个体形成了一套有利的认知和情感联系,这些联系在他们做出排名决定时会被纳入考虑【1】,他们的决定只是受到潜意识刺激的影响,这种刺激减少了排名过程中的认知负荷【28】。(2)出版偏见(publicationbias)。在特定期刊上发表过论文的受访者比其他受访者更有可能给该刊打高分,因为人们一般会为自己在哪里发表过论文而感到自豪【22】。有研究证实,那些向期刊投稿的受访者对期刊的评价平均高出那些没有投稿者0.32分【30】。也有研究发现,尽管活跃的金融研究人员并不偏向于高估他们有发文的期刊质量,但偏向于低估他们没有发文的期刊质量【23】。(3)顺序效应偏差(order-effectbias)。即受访者容易高估期刊列表开头的期刊而低估处于列表末尾的期刊,这种偏见极大地有利于那些位于列表前部的期刊【13】。(4)其他偏见。包括地域偏见、文化和语言偏见、领域偏见、机构偏见等,这对那些在受访者样本选择上地域集中、机构同质、身份相近的研究来说,很容易产生系统性偏差,评价结果的可信度将大打折扣。以上这些偏见在目前的研究中普遍和客观存在,特别在调查都是匿名进行的情况下,这些问题如果得不到有效解决,将会成为人们批判专家调查法的有力证据,但遗憾的是,目前绝大多数的研究对这些偏见并未给予足够的重视,这也提醒我们,单一方法的简单期刊排名应被谨慎使用。建议采取有效措施识别并控制上述感知偏见,提高评价技术的整体严谨性。这是一个系统性和协调性的工作,不是仅靠一项或几项措施就能完美实现的,如仅控制曝光效应会降低受访者对期刊的熟悉度,而在相应期刊上发表过论文又是受访者熟悉期刊的重要渠道。受访者样本的选择应在评价目的的指导下,严格遵守抽样和统计程序规范,防止有偏采样。应在评价时量化测量(如Likert量表)受访者对期刊的熟悉程度【28】并识别其与期刊的详细利益关系【30】(编委、审稿人、作者、读者等),在数据分析时应在统计检验的基础上,以保证评价效度为核心,综合权衡这些因素,决定具体的偏见控制措施。研究者如果采用封闭式或半开放式列表向受访者呈现被评价期刊,则应使用期刊名称随机或不同排列顺序的列表以避免顺序效应【13,17】。此外,对地域、文化、语言、领域、机构等的偏见需要通过增大样本容量、随机或概率抽样等方法去解决,并在数据分析时进行必要的统计检验。4.3评价过程的规范。首先是网络环境下如何应对低回复率的问题。网络工具的出现为专家问卷调查带来了极大便利,但大量研究表明,网络调查的回复率通常会低于传统调查方式【36】,可能产生有偏差的调查结果。当对调查作出回复的受访者与被邀请参与但没作出回复的受访者间存在系统性偏差时,就会出现回复偏差(responsebias)。在30项研究中,除3项未说明回复率外,其他研究所报告的回复率普遍不高,其中3项以邮寄纸质问卷方式调查的回复率分别为21%、39%、53%,其余24项以网络方式调查的研究虽然最高回复率为54%【30】,但回复率超过40%的仅有6项,平均回复率仅为30%。虽然上述数据不足以说明网络调查方式的回复率普遍低于传统调查方式,但较低的回复率对问卷调查的效率和质量影响却是巨大的。部分研究者已经意识到了低回复率的影响,他们会在问卷发出一段时间后专门向那些未回复者单独发出提醒。Zsidisin等关注了受访者的回复偏差,比较了现场受访者和第一波网络受访者与第二波网络受访者间的差异。其次是多数研究缺乏问卷预测试环节。对问卷进行预测试是调查类研究的基本要求,一方面为了发现问卷设计中是否存在一些措词或表达含糊不清的情况,避免受访者的理解与问题设计的初衷产生巨大差异;另一方面通过预测试收集的部分数据可以对问卷的信度、效度以及区分度等进行分析以及检验调查方案是否可行等。在30项研究中仅有McKercher、Gorman、Currie、Ku等4项正式问卷前在一定范围内进行了预测试,其余研究均忽略或未报告预测试这一重要环节。建议采取一定措施提升网络调查回复率并重视对问卷的预测试工作,使评价过程更加规范。人们不参与调查的原因可能是多方面的,如问题过于敏感,不信任研究者,某些群体可能过于忙碌而没有时间参与,或者接受调查并不能带来任何好处等,所有这些因素在研究者设计和组织问卷前都应仔细考虑,可以设置问卷联络人【2,14】、请学术机构负责人督促其成员参与问卷【23】、在问卷指导语中详细说明问卷意义并承诺保密【16】以及给受访者一定报酬等。在问卷回收过程中,研究者应及时对是否存在回复偏差进行测试,最常用的方法是比较受访者和那些未回复者的人口统计学特征,由于匿名调查无法识别未回复者,因此研究者通常会将所获样本的特征与所研究人群的已知特征(如先前研究所发现的特征)进行比较。另一种方法是比较经多次提醒后不同波次(waves)受访者的回答情况【37】,假定那些经一波甚至几波提醒才作出回复的个体比那些在第一时间作出回复的个体更类似未回复者。通过这些方法,研究者可以比较不同波次受访者群体的特征和回复情况,去预测未回复者是否会存在潜在地改变所收集的现有数据的情况,以决定是否继续提醒以及是否有针对性地扩大样本规模。4.4评价判据的理解。首先,期刊评价判据缺乏统一定义。在30项研究中评价判据呈现明显多元化,但很少有研究对这些判据进行明确定义,少有的两项研究中出现的部分判据定义与其他研究矛盾【9,29】,判据的使用缺乏一致性。例如,有的研究声称是在评价期刊质量,但实际却在评价相关性或重要性【21】,有的混淆了质量、声望和影响力,多数声称评价期刊质量的研究最终评估的是人们某方面的看法,而不是期刊的可测量质量【18】。其次,对判据的不同理解会产生不同的评价结果。这容易给那些依赖期刊排名的人们以及那些试图将两项或多项研究进行比较的人们带来困惑,因为任何判据都有其优缺点,对判据的自由解读会导致任何人都无法令人信服地证明其结果的合理性。Smith等在其研究中介绍了2007-2008年澳大利亚LIS研究人员通过参与政府的“研究质量框架(RQF)”及其后续替代项目“澳大利亚卓越研究(ERA)”对LIS期刊进行排名的过程,由于LIS团体调查的期刊评价判据强调“重要性”,而澳大利亚教育科技部门文件中的判据强调“质量”,判据理解的不一致使双方产生重大分歧。许多研究者刻意避开判据问题,直接将其交给了受访者,对判据不做任何定义,让受访者自由解读,并声称这是基于感知的研究的标准做法【12】。但人们的感知水平是有差异的,不同群体中的差异可能更明显,缺乏统一的评价判据可能会导致同一领域期刊在不同受访者样本中的评价结果大相径庭,受访者可能会以不同的方式或从不同的角度回答同一项问卷,大大降低评价信度。第三,重要性与质量不能划等号。期刊质量感知的地区差异以及学术机构管理者武断使用某一期刊排名决定聘期和职务晋升等做法,使研究人员不得不在某些特定期刊上发文,这决定了对受访者具有高影响的或重要的期刊不一定必然具有高质量,同一篇论文在一本期刊上发表可能被同行认为更重要,或者可能被认为比发表在另一本期刊上有更大的学术影响力。Shewchuk等请受访者对16个决定期刊质量的因素按重要性进行排序,结果发现,受访者一般认为,有14项判据都非常重要,但这些判据中没有一个能单独解释期刊重要性9%以上的变量,虽然受访者使用这些判据来判断期刊的整体质量,但这些判据自身与评价时分配给期刊的重要性却无关。建议加强对期刊评价判据的研究,对期刊质量、影响力、重要性、贡献、声望、价值、相关性等出现频次较高的术语进行清晰定义和辨析,明确界定其内涵和外延,对它们之间的关系和涉及的评价维度进行详细说明,这是以专家调查法开展期刊评价的必要前提。可参照叶继元教授提出的全评价理论模型【38】,根据这些判据的含义将它们具体落实到形式评价、内容评价和效用评价三个维度上,使评价更加规范。学术共同体应在广泛讨论的基础上,加深对这些判据及其重要程度的理解,努力形成相对统一的价值观和共识,为提升评价的整体认可度打好基础。

5结语

通过对国外近十五年来30项使用基于感知方法评价期刊的研究进行分析后发现,此类方法已经有了比较稳定、有效的做法,各评价要素也已具备了明显特征。被评价期刊来源包括从以前学者研究中提炼、从网络搜索、从专家建议、从重要数据库收录中整理以及受访者提供等,研究者一般通过封闭式、开放式和半开放式三种方式向受访者呈现被评价期刊;受访者样本一般从随机选择期刊作者、从行业组织选择研究人员以及从高校选择教师等渠道获得;从评价过程来看,2006年后所有研究均采用了网络调查方式,多数研究采用Likert量表或“前五法”,请受访者对期刊进行打分、排序或分类,考察受访者对期刊的熟悉度是多数研究者首要考虑的问题;期刊质量、影响力、重要性、贡献、声望、阅读偏好、投稿偏好、价值、相关性等的一项或几项在研究中被用作受访者对期刊的评价判据。多数研究虽然提出了判据,但未做具体说明或定义,把对判据的理解交给了受访者,认为每个受访者在回答问题时都会有自己的定义。从不同评价判据的重要程度或权重来看,人们在评价时对不同评价判据的重视程度也是不同的。目前的研究还存在如下问题:在期刊分组方面,期刊领域细分仍有欠缺,期刊的年龄、学科属性及发行特征等会直接影响受访者的熟悉程度。受访者会受到一些个人偏见的影响,如曝光效应、出版偏见、顺序效应、地域偏见、文化和语言偏见、领域偏见、机构偏见等,但在目前的研究中这些并未得到足够重视。评价过程的一些环节还不够完善,普遍缺乏对问卷的预测试,对网络环境下如何应对低回复率的问题缺乏足够探讨。在评价判据的理解方面,由于判据缺乏统一定义,受访者对判据的不同理解将导致不同的评价结果。这些问题如果不能得到有效解决或控制,将大大减弱专家问卷调查法的可信度。建议在今后的研究和实践中应进一步细分评价期刊领域,采取有效措施识别并控制受访者感知偏见,有效提升网络问卷回复率并重视对问卷的预测试工作,加强对期刊评价判据的研究,不断提高基于感知的期刊评价方法的整体严谨性和规范性。虽然这项研究的重点是基于专家感知的期刊评价,但必须强调的是,本研究并不主张仅使用专家调查一种方法评价期刊,因为评价期刊的单一方法是不完整的,应综合考虑多种可验证的方法、多途径的数据来源和多维度的评价视角。介于学术期刊的重要性,从学科利益相关者的角度理解学术期刊在科学发展中的作用至关重要,所有的评价方法都应该根据机构的需要和目标做出合理的判断,从而形成服务于多种目的的期刊评价结果。

作者:胡绍君 郑彦宁 成颖 单位:1.南京大学 2.东北石油大学图书馆 3.中国科学技术信息研究所