论文学术创新力特征研究

时间:2022-05-06 05:04:01

论文学术创新力特征研究

1引言

HeatonJeremyPW指出创新力在学术部门中发挥着非常重要的作用【1】,对论文的学术创新力进行评价有助于发现创新价值高、能较大程度推动学科发展的论文,从而促进科研人员的学术创新。目前关于学术创新力的研究成果虽然不多,但学术创新力评价正在逐渐引起国内外学术界的关注。目前与创新力评价相关的研究较多,包括高校创新力、学科创新力、企业创新力等,但直接研究学术创新力评价的文献非常少。因此本文在进行文献搜集和参考时,不仅参考了学术创新力评价相关的文献,还参考了与学术创新力相似的学术影响力以及学科创新力等方面的文献。

2相关研究

目前,论文的学术创新力评价方法主要分为两大类,分别是以同行评价为主要手段的定性评价法和基于文献计量学的定量评价法。2.1同行评议法。同行评议最早源于1416年威尼斯共和国邀请同行专家对专利进行评审,该方法被大规模采用是在19世纪的美国,由美国科学基金会组织和实施。之后,德意志的联合研究会、欧洲科学基金会、加拿大的社会科学与人文基金会等组织都开始采用同行评议的方法,同行评议逐渐成为被国际学术界广泛采用的一种学术评价手段。同行评议这种评价方法虽然被广泛使用,但一直存在着较多的弊端。不同专家本身的思维认知和掌握的知识体系不同,对同一问题按照同一标准产生的观点也存在不同,并且还有其他因素可能会限制专家的判断,因此该方法易受到专家主观性的影响。另外,当面临海量评价数据时,专家评议的速度慢,耗时长,效率低下,这些都是制约同行评议方法使用的因素。2.2文献计量法。文献计量法就是基于与创新力评价相关的量化指标来衡量论文创新力的大小。在目前的评价方法中,学术创新力评价的文献计量法包括单个特征指标评价法、以影响力测度创新力法、指标体系评价法、基于论文内容的评价法、构造创新力评价指标法五类方法。(1)单个特征指标评价法【2-3】。这类方法主要包括用h指数,影响因子等单个特征指标来衡量学术创新力。单个特征指标能在某种程度上体现出论文的质量,但h指数高的作者产出的论文并不一定都具有很高的创新力,影响因子高的论文质量高,但质量高的论文可能是对之前的文献进行了归纳总结,也可能是对现有的理论进行了实证研究,其创新力不一定高。因此,仅用h指数或影响因子这些单个特征指标进行论文的学术创新力评价存在不合理性。(2)以影响力测度创新力法【4-7】。目前,有很多学者将创新力和影响力等同,认为影响力大的论文其创新力一般都比较高,而影响力评价的方法体系和指标体系已经比较成熟,所有很多学者直接用学术影响力的指标和方法进行学术创新力的评价。但实际上学术影响力和学术创新力之间不能等同,影响力高的论文创新力不一定高,因此直接使用影响力测度创新力存在不科学性。(3)指标体系评价法【8】。这类方法从多个不同的角度提取与学术创新力相关的指标,利用相关指标构建用于学术创新力评价的指标体系,之后通过熵权法、层次分析法或专家评测法确定各指标的权重,最后加权求和得到创新主体的学术创新力。该方法虽然分析角度比较完整,但各个变量对学术创新力的作用机制非常复杂,简单使用加权求和的方法测度创新力也存在不合理性。(4)基于论文内容的评价法【9】。主要通过自然语言处理的手段,从题录数据或者全文内容中提取出能表征论文创新点的数值特征或者文字特征,得到同领域论文创新力的相对大小。基于论文内容的评价法指标提取过程复杂,且通常只能对同领域的论文进行评价。(5)构造创新力评价指标法【10-15】。在关于学术创新力评价的研究中,还有一些学者基于引文或者知识网络构造了新的学术创新力评价指标,用构造的指标值指示学术创新力的大小。构造的某些指标存在定义方式过于直白、可解释性不强等缺点,该方法考虑到的数据维度有限。2.3研究现状述评。通过分析国内外学术创新力评价的研究现状,发现目前的研究还存在许多不足。在学术创新力影响因素的相关研究中,文献大多集中在对论文影响力的影响因素的研究上,鲜有文献真正结合学术创新力的概念、特点和过程对学术创新力的影响因素进行分析和实证研究。不管使用定性法还是定量法对学术创新力进行评价,都需要按照一定的指标和准则做出判断,因此结合创新力的特点提取出真正影响学术创新力的因素非常有必要。通过上文对学术创新力评价方法研究现状的分析可知,与其他四类定量评价方法相比,构造指标体系法只使用一个构造的指标衡量论文的学术创新力,可操作性强。这类方法从引文网络或者知识网络的角度出发,探究学术创新力的相关规律,能相对有效地对论文的学术创新力进行评价。因此本文尝试使用构造指标法构造学术创新力特征指标体系。目前有代表性的构造指标法主要包括下面三种:“S指数”测度法【11】、基于期刊组合的测度法【14】、动态网络测度法【15】,在这三种方法中,基于期刊组合的测度方法认为只要在参考文献中对期刊进行了新的组合,即实现了创新,目前这种定义方式过于直白,可解释性不强,并且这种方法的计算过于复杂。“S指数”评价法和动态网络评价法都符合科学简单、测量维度单一、基于结构属性等原则【11】,能有效地对论文的学术创新力进行评价。相比较而言,动态网络评价法不仅关注了论文的参考文献和引证文献,还关注了引证文献引用结构的特征,更能体现出论文对学科知识的革新程度。另外,动态网络评价法的被引频次远大于“S指数”评价法,该方法的被认可程度高。图书情报领域的理论和方法体系相对比较成熟,大部分工作都是对现有工作的革新,动态网络测度法更偏向于测度常规性革新,因此本文选择动态网络测度法对论文进行创新力值的标注。动态网络测度法如图1所示,图1是论文的引用结构图,在图中,中间的灰色方块代表论文,左边的圆形代表论文参考文献的集合,右边较大的圆形代表论文的引证文献集合。根据引用结构,引证文献有三类:图中绿色的方框表示引证文献既引用了论文i又引用了论文的参考文献j,红色方框表示引证文献只引用了论文i,蓝色方框表示引证文献只引用了论文的参考文献j。图1学术创新力的动态网络测度法该文章认为,在论文的引用结构中,如果引证文献只引用了该论文,没有引用论文的参考文献,证明该论文对现有理论、技术的革新程度较大,即该论文具有很大的创新力。如果该论文的所有引证文献既引用了该论文,又引用了该论文的参考文献,就认为论文对于已有知识理论的改变很小,该论文几乎不具有创新力。据此将创新力公式定义如下:D=ni-nkni+nk+nk(1)其中ni表示引证文献只引用了你的论文,nj表示引证文献既引用了你的论文,又引用了你的论文的参考文献,nk表示引用者只引用了你的参考文献。该值基于引用结构度量了创新性,该值的取值范围是[-1,1],值越接近于1,说明文章的学术创新力越强。认为被引频次为0的文章不具有创新力,创新力值记为-1。

3学术创新力特征指标构建

学术创新力归纳为创新主体通过创新过程产生新理论、新方法、新应用等新知识的能力。根据概念可知,学术创新力表示的是创新主体产生新知识的能力,这种能力在创新过程中产生,最终体现在创新成果中。因此,要对学术创新力进行测度,需要对创新过程和创新成果进行研究,提取出能表征创新力值的特征。创新过程可以分为三个阶段【8】:创新积累阶段、创新产出阶段和创新扩散阶段。相应地,根据创新过程将学术创新力分为创新吸收力、创新产出力和创新扩散力。对学术创新力进行评价,不仅要考虑跟创新过程有关的指标,还要考虑能影响学术创新力的内在因素,这些因素无关创新过程或创新成果。综合上面的分析,将学术创新力的一级指标归纳为创新吸收力指标、创新产出力指标、创新扩散力指标和学术创新力评价的其他内在影响指标。如表1所示。3..1创新吸收力指标。学术论文的创新并不是凭空想象,而是具有继承性和发展性,科研工作者在进行科学研究时需要对同一领域的现有知识进行采集、整理和吸收。学术创新的吸收阶段依托的主要介质是跟研究内容相关的参考文献【16】,高质量的参考文献能为创新主体提供有价值的知识理论和方法体系,激发学者新的想法,为论文创新的前期工作奠定基础。因此,本文将参考文献的相关特征作为创新吸收力的评价指标,评估论文在创新过程中对现有知识的吸收和采纳程度。采用参考文献数量表征吸收数量,参考文献被引频次和参考文献期刊影响因子均值表征吸收质量,参考文献中近三年论文占比表征吸收速度,参考文献的学科广度分布表征吸收的广度。学科分布广度计算是将论文参考文献的分类号作为参考文献所属的学科领域,使用参考文献来自不同学科的程度表示创新吸收的广度。信息熵是香农提出来的用于量化信息的指标【17】,用于描述状态的不确定程度。本文借鉴信息熵的概念,定义了如下公式来表示论文d创新吸收的广度:H(d)=-∑i=1kpilogpi(2)其中k是论文d的参考文献所属的学科类别数,pi是参考文献中属于第i类的论文篇数与总参考文献数量的比值。当所有的参考文献都来自同一学科领域时,该公式的值为0。该公式的值越大,表明参考文献涉及的学科领域越广,创新吸收的广度越大。3.2创新产出力指标。创新主体在对已有的学术成果进行借鉴和吸收后,会激发脑内对某一问题的思考和灵感,从而在原有的研究基础上创造出新方法或者新理论。创新主体的创新过程无法物化,但科研成果是创新的最终结果,也是创新力最直接的表现形式。在研究成果中,作者可能基于之前研究方法的不足,对方法做出了改进;或者将之前零碎的知识融合创新,构建出某研究领域完整的知识体系;或者通过对学科基础知识的研究,提出新的观点理论。科研成果体现了创新主体思考的过程与结果,因此,本文将创新成果即论文的各种特征作为创新力评价的特征指标。除了采用论文的字数、论文所在期刊的影响因子和期刊论文被引频次的均值表征创新产出力外,还采用论文和参考文献的相似度表征论文的新颖性,论文涉及的主题范围表征论文主题分布的广度。论文新颖性和论文主题分布广度的选取依据和计算方法如下:(1)论文新颖性一般来说,论文内容的新颖性可以通过论文和其他文献的相似度来表示。若相似度较高,证明论文和其他文献的差异度小,文章的新颖性低。相反地,低相似度意味着论文的高新颖性。来自不同领域的论文之间肯定存在着较低的相似度,依据其他所有论文计算出来的新颖度值不准确。通常认为论文和其参考文献所在的研究领域相同或者相似,所以本文借鉴文献【18】的公式,用论文和其参考文献之间的相似度表示新颖性:Novelty(d)=1|DR|∑d∈DR∑w∈Vp(w|d)logp(w|d)p(w|d')(3)其中DR是论文的参考文献集,V是根据论文及其参考文献的内容构建的无重复词汇集,p(w|d)是单词w在论文d中出现的概率,定义如下:p(w|d)=num(w|d)∑w∈Vnum(w'|d)(4)该公式的原型是KL散度【19】(Kullback–Leiblerdiver⁃gence,KLD),它用于衡量两个概率分布之间的差异性。在这里该值用于衡量单词在论文和参考文献中分布的差异,该值越大,论文和参考文献的相似性越低,论文的新颖性越高。(2)论文主题分布的广度每篇论文虽然都有核心的研究目标,但不同论文涉及到的主题范围不同。论文用到的主题概念越多,说明论文涉及的学术领域越广泛,论文具备创新力的可能性越高。因此,本文将主题分布的广度作为创新产出力评价的一个指标。借鉴文献【20】中的公式,论文主题分布的广度定义如下:diversity(d)=1|Z|∑zi∈Z-p(zi|d)logp(zi|d)(5)其中Z是论文涉及到的主题集合,P(zi|d)表示文档d所分配的主题z∈Z的概率分布。此概率分布可以使用主题模型LDA【21】来计算得到。LDA是一种概率生成方法,输入论文的内容和主题个数,可以得到文档在各个主题下的概率分布。3.3创新扩散力指标。学术创新的过程表现为“吸收—创新—扩散—再创新—再扩散”,学术创新扩散是指科研工作者的学术成果被他人引用和借鉴,催动其他学者新想法的涌现。知识创新后的扩散程度和范围能反映出学术创新的价值和被认可度,是学术成果创新力最直接的表现形式。本文采用的科研成果形式是学术论文,论文创新产生的影响可以通过被引用的特征量化。因此,本文使用引证文献的相关特征来测度创新扩散力。具体包括采用被引频次表征扩散数量,采用引证文献的平均被引频次和引证文献期刊影响因子的均值表征扩散的质量,采用论文扩散到不同学科的程度表征扩散广度,扩散广度的计算方法同创新吸收的广度,在计算时需把参考文献的相关特征替换为引证文献对应的特征。3.4学术创新。力其他内在影响指标以上的评价指标是基于论文的创新过程提取出来的,实际上除了以上指标,还有一些其他因素会影响论文的创新力。本文选取合著者因素、作者声望、论文受资助情况三个方面分析影响学术创新力的特征。合著因素主要是通过合作者数量和合作者所在机构数来表征。作者声望主要通过第一作者总被引频次、h指数、参与发表的文章数量,论文最大被引次数,平均被引频次五个方面来表征。基金资助主要分为不同的等级:重大部级基金、国际级基金、省部级基金、一般基金和无基金。

4实证分析-以图情学为例

4.1数据来源。核心期刊刊载的论文质量较高,具有一定程度的学术创新力,因此本文研究的期刊论文选自图书情报领域的18种核心期刊,他们分别是:《情报科学》,《中国图书馆学报》,《图书情报工作》,《大学图书馆学报》,《图书馆杂志》,《图书馆论坛》,《现代图书情报技术》,《图书馆建设》,《图书情报知识》,《情报资料工作》,《情报学报》,《图书馆》,《情报理论与实践》,《情报杂志》,《图书馆工作与研究》,《图书馆理论与实践》,《图书馆学研究》,《图书与情报》。本文选取发表时间在2012-2016年期间的论文,选择这个时间段发表的论文主要有三个原因,一是时间较新,这个时间段发表的论文能有效反映出图书情报领域最近几年的创新状态。二是时间间隔较长,获取到的论文数量多,有利于实证分析。三是提取的论文特征包括引证文献相关的特征,而论文的被引高峰在之后的三到五年,选用这个期间发表的论文得到的特征数值更准确,有利于模型的构建与检验。CNKI作为国内权威的知识服务平台,收录了上述提到的18种期刊,本章用到的数据都是从CNKI中获取到的。从每种期刊中随机选择50篇论文,共获得900篇论文,剔除作者是机构单位而非个人的论文和特征缺失较多的论文,共得到期刊论文855篇。4.2学术创新力评价值的计算。利用从CNKI中获取到的数据,根据动态网络测度法的公式(1)计算出每篇论文的创新力值。855篇论文的创新力值分布如图2所示,横轴是论文的标号,纵轴是论文对应的创新力值。从图中可以看出,选取论文的创新力值分布较为分散,这有利于本文模型的构建和实证分析。有少量文章的创新力值是-1,这些文章几乎没有创新力,文章被参考的价值较小。有部分文章的创新力值达到1,这些文章具有很高的创新性,对图书情报学科的发展起到了很大的推动作用。从图中可以看出创新力在0.5~1之间的论文数量最多,有471篇,占比55%。创新力在-1~-0.5之间的论文只有86篇,占比10%。本文选择的动态网络测度法偏向于测度常规性创新,即新论文对已有知识的革新程度。本文选取的论文均来自图书情报领域的核心期刊,这些期刊含专业情报信息量大,期刊刊载的论文质量高,能代表专业领域的发展水平,是推动图书情报领域发展的核心力量,因此核心期刊的论文大部分都具有一定程度的常规创新性,图3表明本文选取的数据是有效的。4.3学术创新力。评价的特征值计算对于单篇论文,从CNKI中可以获取到论文的作者、作者所在的单位、摘要、基金名称、分类号、参考文献的数量、被引频次等信息,同时可以获取到所有参考文献、引证文献的具体信息,对于论文的每个作者也能获取到作者的研究方向、发文数量等。由于本文选取的论文数据量大,特征难以直接提取,所以采用Python爬虫的方式获得了需要的字段。在所有的22个特征中,有些特征数值是可以从CNKI中直接获取到或者根据基本字段信息进行简单计算得到的,有些特征需要经过比较复杂的处理才能获取。易获取到的字段信息在表2中(以“电子商务中在线评论内容对评论有用性影响的实证研究”这篇文章为例)。除了以上指标,还有一些指标的处理和计算比较复杂。对于参考文献来自不同学科的程度X5这一指标,我们根据参考文献的分类号划分参考文献所属的学科类别,划分好学科类别后根据公式3-2计算出吸收的广度这一指标值。以“电子商务中在线评论内容对评论有用性影响的实证研究”这篇文章为例,该文章的参考文献有8篇,其中5篇是外文文献,无法获取其分类号,其余3篇的分类号分别是“F49”,“F274;F49”,“F224;F274;F713.36”。对于分类号缺失的情况,将分类号补充为文章本身的分类号,因为一般认为文章和其参考文献所属的学科领域相似,这里将5篇的分类号补全为G202。当分类号的前三个字符相同,即将文献归为同一学科类别。对于有多个分类号存在的文章,可以随机选择一个分类号划分其所在的学科类。对于指标X14采取相同的处理办法。在计算论文的新颖性X7时,利用的是论文和其参考文献的相似度。由于获取全文比较困难,本文只获取文章的标题和摘要,因此将文章的标题和摘要作为文章的主要内容,并基于标题和摘要计算相似度。整个公式的计算是基于单词的,本文首先使用Pyhton中的中文分词组件“Jieba”对标题和摘要进行分词,继而构建词集、进行相似度计算。需要注意的是,论文的有些参考文献是英文文献,很难计算中文词汇和英文单词之间的相似度,因此本文计算相似度时只使用了中文文献。在计算论文主题分布的广度X8时,需要先使用LDA主题模型计算文档在主题下的概率分布。这里仍然将论文的标题和摘要作为主要内容,使用Jieba组件对每个文档进行分词。运行LDA主题模型时,将文档的分词列表转化为向量作为输入,设置主题个数是20,每个文档在主题下的概率分布以向量的形式输出。以上几个比较难计算的字段信息见表3(仍以“电子商务中在线评论内容对评论有用性影响的实证研究”为例)。44.4单个特征与学术创新力的相关性分析本部分用散点图,考察各个单个特征与学术创新力的相关性,得出三类特征,分别是单个特征与学术创新力无明显相关性(14个),部分相关性(7个)和密切相关(1个)。4.4.1无明显相关性。以参考文献所在期刊的影响因子X3的均值与创新力的关系散点图为例,无明显相关性的特征散点图如图4所示。出现类似散点图的特征还有参考文献中近三年的论文占比X4,参考文献学科分布的广度X5,论文的字数X6,论文的新颖性X7,论文主题分布的广度X8,发表期刊的影响因子X9,发表期刊的均被引量X10,被引频次X11,扩散到的学科广度X14,第一作者论文的总被引频次X17,第一作者发文数量X19,第一作者论文的平均被引频次X21,基金等级X22。理论上认为参考文献来自不同学科的程度越大,作者参考的各个领域的知识越多,更易从知识的交叉点中找到创新点,但从学科分布广度X5和创新力的关系散点图中没有发现该规律,论文主题分布广度X8以及扩散到的学科广度X14也同样与创新力没有直接相关关系。新颖性X7高的论文可能从新的角度去挖掘了某个问题,但不一定具有理论或者实践上的价值,所以与按照动态网络法计算出来的创新力没有直接相关关系,这说明,并不是新颖性越高,创新力越高,新颖性不等同于创新力。发表期刊的影响因子X9高的文章的创新力值也可能比较低,影响因子低的论文的创新力值也存在比较高的情况,这进一步说明,仅从影响因子来评判论文创新力是不科学的。发表期刊的均被引量X10与影响因子X9密切相关,这一特征与创新力也没有直接关系。论文被引频次X11,第一作者论文的总被引频次X17,以及第一作者论文的平均被引频次X21与创新李均无直接关系,这些特征一般用来衡量影响力,这又一次论证了影响力高的不一定创新力强。此外,基金资助X22与创新力也无明显关系,这说明,至少在图情领域,是否获得基金资助并不直接影响创新力。4.4.2部分相关性。(1)参考文献的数量X1与平均创新力相关性的特征散点图如图5所示。图5参考文献的数量与平均创新力从图5可以看出,随着参考文献数量的增加,文章的创新力值减少,当参考文献的数量大于20时,该指标与创新力的相关性不明显。这说明一些原创文章提出了新的理论和观点,参考文献较少,但是当参考文献达到一定数量时,有些论文创新力高,表明这些论文在参考了大量文献的基础上提出了自己的改进方法,有些论文创新力低,表明这些论文只是对前人的工作做了一些综述和应用,没有提出新的理论和观点。这种状况与事实也是相吻合的。(2)所有参考文献被引频次的均值X2和创新力值的关系如图6所示。参考文献被引频次的均值X2被引频次的均值大部分集中在0-200之间,在这个区间中,两者的相关性不明显。当被引频次的均值大于600时,对应的文章基本都具备较高的创新力。图6参考文献被引频次的均值与创新力(3)引证文献被引频次的均值X12和创新力值之间的关系如图7所示。从图中观察到,引证文献被引频次的均值集中在0-6之间,在这个区间范围内两指标之间的相关性不明显。当x12的取值大于6时,大部分文献的创新力值比较高。这说明当论文的引证文献的质量都比较高时,该论文一般具有较高的创新力。图7引证文献的平均被引频次与创新力(4)合作者的数量X15与论文创新力值的关系如图8所示。论文的创新力随合作者数量的增加而减小,当合作者数量超过4时,论文创新力会随着合作者数量的增加而增加,当合作者数量超过8时,论文的创新力值又降至最低。(5)合作者所在的机构数X16与创新力的关系如图9所示。从图中可以看出当机构数为2时,论文的创新力达到最低,机构数超过2时,论文的创新力随机构数增加,此时机构数和创新力值呈正相关关系。(6)第一作者的h指数X18与论文的创新力之间的关系如图10所示。观察图发现,第一作者h指数为0的论文几乎不具备创新性。h指数在0-15之间的论文的创新力值比较稳定,保持在0.5附近。当h指数大于15时,论文作者的声望很高,但论文的创新力值相差较大,说明学术地位较高的作者其产出的创新力不一定很高。(7)第一作者论文的最大被引量X20与创新力值的关系如图11所示。从图中可以看出,在一定范围内,创新力值随最大被引量的增加而增加。超过某个范围后,论文的创新力值随最大被引量的增加呈下降趋势。4.4.3密切相关。引证文献影响因子的均值X13和创新力的相关性关系如图12所示。图的大致趋势是,创新力值随着引证文献影响因子的增加在不断地增加。引证文献影响因子的均值越大,说明引证文献的质量越高,该文章为其他文章提供的参考价值越大。这个指标对创新力值有比较明显的影响。

5结论与展望

通过对单个特征与创新力值相关性的分析可以发现,大部分特征对创新力值的作用规律不明显,该结果不能说明这些特征与论文的学术创新力不相关或者本文构建的评价指标体系无效,这说明各个变量不是线性作用于创新力值,论文的学术创新力是多因素综合作用的结果,但是多因素对创新力的综合作用机制比较复杂,使用指标体系法中的加权求和得出的结果也存在不合理之处。因此,使用机器学习模型让数据以自适应的方式学习根据各个特征评价创新力值很有必要,未来将对这类方法进行相关的探索。

作者:钱玲飞 贺婉莹 杨建林 单位:1.南京航空航天大学经济与管理学院 2.南京大学信息管理学院