多元统计论文范文10篇

时间:2023-03-31 11:44:12

多元统计论文

多元统计论文范文篇1

案例式教学法始创于美国哈佛商学院,其科学性、创新性已经被我国的教育工作者认同和接受,并在很多高校的教学中得到广泛应用。案例式教学法是一种在老师引导下学生自己解决实际问题的学习方法[1]。统计案例教学法,就是根据统计学科自身的特点、教学目的及教学要求,在教师的指导下,将统计课程中实际案例的处理过程搬入课堂,通过例题讲解渗透知识点,引导学生进行思考、分析、讨论和交流。通过学生的独立思考或集体讨论,促进学生对教学内容的理解,进而提高学生分析问题和解决问题的能力。该方法用于应用性特别强的多元统计分析课程,效果尤其明显。

2石油案例教学特点

首先,统计案例素材来自于石油院校的各院系的真实课题。整个解题过程涉及到大量的专业背景,完整的教学过程可以有效地将统计教学培养和专业教学培养结合起来,对于学生将来就业、提高解决实际问题的能力有很大的帮助。其次,案例分析是进行案例教学的重要环节,它是以学生为主体对案例进行辨析并得出自己结论的一种创造性教学活动。以石油为背景的案例教学过程,不仅可以作为多元统计分析课程的教学主体,还可以作为各专业学生实习实训的课题,同时也可以为毕业设计提供一定的参考。最后,任何一个统计问题都需要论证和检验,这是至关重要的一步。对于所选择的案例,结果都是客观存在的,这就促使学生思考自己所做的结论是否具有可行性。如果学生所得到的结论比预期的结果要好,就可以适当考虑统计模型的可行性及与原始结论的差异性。

3案例教学分类

依照案例性质可分为解题型、分析型。解题型是指为了使学生正确理解统计原则和具体方法而采用的教学案例,其特点是通过实例性习题、例题进行具体的计算,简单地体现出多元统计学中的原则、定义、原理和方法。分析型案例是指由教师提供背景和材料,并具有明确针对性地提出几个问题,引导学生自主思考,研究问题存在的状况、条件以及问题的发展演变趋势,最终提出解决问题的办法。依照案例内容多少可分为专题型和综合型。专题型是针对某一特定问题或问题的某个方面的案例,也称专门型案例。综合型案例是对统计全局性关键性的问题进行全面研究或分析,涉及范围广泛,知识点含量多。综合型案例的特点是具有全面性、综合性和系统性。

4案例式教学法三个步骤

4.1提出问题。

案例教学当中的案例必须具备真实性、可操作性、知识体现性这三个要素。真实的案例可以激发学生主动解决问题的积极性,开阔学生的眼界,同时为将来处理实际问题做好有效的前期铺垫。可操作性是指案例应该有合适的解决办法,结果不能含糊,整个过程尽量思路清晰。知识体现性是充分考虑到我们的目的是教学,因此选择案例时候需要挑选能充分体现多元统计分析方法及知识点的案例。

4.2解决问题。

整个过程的主体是引导学生解决问题。对于陌生的问题学生会提出各种各样的解题方案,作为教师不能只按照自己的思路想法去讲解,要充分肯定学生的思维能力及创新能力,总结利弊,再借助统计软件向学生演示,讲解问题的整个过程。讲解的同时注重理论的渗透和方法的总结。

4.3实验操作。

通过案例的演示,明确具体要求,由学生运用学过的知识和方法,独立地分析和解决问题。可以考虑让学生进行分组讨论,鼓励学生充分发表白己的意见,虚心听取他人的意见,最后由教师进行总结、讲评,并介绍在其他问题中的实际应用,以利于学生知识的升华。

5结论

多元统计论文范文篇2

多元统计分析的方法往往涉及大量数据的处理与运算,很多问题必须通过软件操作完成。因此统计软件的选择和教学也是多元统计教学中必须面对的问题。在众多的统计软件中SAS因其功能强大而被统计专业人员所乐道,但其不菲的价格和只租不卖的销售策略阻碍了它在高校中的流行。SPSS以其”易学、易用”的特点成为许多高校统计相关课程的首选教学软件,与SPSS相关的软件教程也较多,但SPSS不具备扩展性,不能编写新算法,只能使用系统提供的功能,不利于学生创新能力的培养。R语言是一个免费的开源软件,研究人员不仅可以自由地使用系统提供的各种统计方法,可以方便地查看其源代码以便深入了解统计思想的实现过程,同时在R语言社区网站有超过3000个解决各种问题的工具包可供免费下载使用。此外研究人员可以编写自己的程序来实现自己的理论和方法,因而R语言成为发展最快的软件,深受统计师生和专业人员的欢迎。基于以上优点,笔者选择R语言作为教学辅助软件。为了减少R语言软件学习的难度,方便学生快速上手,笔者利用电脑屏幕录制软件,将R语言的语法和操作以视频的形式分模块录制下来并上传网络,方便学生在课后自主学习,提高软件操作水平。此外,为提高学生的软件操作能力,笔者有意识地搜集了一些学生感兴趣的问题(如湖南省2013年数学建模竞赛暨全国大学生数学建模选拔赛试题),用R语言作为工具去分析实现,不仅能让学生熟练掌握R语言的语法和相关函数,同时让学生看到R语言高效的解决实际问题能力,提高了学生的学习兴趣。

二、强化基于可重复研究的案例教学

(一)可重复研究的内涵

所谓可重复的统计研究,就是一个研究结果既可以在作者手中生成出来,也可以“移植”到他人的平台中用同样的工具重复生成出来,可重复研究的思想来源于文艺化编程。从形式上看,可重复研究的案例或论文是一个文字与代码的混排文档,这个混排文档称为“源文件”,从源文件可以清晰地看到案例分析的过程和相应的代码。对源文件进行处理之后就可以得到“结果文件”。通过不同的设置,这个“结果文件”既可以包含代码,也可以只包含代码运行的结果,这时的结果文件与普通的分析报告就没有区别了。在R语言中,实现可重复研究非常简单,下载免费的R语言集成环境RStudio(http:///),安装免费的knitr包,就能够编写MarkDown格式的文档(可以方便地转换为网页形式),如果电脑上安装有latex,也可以生成tex文件,并最终得到pdf格式的文档。

(二)基于可重复研究的教学实践

为配合学校“应用型人才”的培养目标,强化学生的实践能力,系内多元统计分析课程的上机课时占到了课程学时的1/3,使学生有足够的时间上机练习。在教学实践中,充分利用课堂时间,重点讲解统计方法的基本思想和实现步骤,弱化统计理论的推导(仅就关键理论进行推导),利用多媒体和R语言,结合课本上的例题演示软件的操作和结果提取。让学生在课堂学习中达到理解统计思想,熟悉分析步骤,掌握重点理论结果,熟悉相关函数的目的。为开拓学生视野,培养初步的科学研究能力,教师通过精心选择优秀和便于操作的相关杂志论文,以典型案例的形式,利用R语言再现其结果。通过对论文的深入剖析,让学生感受科学研究的魅力,体会统计方法的作用,提高解决实际问题的能力。切实掌握统计方法和软件操作离不开上机实践。在上机实验之前,教师通过规定实验内容,撰写实验报告提纲,总结实验方法和R语言相关函数与参数,在学生上机实验之前发给学生学习,并要求学生在实验完成之后撰写实验报告。这一做法让学生在实验之前对实验内容胸有成竹,实验过程中有章可循,又能充分发挥所学撰写实验分析报告,调动了学生学习的积极性,提高了学习效率。

三、改革考核方式与内容

课程考核是教学活动的重要组成部分,是检验学生学习效果、评估教学质量的重要手段。传统的考核方式是期末试卷与平时成绩综合得分,但这一评价方法与应用为导向的教学并不匹配。笔者采用综合课程论文、实验报告和平时表现得出最终成绩的评价方式,在实践中效果较好。将课程的最终成绩与平时的学习、实验报告的完成质量结合起来,改变了以往“一考定终身”的考核方式,最终的成绩以不同的权重分散于学习的各个阶段,有效地破除了部分学生“平时不学,考试作弊”的心理,因而更全面、公平地考查了学生的学习效果和学习态度。五、打造网络教学平台在信息时代的背景下,充分利用网络资源,加强师生之间的网络互动,既能改变现在大学师生间缺乏有效沟通这一现状,又能激发学生的学习兴趣,提高学习效果。笔者在搜索网络协同工具时无意中了解到科研在线的团队文档库,经深入了解之后发现,这一免费的平台能够基本满足网络教学这一需要。下面,结合笔者的教学实践,对这一个平台做简单介绍。科研在线是中国科技网面向科研学者的科研应用服务门户,中国科技网是中国科学院领导下的学术性、非营利的科研计算机网络。而团队文档库则是科研在线提供的面向团队的文档协作与管理工具。教师通过注册一个账号,创建一个团队,同时邀请所有的学生加入该团队,一个由学生和教师组成的教学系统就具有了初步的轮廓。在教学过程中,教师首先将课件、参考论文、实验要求、典型案例、软件操作方法视频等相关资料上传到文档库的公共资源部分,所有学生都可以自由地下载和学习。其次,在文档库中为每一个学生建立相应文件夹,学生平时的实验报告和课程论文都以word形式上传至自己的文件夹下,由于文档库具有版本控制的功能,学生每次都可以在同一个文件中输入相关内容,系统会自动记录不同版本之间的区别,待课程结束,只需将最终版本下载下来,就可以得到属于学生自己的实验报告手册。最后,系统中的文件都记录了版本,具有评价、分享等功能,因此教师可以对学生的报告、论文进行修改指导,对优秀的实验报告、论文可以分享给所有人学习、模仿。使用文档库的另一个重要意义在于随着教授学生人数的增长,文档库中的相关资料也会越来越多,教师通过整理选出优秀的学生实验报告和论文,不仅可以充实课程的教学资料,也可以成为课程的“知识库”,使后来的学生可以站在“前人的肩膀上”,获得更好的学习效果。

四、结语

多元统计论文范文篇3

研究区位于新疆维吾尔自治区富蕴县境内,海拔2000~3200m,气候寒冷、年降水量丰富,多以降雪为主,属典型的北温带大陆性气候寒冷区。区域大地构造位置处于阿尔泰地槽褶皱系哈纳斯—忙代恰褶皱带—诺尔特复向斜内。区内构造以断裂构造为主,褶皱构造次之,构造线总体呈NW—SE向分布,NW—SE向断裂具有明显的控岩作用。近EW向和NE向断裂多属平移断层,横切地层和NW向构造。褶皱构造主要为诺尔特复向斜,因受到近EW向断裂的影响,向斜中部呈NWW向。区内侵入岩较为发育,呈较大的岩基或岩株产出,岩性以黑云母花岗岩、二云母花岗岩为主。

2土壤地球化学测量数据处理

采用Spss统计软件进行数据处理,首先对原始数据进行要求排序,然后检验数据是否服从正态分布。对不服从正态分布的数据,首先采用迭代法处理特高值以及特低含量值,或采用对数进行统计,将高值剔除,直至总体样品近似服从正态分布;然后通过直方图与正态曲线直观对比和结合峰度及偏度等参数,选择最佳分组生成特征数据,统计得出各种元素的背景含量和标准差,计算得出各元素的异常指标以及异常分带指标;最后利用Spss软件对各元素进行多元统计分析,对相关元素组合进行分类,找出元素之间的亲疏关系,探索成因联系,进而提取元素组合异常,从而更有效的圈定预测靶区。

3地球化学异常找矿模型

依据成矿背景及多元统计分析结果、化探元素异常组合特征等可建立区域地质-在地质环境和成矿条件相对比较好的区域如果有矿体存在,采用土壤地球化学测量法在此处进行找矿时,均有强弱不同的异常存在。因此可以利用地质-地球化学综合信息找矿模式,在新疆富蕴县喀依尔特河上游地区进行找矿靶区预测。

4结论

(1)采用多元统计分析方法对研究区土壤地球化学采集数据进行相关分析、聚类分析、因子分析,得出Au-Sb-Cu、Pb-Zn-As、Sn-W等元素异常组合。

(2)依据成矿背景研究及多元统计分析结果、化探元素异常组合特征,建立了区域地质-地球化学综合信息找矿模型,该模型为研究区找矿工作提供了理论依据。

多元统计论文范文篇4

建立多元化企业经济效益评价体系不仅要考虑企业财务能力,还有综合考虑企业市场竞争能力、经营管理水平和企业发展能力。可以从五个方面综合评价企业经济效益:一是获取利润的能力,包括资产利润率、资本收益率和成本费用收益率;二是参与竞争的能力,包括产品销售增长率、订货合同履约率;三是开展资产运营能力,包括资产周转率、偿债比率、不良资产比率;四是经营管理能力,包括企业领导决策水平、职工积极性和凝聚力、企业内部协调控制能力、激励约束机制;五是企业发展能力,包括企业自我积累比率、技术创新能力、人力资源质量。这五大类指标构成多元化企业经济效益评价体系,要结合定性评价和定量评价对企业经济效益进行全面系统评估。

二、多元统计分析在企业经济效益评价中的应用

多元统计分析为综合评价企业经济效益提供了重要的工具,使用多元统计分析可以把多维度的复杂问题映射到单一维度,再通过加权平均、模糊决策综合评价法等技术方法反映企业经济效益全面,得到一致性、综合性的评价结果。本文重点研究四种常用的多元统计分析方法在企业经济效益评价中的应用。

(一)聚类分析

聚类分析也称为群分析,是一种基于数据分类的分析方法,它的核心是将相似元素集合为一类,然后根据样本间的相似程度合并,依次合并减少分类,直到所有样本都合并为一类为止。在企业经济效益评价中,需要对企业的资产运营能力进行评价,可以使用的指标包括资产周转率、应收账款周转率、存货周转率、偿债比率、利息倍数、流动比率、速动比例等等,因此首先要对这些指标利用聚类分析方法进行分类,得到关于企业资产运营能力的整体评价。

(二)判别分析

判别分析也是一种分类分析,与聚类分析不同,判别分析是已知样本类型和判别规则,然后对未知类型的样品进行判别分析的多元分析方法。例如已经确定资产运营能力的指标体系,并指定指标间权重,就可以判定企业资产运营能力的强弱或者划分资产运营能力等次。最常使用的是Fisher线性判别函数,在行业或地区样本判别分析的基础上,计算出函数分类的准确率,并结合研究企业的实际情况就可以做出比较结论。

(三)主成分分析

主成分分析将具有一定相关性的原来指标重新组合、分解,形成一组新的无关联的综合指标,以尽可能小的数据损失,反映尽可能多的指标信息。在企业经济效益评价中主成分分析可以将复杂的数据指标综合成几个无相互关联的指标,例如评价企业资产运营能力可以使用的财务指标很多,要将这些指标重新划分为生产经营成果指标、消耗资源指标和资金利用效率指标,利用杜邦分析图,得到企业资产运营能力的综合评价。

(四)因子分析

因子分析是主成分分析的推广,它的区别在于能够将随机的错综复杂的变量综合为主要的少数几个变量,并以有限数量的变量(或因子)反映原始数据的内在结构,减少了数据丢失,使评价分析更接近数据本身。例如企业经济效益评价内容广泛,从企业营销到员工激励无所不包,但是应用因子分析可以概括为五个方面,例如获取利润的能力、参与竞争的能力、开展资产运营能力、经营管理能力和企业发展能力等等。这种数据处理不仅减少分析变量的数目,而且避免不同变量权重设计的误差。

三、结束语

多元统计论文范文篇5

[关键词]中医药文化传播;多元统计;模型

2016年12月颁布的《中医药法》中第六章“中医药传承与文化传播”第四十二条至第四十六条专门对中医药文化传播作出了明确的规定,这足以体现中医药文化传播对于提升中医药影响范围和服务能力,建立中医与西医相互补充的中国特色医药卫生体制,对实现广大人民健康水平不断提高及中医药事业的持续发展都具有十分重要的意义[1]。期刊文献作为科研人员的研究成果,可以客观真实地反映出该领域的发展状况[2-5]。为了解现阶段中医药文化传播的发展现状,现对中医药文化传播的相关文献进行多元统计分析,构建模型进行预测。

1资料来源

在中国知网(Chinanationalknowledgeinfrastructure,CNKI)、万方数据资源系统、中文科技期刊全文数据库(VIP)3个数据库中,以“中医药文化传播”为主题或关键词进行检索,统计范围为2008-2017年该领域的所有文献,共检索到168篇论文,剔除重复、无效的文章后有效文献153篇(包含期刊论文、硕士博士学位论文及会议论文等)。联合使用Excel和NoteExpress2.9.8建立数据库,按照年份、期刊、地区、作者、关键词、研究单位、资助基金等内容进行整理和录入,使用SPSS23.0统计分析软件进行数据统计分析。

2构建数学模型

运用多元统计分析方法(曲线回归)构建数学模型。为了粗略了解两个变量的关系,首先,以期刊累积数量(Y)为纵轴和时间(X-2007)为横轴作散点图,可以看出,期刊文献量和时间不呈直线分布,即两变量的关系是非线性的,因此利用SPSS23.0统计软件[6-7]进行曲线回归分析[8-10]。在曲线回归中,根据曲线回归模型的决定系数R2值,当它越接近于1表示曲线回归的效果越好。由表1可以看出,R2值较大的是三次曲线和二次曲线,因此我们考虑这两个模型进行数据拟合。见表1—2。其中三次函数的R2值和F值都是最大的,R2=0.979,F=91.378,P=0.000。因此选取三次函数模型y=b0+b1x+b2x2+b3x3(b0b1b2b3是常数)。对中医药文化传播数据进行多元曲线拟合,并进行假设检验。利用SPSS23.0得到三次函数模型y=-4.7+7.109x-1.787x2+0.164x3及拟合图像。见图1。

3讨论

目前用于预测的模型很多,如多元回归分析[11-13]、时间序列分析[14-17]、BP神经网[18-19]等。与其他方法相比,采用多元回归等模型对其进行预测,函数形式直观清楚。本研究时间范围选择了2008—2017年之间10年的中医药文化传播期刊文献量进行建模,经过模型筛选,最终确立了三次函数模型,并对未来3年的中医药文化传播期刊文献量进行了预测。结果表明模型可较好的拟合中医药文化传播期刊文献量的变化规律,特别是在2012年,预测的拟合值与实际值是一致,显示出较好的预测精度,各年的预测值与真实值的误差在4篇之内,说明三次函数模型预测中医药文化传播期刊文献量的变化趋势是可行的,通过模型我们预测2018年关于中医药文化传播期刊文献量大约在76篇左右,2019年大约有107篇,2020年大约有147篇。综上所述,通过研究发现近几年是中医药文化传播的相关论文文献上升速率较快时期,这样我们可以通过多元统计学构建的模型,判断和预测中医药文化传播相关文献的增长情况,探索中医药文化传播过程中遇到的同质问题,辨别地区差异或者经济发展差异在中医药文化传播的特异性问题,并进而探索整个学科的发展规律。

参考文献

[1]岳远雷,赵敏,司婷.中医药文化传播现状研究——兼评《中医药法》相关条款[J].学校党建与思想教育,2017(20):94-96.

[2]林艺,刘永胜.普赖斯对文献计量学的贡献[J].晋图学刊,1990(2):12-14.

[3]姜春林.普赖斯与科学计量学[J].科学与科学技术管理,2001,22(9):20-22.

[4]王远库,李雪慧.科技文献增长与老化指数规律的统一及数学阐释[J].理论探讨,2003,20(11):9-10.

[5]丁学东.文献计量学基础[M].北京:北京大学出版社,1993:35-45.

[6]刘大海,李宁,晁阳,等.SPSS15.0统计分析从入门到精通[M].北京:清华大学出版社,2008:191-194.

[7]刘仁权.SPSS统计分析教程[M].北京:中国中医药出版社,2016:117-118.

[8]谷恒明,胡良平.简单曲线回归分析及其应用[J].四川精神卫生,2017,30(6):498-502.

[9]谷恒明,胡良平.复杂曲线回归分析及其应用[J].四川精神卫生,2017,30(6):503-506.

[10]高辉,胡良平,鲍晓蕾.三项型指数曲线在“药-时”曲线拟合中的应用[J].中国卫生统计,2012,29(5):677-679.

[11]宋萍,李准,徐雨晨,等.基于多元回归分析的住院费用影响因素研究[J].重庆医学,2018,47(30):3923-3927.

[12]袁世超,徐丹红.结肠癌D3根治术后出现吻合口瘘相关因素多元回归性分析[J].中国现代医生,2018,56(26):19-21.

[13]邓明慧,忠.中国商品出口影响因素的研究——基于多元回归模型[J].山西能源学院学报,2018,31(3):118-120.

[14]刘维华,朱建良,郭付爱,等.应用时间序列法建立学校结核病预警模型研究[J].中国学校卫生,2018,39(11)1682-1685.

[15]刘志展,潘伟.厦门市空气污染指数预测方法研究——时间序列分析与神经网络的比较[J].心智与计算,2008,2(1):33-41.

[16]裴丽芳,冯三营.基于MATLAB的时间序列分析[J].科教文汇(中旬刊),2018,15(11):47-49.

[17]张孟媛,张强,罗佳伟,等.重庆市艾滋病发病人数的ARI-MA时间序列分析[J].中国卫生统计,2018,35(5):650-654.

[18]史峰,王小川,郁磊,等.MATLAB神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010:11-21.

多元统计论文范文篇6

关键词:计量经济学;Eviews;计量经济学模型

计量经济学是统计学、经济学和数学相结合的科目,是一门在经济学中有很大用处的交叉学科。它应用数学语言来表达经济理论和经济问题,用统计方法来论述这些理论的一门经济学分支。在社会经济发展到了一定阶段时,对于经济问题的定量研究的计量经济学就应运而生,从20世纪产生和发展,至今已成为一门比较完善的学科。我国在上世纪80年代高等院校的经济类专业相继开设了计量经济学,1998年计量经济学纳入了经济学类专业必修的核心课程,在近年来发展迅猛的统计学中也是重要的专业必修课程。计量经济学是一门方法论的学科,重点研究经济学,在回归分析的基础上进行研究。在近年来发表的论文中可以看出这门课程的重要性。在2000之前使用计量经济学模型方法作为主要方法的论文有一成左右,到了2005年就有五成左右,现在经济学论文使用计量经济学方法已经称为一个不可或许的方法。我国本科生的毕业论文使用的计量经济模型方法的往往被作为优秀论文被大家学习。所以在大学课程中,把计量经济学这门课程掌握是一个重要的学习过程。本文将从本人在计量经济学教学中的感触给出一些经验。

1学习的基础

美国现代经济词典给了定义为:计量经济学是用数学语言来表达经济理论,以便通过统计方法来论述这些理论的一门经济学分支。对于经济问题,一般分为四个步骤进行研究:这个程序化的步骤方便了这一方法的运用,因此对于要研究的经济问题,只需把每一步骤所需内容掌握,就可以进行实际的问题的经典的一般性研究。任何一门学科都需要必要的基础知识,计量经济学也不例外,在大学二年级或者三年级开设这门课程,也是因为它所需要基础知识的掌握,一般需要经济学、概率论和数理统计、线性代数和经济统计学的知识。对于经济学,由于计量经济学研究的是经济问题,所以要在学习了宏观经济学和微观经济学的基础之上,研究的内容都是经济问题和经济理论,在学习阶段的案例和应用阶段的论文都是经济学里面的内容,因为要有必要的经济学知识。对于概率论与数理统计,该课程的方法几乎全部来源于概率论与数理统计,为了对于计量经济学内容的理解,要知道随机变量、概率分布、期望方差协方差、点估计区间估计,假设检验、方差分析、正态分布和统计量的三大分布,整个计量经济学会反复使用这个知识,以推进本课程的理论推导,理论原由,给予方法论的理论基础,概率论和数理统计的上述知识点都要灵活掌握运用,才能使计量经济学得以顺利的学习,快速理解模型中的第三步模型检验。对于线性代数,主要掌握的基础内容是矩阵及其运算和线性方程组的内容,因为在多元线性回归中基本都是用矩阵思想来研究的,表述、推到和性质用矩阵表达会更加清晰和容易理解,对于联立方程组的模型研究要用线性方程组的结论,所以计量经济学的学习要有线性代数的基础知识。对于经济统计学,要学会经济数据的收集、处理和应用,在计量经济学中,研究一切问题的基础就是数据,而数据的收集就是首要因素,把数据应用到理论和软件中,就需要用到经济统计学中的数据收集、处理和应用。计量经济学是学习理论方法,重视思想、方法和应用,轻推导。实际应用中一般使用软件,大多数都使用Eviews。Eviews是EconometricsViews的缩写,直接翻译为计量经济学观察,通常称为计量经济学软件包,它是美国QMS公司研制的在Windows下专门从事数据分析、回归分析和预测的工具。在这个学习过程中,基本上不需要繁琐的计算,全部交给Eviews来完成,因此还需要有必要的计算机基础。

2学习要点

计量经济学教材的学习顺序一般是:简单线性回归模型、多元线性回归模型、多重共线性、异方差性、自相关、分布滞后模型与自回归模型、虚拟变量模型、误差设定与测量误差、时间序列计量经济模型、联系方程组模型、实证项目的计量经济研究。这些内容可以分为三个部分:基础、提供和应用。基础内容为简单线性回归模型、多元线性回归模型、多重共线性、异方差性、自相关,开始先研究最简单的简单线性回归模型,详细叙述了计量经济学研究问题的过程思路,一般用简单的收入消费模型进行研究,学习建立模型的基础知识,基本假定的内容,用OLS估计参数,估计参数的性质,进行假设检验,最后进行预测,同时在Eviews上进行操作实施。之后加强解释变量的个数,也就是多元线性回归模型的学习,基本上还是延续了简单线性回归的顺序学习,并在此基础上丰富内容,特别主要此时对矩阵和方程组的学习应用。然后学习多重共线性、异方差和自相关,这三个章节研究方法类同,都是因为上述研究的基本假定被违反的时候的处理,学习过程为:概念、后果、检验和补救。通过概念了解定义、产生背景等,可以得到经验的认识,遇到模型知道容易发生的问题,对于后果要认识到危害,以便在实际应用中不致产生错误的结论,以及危害的大小和承受程度。检验的学习是重点,一般都有3个以上的方法来检验这种错误是否出现,这个实际操作的内容,可以根据案例和实践熟悉,理论内容作为了解就可以,最后是补救,补救就是目的,这个补救之后就得到直接应用的模型了因此补救的理论方法要熟知。在以上的基础一般性的方法论之上,就是提高的内容,对于一些特殊的数据和模型,要使用分布滞后模型与自回归模型、虚拟变量模型、误差设定与测量误差、时间序列计量经济模型、联系方程组模型来研究,每个部分基本上是独立的,实际问题中不可能千篇一律,总会有一些特点,例如在虚拟变量中接触到定性的数据就不能用普通的定量的解释变量来描述,因此引入了虚拟变量来实现。还有计量经济学中重要一类数据是时间序列数据,这类数据具有独特的结构,有必要使用专门的手段来研究,就是平稳性检验、协整检验和格兰杰因果检验。对于这类数据,我们一般是用ARMA模型,重点去确定p、q这两个阶数,期间还要知道前线的偏微分方程的基础知识。现阶段很多的经济学论文都会涉及到时间序列数据,因此这部分的过程和理论需要掌握。最后是应用阶段,通过了计量经济学的学习,目的就是应用到实际的生活中,对于生活中的经济学问题进行讨论、阐述和发现。通过案例来总结性的学习,把整个过程联系一起。一般通过实证项目的计量经济研究来学习。计量经济学的学习离不开软件Eviews,它方便的解决了计量经济学的计算问题,在每个计量内容中都要实践各种方法,认识重要的结论数据,对这些数据能够进行识别,发现模型的问题和结论。能够利用Eviews进行合理的操作,发现模型的问题,并且使用合适的方法进行补救。

3计量论文整个计量经济学的学习理论内容和软件的学习

结束后,就要根据实证项目的计量经济研究做一个课程论文,课程论文的后续就是经济学类的论文的撰写。计量经济学的基本理论和方法就是在实际的经济问题使用计量的研究中提出来的,这些理论和方法在现阶段经济学问题中经久不衰,是因为能够对于各类和各时间的实际问题进行研究分析。做课程论文之前要学习实证的案例,然后阅读其他课程论文和以发表的论文的研究过程,包括同类文章的选题,建模过程,数据的分析和结论。作为自己课程论文和的基础。选题是在经济学的基础之上对有兴趣和前沿的经济学问题进行选择,数据的收集也是重要的过程,它是文章结论和真实性的基础,一般采用统计年鉴和各类统计机构的数据,自己实际的采集数据需要人力物力财力,还要根据时效性来确定。要使用不同的思路,或者结果自己学习过的经管类课程,这是一个不断探索、渐进深入认识和熟悉思路的一个过程,可以选择宏观经济方面、微观经济方面、城市和区域经济、发展经济学方面、市场营销或产业组织、公共财政和人口社会学方面等等。在模型的建立中也要反复推敲,先假定一个,然后往下做论文,遇到问题就用合适的方法解决问题,但是并非一个模型就是固定的,修正模型也是一个过程,为了得到合理正确的模型,需要反复修正,在各种检验中都可以通过,并且参数估计值与其理论的预期值要一致。一般我们先用多元线性回归模型,然后进行多重共线性、异方差和自相关的顺序检验和补救,首要进行多重共线性的研究,之后对于面板数据,一般优先检验异方差,对于时间序列数据,一般优先检验自相关。论文研究有两种重点,一种是结构建模,就是对于模型得到一个合理的结果,一般使用经典的计量经济学知识。一种研究重点放在模型的设定方法,从统计和经济理论,强调逻辑的一致性,它即是对数据分布信息的动态挖掘,也是对模型建立的不断思考和改进的过程。计量经济学的论文要有充分的结论来说明,用数据来说话,期间必要处要有Eviews的回归结果,显示自己的结论是有数据支撑的。

本文自讲授计量经济学几年来,通过学生学习和课程论文以及毕业论文的指导得到上述探讨,对于学习这门课程有重要的意义,计量经济学是经济学和统计学的核心课程,不仅在学习中有重要作用,在实践中更是一个强有力的解决工具,现今社会数据大量而且复杂,应用计量经济学这一数据处理软件能从中发现联系,既能检验和说明过去的经济理论,又能进行预测。因此对于经济类、统计类和管理类专业的人士都有受益匪浅的。

作者:朱小渊 单位:广东培正学院

参考文献:

[1]庞皓.计量经济学[M].北京:科学出版社,2014.6.

[2]李子奈.计量经济学[M].北京:高等教育出版社,1996.

多元统计论文范文篇7

1相关研究

1.1引用现象研究AvramescuA[2]利用科学信息扩散论将论文的引用周期分为5种类型:广泛认可的引用曲线、基本认可的引用曲线、很少认可的引用曲线、“睡美人”型引文曲线和“昙花一现”型引文曲线。屈文建等[3]重新归纳为6类:将前3种统一为“经典引文曲线”、重新定义“指数下降引文曲线”、“睡美人”引文曲线2类、新增指数增长引文曲线、多峰引文曲线、波形引文曲线3类。高被引论文往往是领域突破性或创新性成果[4],其价值和意义得到了科学界普遍认可和重视,分析高被引论文的特征因素、预测高被引论文方法拓宽了学界对高度引用现象的认识,科睿唯安的“引文桂冠奖”正是利用论文的高被引特征成功预测出多位诺贝尔奖得主。科学界也存在一些从未被引用的论文,但论文未被引并不意味着他们没有学术价值,VanRAFJ[5]从这些零被引文献中发现被“延迟承认”的“睡美人文献”;国内学者杜健等[6]、LiJ[7]等对“睡美人文献”的特征、潜力预测等开展系统化研究。论文引用规律和引用现象的研究进一步完善了人们对引文结构网络的认知。1.2引用动因研究研究人员引用他人论文的原因是复杂多样的,引用行为不仅仅是出于对科研成果的认同,还有很多非科学因素[8],GarfieldE[9]最先提出引用的15种动机,HarwoodN[10]提出引用的11种动机,马凤等[11]归纳出6类引用动机,邱均平等[12]将引用动机分为内在引用动机(知识主张、价值感知)和外在引用动机(信息源便利性、引用输出、引用重要性)两类,内外动机相互影响信息行为。也有学者针对引用中对编委的阿谀奉承、为利益派别的不正当引用现象进行研究,研究结果表明负面引用并不能有效提高引用[13]。随着引用研究的深入,一些学者尝试用理论的角度来解释引用动因。段庆锋等[14]以规范理论和社会构建理论,提出引文是学术性和社会性因素交织作用的结果;杨思洛[15]将前人对引用动因的理论解释归纳为5类:“科学规范理论”、“社会结构理论”、“心理过程理论”、“自反引文理论”、“引文进化理论”;AksnesDW等[16]用“可见动态性”概念解释引用行为,认为引用也存在“马太效应”。1.3影响因素研究TahamtanI等[17]从高度相关的198篇文献中总结出28个与论文被引有关的因素,整体上归为3类:论文相关因素、期刊相关因素、作者相关因素。牟象禹等[18]、韩毅等[19]以中文图情领域为例,分别实证分析了论文被引和未被引的主要影响因素。当前对论文被引影响因素研究可以分为4个方面:1)期刊相关因素[20-21]:如期刊规模和扩散力、开放获取、影响影子等;2)作者相关因素:如研究团队规模与作者合作网络[22]、性别因素[23]、作者学术成就[24]、跨国的合作团队[25]等;3)内容相关因素:如主题词组合新颖性[26]、关键词的数量与多样性[27]、论文热点持续能力[28]等;4)其他指标:如参考文献[29]、论文的长度[30]、期刊出版商[31]等。分析方法不一而足,分析结果也各有异同,如DidegahF等[32]以WOS纳米技术相关期刊论文集为数据,得出期刊影响因子是被引最有效的决定因素之一;而FinardiU[33]以社会科学和自然科学期刊论文集为例,得出影响因子与被引没有显著相关性。究其原因,论文被引受数据集来源、学科领域[34]、国内外平台[35]而有所不同,被引频次影响因素也存在差异性。1.4引用预测研究由于论文引用关系特性,被引需要一定的时间积累,为了更早发现具有高被引潜力的论文,了解相应领域的研究热点和重大发现,学界利用机器学习、回归模型对论文引用进行预测研究。FuLD等[36]以生物医学文章为数据集,认为使用基于内容和文献计量特征的机器学习模型来预测生物医学文献中的引用计数具有可行性。IbáezA等[37]以生物信息数据集测算了叶贝斯网络、逻辑回归、决策树和k近邻算法,并得出朴素叶贝斯和逻辑回归模型4年范围内被引预测成功率可达89.4%和91.5%;耿骞等[38]以图情领域文章数据作为训练集,测算逻辑回归、朴素页贝斯、支持向量集、GBDT、AdaBoost、XGBoost、随机森林7种算法,得出GBDT、XGBoost、随机森林具有较强的预测能力;ZhuXP等[39]采用神经网络模型确定引文计数的最佳特征,提出了GPR、DNN、MLR、SVM等机器学习方法预测论文引文,发现作者特征群影响最大,SVM方法更适合引文预测。YanR[40]比较了线性回归、K近邻、SVR、CART模型的预测效果,CART预测效果最理想,最佳回归预测模型在R平方中实现了0.740的平均预测性能。1.5研究不足之处国内外文献研究发现:1)人文社科国际被引研究较少。受人文社科国际影响力重视程度、人文社科成果多样化、国际论文数据复杂度等因素影响,目前对论文被引研究多集中国内数据库或国外自然科学领域,鲜少对人文社科国际论文成果的被引因素展开深入研究。2)论文被引的影响因素存在差异性。被引频次受学科领域、时间范围、数据库来源等方面影响,影响因素存在差异性,已有的研究多具有特定研究对象,不一定适合中国人文社科国际成果被引因素。因此,本文以WOS收录中国人文社科领域论文为例,分析中国人文社科期刊国际论文被引与作者机构特征、期刊特征、文献特征、其他计量特征指标的相关性,识别论文被引的主要影响因素,从而为提高我国人文社科期刊论文国际被引,加速人文社科成果国际化传播提供数据参考。

2评价指标与研究方法

2.1数据处理。选定WOS社会科学、艺术与人文两个研究大类中共含39个研究方向,加上应用科学中运筹学与管理学、信息科学与图书馆学2个研究方向,共计41个研究方向;限定来源数据库为SSCI和A&HCI,研究国别为CHINA,文献类型为Article、Review、ProceedingsPaper。为了使论文得到充分引用,参考方红玲[41]对SSCI收录图情类期刊和姜春林等[42]对文史哲等学科成果的引文评价时间,选用5年前(即2014年)收录6564篇论文及引文信息为数据源,数据获取时间为2019年5月5日。同时为了解论文的其他补充计量特征是否与论文被引具有相关性,于2019年5月10日利用Altmetrics获取论文的补充计量特征数据共计2844条。2.2评价指标选取。结合上文中论文被引频次影响因素研究,从作者机构指标、期刊指标、文献指标、补充计量指标四大类进行论文被引评价指标的选取,并对所有数据类别进行定义,影响因素的特征编码参见表1。1)作者机构特征指标:作者是论文写作的主体,本文主要考察作者数量、作者国别、跨国合作模式和机构属性等对论文被引是否具有显著影响。2)期刊特征指标:期刊是论文的载体,主要考察论文在高影响因子、高分区或知名的出版社中是否有更好被引表现。3)文献特征指标:文献本身的相关特征,如参考文献数量、OA资源、页码数量,文献标题的长度、关键词数量等是否对论文被引具有显著影响。4)补充计量特征指标:利用论文DOI于Alt-metrics获取对应记录的其他补充计量指标,统计发现除Twitter提及数、Mendeley读者数、Dimen-sion引用外,其他指标多为0,因此这里仅选用Altmetrics的三项补充计量指标数,以及论文元数据中180天使用次数和2013年至今使用次数。2.3研究方法。为验证26个二级指标与论文被引的相关性,利用SPSS20.0分析软件,采用非参数K-S单样本方法对连续变量进行正态性检验,显示14个连续变量显著性水平均小于0.05,不符合正态分布。因此,相关性分析方法采用Spearman,根据相关性取值范围,以0.2为区间,分为极低、较低、中度、高度、极高5种相关程度;对于分类变量组间比较采用非参数检验方法;利用多元线性回归模型进行论文被引多因素分析。

3研究结果分析

3.1连续变量相关性分析。对14个连续变量进行Spearman相关性检验,分析结果如表2所示。WOS被引频次与页码未通过显著性检验(p=0.888),说明中国人文社科期刊论文的国际被引与论文撰写长短没有显著相关性。其他连续变量p值均小于0.05,通过了显著性检验,其中,WOS被引与标题长度、作者关键词、Twitter提及数为极低相关度;与作者数量、合作国家数具有较低相关性;与2年平均影响因子、即年指标、参考文献数、附加关键词、最近180天使用次数具有中度相关性;与2013年至今使用次数(r=0.666)、Mendeley读者数(r=0.659)具有高度相关性;与Dimensions引用数(r=0.964)具有极高相关性。3.2分类变量非参数检验。对12个分类变量分别进行非参数检验,两独立样本采用Mann-WhitneyU检验;多独立样本采用Kruskal-WallisH检验,事后两两比较采用Bon-ferroni法校正显著性p值小于0.05说明差异具有统计学意义。表3为分类变量的被引均值与平均秩次表,图1、图2为多分类变量的成对比较图。1)作者团队规模。根据发文量将作者规模分为5类,不同作者团队规模中WOS被引分布差异具有统计学意义(H=936.019,p=0.000)。两两比较发现:除了3个作者-4个作者合著对WOS被引的差异不具有统计学意义外(调整后p=0.757),其他不同作者团队规模组别对WOS被引差异均具有统计学意义(调整后p=0.000),作者规模越大,被引均值越大。2)通讯作者国别。将通讯作者分为中国和外国2类,Mann-WhitneyU检验结果显示通讯作者为中国(平均秩次为3102.04)与外国(平均秩次为3795.69)对WOS被引频次差异具有统计学意义(U=3156384,Z=-12.862,渐进p=0.000)。3)第一作者国别。一作国别为中国(平均秩次为3146.60)与外国(平均秩次为3796.31)对WOS被引频次差异具有统计学意义(U=2858156.5,Z=-11.323,渐进p=0.000)。4)合作模式。不同国别合作模式上对WOS被引差异具有统计学意义(H=176.741,p=0.000)。外国为主平均秩次为3965.74,中外合作平均秩次为3601.25,中国为主平均秩次为3092.62,对3种不同合作模式两两比较发现:3种国别合作模式对WOS被引的调整后显著性均小于0.05,差异均具有统计学意义。这与Lancho-BarrantesBS[44]发现的国际合作可以增加引文影响力、NomalerO[45]发现的国际合作比国内合作有更大的引用结果相似。5)机构属性。不同机构属性的WOS被引分布差异具有统计学意义(H=20.454,p=0.000)。对机构属性两两比较发现:大学与科研院所对WOS被引的差异性不具有统计学意义(调整后p=1.000);大学与其他机构(调整后p=0.000)、科研院所与其他机构(调整后p=0.001)对WOS被引的差异具有统计学意义。6)期刊国别。发表在国内期刊(平均秩次为2358.89)与国外期刊(平均秩次为3298.53)对WOS被引频次差异具有统计学意义(U=257867.5,Z=-5.214,渐进p=0.000),发表在国外期刊上具有更高的被引表现。7)期刊分区。不同期刊分区的WOS被引分布差异具有统计学意义(H=1564.017,P=0.000)。对不同期刊分区数据两两比较发现,WOS被引频次的差异在6组不同分区数据中差异均具有统计学意义(6组分区比较的调整后p=0.000)。8)出版平台。论文在不同出版平台的WOS被引分布差异具有统计学意义(H=942.776,p=0.000),不同出版平台的平均秩次如表3所示,Elsevier平台出版的被引平均秩次最高(4208.70),而大学出版社出版的被引平均秩次最低(2218.19),这可能跟大学出版社出版发行传播链不够完善有关。两两比较发现:University类别-其他类别(p=0.311)、TaylerFrances-Emerald(p=1.000)、Em-erald-Springer(p=1.000)、Emerald-Sage(p=1.000)、Emerald-Wiley(p=0.622)、Springer-Sage(p=1.000)、Springer-Wiley(p=1.000)、Sage-Wiley(p=1.000)8类不具有统计学意义,其他不同平台出版论文的WOS被引差异具有统计学意义。9)语种。不同语种的WOS被引差异具有统计学意义(H=462.579,p=0.000),英文的WOS被引平均秩次最高(3374.30),中文的WOS被引平均秩次最低(492.19)。两两对比发现:中文-其他语种发表的论文被引频次差异不具有统计学意义(p=0.849),英文-中文(p=0.000)、英文-其他(p=0.000)的WOS被引差异具有统计学意义,国际通用性语言论文被引频次高于中文或其他小语种论文被引频次。10)OA资源。论文是否开放获取对WOS被引差异具有统计学意义(U=1313214,Z=-5.054,渐进p=0.000),开放获取论文的被引表现优于非开放获取的论文。11)基金项目。论文是否受到基金项目的资助对WOS被引差异具有统计学意义(U=2824366,Z=-15.33,渐进p=0.000),受资助论文的被引表现优于未受资助的论文。12)文献类型。文献类型对WOS被引差异具有统计学意义(H=90.172,p=0.000),两两比较发现:三者之间对WOS被引均具有统计学意义(p=0.000),综述论文被引表现优于文章优于会议论文类型。3.4多元线性回归分析。使用多元线性回归进一步分析连续变量和分类变量等多因素相互作用下对论文被引的影响,由于引文数据呈偏态分布,不适合直接使用线性模型,且有的论文被引频次为零,参考阮选敏等[46]的方法,对因变量(WOS被引)进行对数转换,生成新的因变量(WOS被引对数)=ln(WOS被引+1)。通过重新编码的方式,将12个分类变量分别转化为哑变量,回归策略选择Enter强制进入法。为确保数据分析稳定性,Twitter提及、Mendeley读者数、Dimension引用数样本量过少不予分析,删除离群值、强杠杆点、强影响点检测的23个异常值。对处理后的数据进行多元线性回归分析验证,满足多元线性回归分析要求,回归模型具有统计学意义F=159.866(p=0.000),调整R2=0.505。多因素分析发现:作者机构指标(作者团队规模)、期刊指标(2年平均影响因子、分区、出版平台)、文献指标(参考文献数、语种、OA资源、文献类型)、补充计量指标(180天使用次数、2013年至今使用次数)中共计10个指标是影响论文被引的综合因素。而作者数量、合作国家数量、即年指标、页码、标题长度、作者关键词、附加关键词、通讯作者国别、第一作者国别、合作模式、机构属性、期刊国别、基金项目这13个指标p>0.05,在多因素分析中无统计学意义,说明这些自变量不是因变量的独立影响因素。多元线性回归分析结果如表4所示,由于篇幅限制,这里不展示未通过显著性检验的自变量。标化系数反映了影响论文被引的程度,2013年至今使用次数(β=0.317)、以Q4为基准线Q1期刊(β=0.219)、Q2期刊(β=0.143)、2年平均影响因子(β=0.146)、参考文献(β=0.116)对论文被引具有较大正面影响;以高校出版平台为基准线出版平台为其他小型平台(β=-0.057)、以综述为基准线文献类型为会议论文(β=-0.055)对论文被引具有负面影响。

4讨论

4.1作者机构相关因素。作者机构指标中仅作者团队规模通过了多因素的显著性检验,作者规模中以独著为基准线,合作撰写人数越多,被引频次越高,但合作作者规模对整体的论文被引频次影响程度不大,影响程度最大的标化系数也只有0.057。其他作者机构指标通过了单因素分析但未通过多因素分析显著性检验,可能是由于这些指标对于论文被引的贡献度较小,随着多因素分析的调整而消失了。AbramoG等[47]、Chinchilla-RodríguezZ等[48]分别对意大利出版物和阿根廷人文社科领域论文分析也得出合作撰写比独著能够获得更高知名度和影响力。从合作动机来说,科研合作的前提是合作团队具有差异化的优势,合作能够取长补短、优势互补,产生出1+1>2的合作效应。从规模经济理论来说,科研合作使成果更加专业化,如合作团队从论文构思、数据获取处理,模型构建、内容分析各个环节都进行专业分工,使得产生最大程度的效益;此外多团队合作成果有更多学科知识点的融合,更容易产生新兴研究方向和研究热点,从而提高被引。从哲学角度来说,整体功能大于系统各组成要素,科研合作团队规模越大,该团队成员的相应产出越多,形成规模效应,从而提高论文的认知权威和被引频次[49]。4.2期刊相关因素。期刊2年平均影响因子(β=0.146),以Q4为基准线的Q1(β=0.219)、Q2(β=0.143)、Q3(β=0.03)对于论文被引均有正面影响,且整体上对论文被引影响程度较大。期刊影响因子和分区是期刊评价的重要指标,也是论文质量评判的重要依据,论文被引也是提高期刊影响因子和分区的基础。从马太效应角度来说,高影响因子和分区期刊能够吸引更多高质量的论文,从而有更高可能被高度引用;高被引论文也倾向于引用影响力较高的期刊[50],以获得更多权威来佐证论文观点。在期刊论文出版平台选择上,以大学出版社平台为基准线,Elsevier出版平台对被引具有显著影响(β=0.084),而出版在一些非知名的“其他”类别的出版平台上对被引具有显著的负向影响(β=-0.057)。国际出版平台上,Elsevier、Springer等知名商业出版公司通过早期资源整合积累雄厚原始资本,其在市场拓展、平台内容建设、服务创新、品牌策略上都具有得天得厚的优势,发表在“第一梯队”出版平台的论文往往有更规范的出版流程和广泛的传播途径,使得论文更快、更广被他人引用。因而,我国期刊界也在积极探寻与Nature、Elsevier等国际出版商合作,以获得更好的国际显示度和学术影响力[51]。4.3文献特征相关因素。参考文献、语种、OA资源、文献类型等4个指标通过了多因素的显著性检验,参考文献数(β=0.116)是文献特征中影响程度最大的指标,Na-ture也报道过关于引用与参考文献密切相关的研究[52],还有研究表明参考文献的跨学科性对论文被引正相关[53],论文平均被引时差与论文被引负相关[54]。一方面作者撰文时参考大量文献,使其文献结论或观点更具有信服力,从而增加引证的可能性;另一方面随着引文网络的发展,参考文献越多,与之关联的相关文献越多,越有机会通过文献的追根溯源或相关文献扩展发现该篇文献;此外,学者科研行为都需要阅读大量前人综合性研究,而参考文献越多对已有研究越全面,通常能够得到更高的引用。这一现象也可以用于解释相比综述型文献,会议论文对被引具有负面影响(β=-0.064),BornmannL等[55]研究也表明相比于期刊论文、综述等文献类型,会议论文更可能不被高度引用。以中文为基准线,英文论文对被引有正面向影响(β=0.022),这是因为英语具有更强的通用性,便于传播和阅读;PoomkottayilD等[56]以瑞士牙科科学院出版的口腔期刊论文为例,发现英文发表的论文是法语或德语论文被引的6(ISI数据库)至7(Google学术)倍,因此可以通过改变期刊出版语言、双语种翻译等方式出版传播本国期刊论文[57]。开放获取对论文被引具有正面影响(β=0.044),SwanA[58]归纳了包括政治学、哲学、传播学等领域论文开放获取后被引均有较大涨幅,论文的开放获取(OA)能够加速研究结果的传播和利用,从而获得更多的引用。文献特征指标主要通过影响论文的可见性、可用性、可传播性提高论文被引可能性。4.4补充计量相关因素。在单因素分析中,5个补充计量指标均通过了显著性检验,但Twitter提及仅有极弱的相关性,而中国人文社科成果数据的Twitter提及、Mendeley读者数、Dimension引用数样本不足一半,这可能与国内学者难以访问Twitter等有关,同样由于使用习惯、访问速度、语言差异等,Mendeley等科研社交平台的国内用户群相对较少,因而也很难通过国外社交平台传播中国人文社科科研成果,既使有原始传播,缺乏国内用户基础,也难以形成持续的二次传播。此外,Altmetrics、Plumx等补充计量指标主要以国外数据源为主,较少追踪国内学术社交数据,因而这类补充计量指标对国内人文社科成果被引影响不显著。而数据库中80天使用次数(β=0.094)、2013年至今使用次数(β=0.317)对论文被引具有正面影响,这种“提前”的科学评价指标,弥补了引文分析的滞后性,在一定程度上反映学术影响力,论文使用次数等表征信息,是论文“非正式”的潜在使用[59],因而高使用次数(Us-age)的文献更有可能获得引用。

多元统计论文范文篇8

关键词:建筑期刊;理论研究;文献计量学;统计分析

1研究背景

改革开放以来,陕西省发生了翻天覆地的变化,从一个百废待兴的落后省份,发展成为一个生机勃勃的大省,建筑行业、建筑文化、建筑理论研究工作都取得了累累硕果。先进的技术与思想的不断传入,与西部地域特色的冲突、碰撞使得建筑理论工作者不断思考陕西省建筑的正确发展道路。进入新千年,陕西省的建筑创作与理论研究呈现出多元化的状态,“一带一路”“国家中心城市建设”也给陕西省带来了重大历史机遇。在此多重机遇时刻,统计分析其学术成果,有利于理清其研究脉络[1]。文章以文献计量学为研究方法,梳理陕西省自改革开放后建筑理论研究相关论文的发表情况,可以对陕西省当代建筑理论研究的现状了解得更加全面,为今后的发展及研究提供借鉴[2]。

2研究对象的确定

2.1文献作者的确定文章所说的文献作者即陕西省建筑理论工作者,包括陕西省各大设计机构以实践为主的执业建筑师、陕西省高校建筑学科以研究为主的教师及学生、相关政府机关单位的研究人员以及社会建筑团体等。文章对论文的收集以研究机构为单位,这些研究机构包括(1)高校类:西安建筑科技大学、长安大学、西安交通大学、西北工业大学;(2)设计院类:中国建筑西北设计研究院、陕西省建筑设计研究院、西安建筑科技大学建筑设计研究院、西安市建筑设计研究院等;(3)政府机关单位:西安市规划局。2.2主流建筑期刊的确定陕西省建筑理论工作者发表在建筑学主流期刊上的论文往往代表着较高的理论研究水平,对主流建筑期刊的选择,可以从三方面来考虑:一是考虑学术上的代表性,即建筑学术界所认定的学术期刊,结合核心期刊的评定原则及老八校所认定的A类建筑期刊;二是考虑时间上的代表性,即所选期刊尽量能涵盖所研究的时间段,期刊发文载文量有保障;三是兼顾陕西省省情,考虑陕西省创办的主要建筑期刊。最终文章选定《建筑学报》《世界建筑》《建筑师》《新建筑》《华中建筑》《时代建筑》《建筑创作》《城市环境设计》《城市建筑》《西安建筑科技大学学报(自然科学版)》《建筑科学与工程学报》,合计共11种建筑期刊,其中有些杂志几经改名,其不同命名阶段也在统计项期刊中,统计结果则算在现在的期刊名称中[3,4]。文章对学术论文的收集以论文作者的机构为单位,通过中国知网数据库收集这些研究机构在1978—2018年期间所发表在主流建筑期刊上的与建筑理论研究相关的学术论文,其中有些机构经历几次改名,单位名称也存在不规范情况,甚至有些作者没有附加单位机构,在收集过程中尽可能对其进行查漏补缺。

3期刊论文的总产量与年度变化

文章以机构为单位收集相关论文,因为部分机构存在合作关系,对其去重后共计得到1231篇论文。可以看出,高校类研究机构的发文量明显大于设计院类。在高校类研究机构中,西安建筑科技大学又占据绝对性的优势地位。在设计院类研究机构中,中国建筑西北设计研究院的发文量明显大于其他设计院,以其为代表的建筑创作研究在陕西省建筑理论研究工作中占据一席之地。刊上的发文数量,在《西安建筑科技大学学报(自然科学版)》上发文最多,这与该杂志创刊早以及在陕西省建筑期刊中的地位密不可分。《华中建筑》次之,这与《华中建筑》发文量大、办刊早、办刊风格兼容并蓄有关系,也与陕西省的建筑理论研究方向与《华中建筑》的办刊主旨契合有关。再则是《建筑学报》,其作为中国建设部主管的官方期刊,也是中华人民共和国成立后由官方创办的第一种建筑类期刊,发文时序性最好。在《城市建筑》杂志上发文也较多,《城市建筑》虽创刊于2000年后,但其对城市和建筑的解读一直紧跟时代,不断推出新栏目,其每年举办的UA创作奖概念设计国际竞赛很受高校师生重视。数量的变化趋势一直处于曲线的变化中,有增有减,但整体处于增长趋势。在2000年前,增长趋势较慢,其中在1990—1993年间有所突破,后处于波折增长中;2000年后,论文数量增长趋势加大,波折也更大,论文数量也在2005年和2013年出现了峰值。2005年,欧亚国际论坛在西安召开,促进了陕西省建筑创作在这一年的繁荣,国际古遗址理事会第十五届大会在西安召开并《西安宣言》,促进了西安对文化遗产保护的研究工作。2013年,西安建筑遗产保护国际会议在西安建筑科技大学召开,西安有关遗产保护研究的学术成果较多。从整体趋势与各期刊的变化趋势来看,整体趋势受到各期刊的影响较大,如2005年的峰值是在《建筑创作》杂志上的发文,2013年的峰值是在《城市建筑》杂志上的发文[5]。

4核心作者群及合作关系

对陕西省建筑理论研究工作者核心作者群及其合作关系的分析,可以客观地呈现出较有贡献的作者群及研究团队。在本次分析中,利用陈超美教授开发的citespace数据分析软件进行了可视化分析。将前文收集到的相关论文导入软件,将网络节点确定为作者(Author),在可视化界面将节点显示调整为发文在5篇以上的作者,得到论文作者及其发文量关系图(见图4)。图中圆圈代表了作者的发文数量,圆圈直径越大表明作者发文数量越多;圆圈之间的连线代表了合作发文或者作者之间的相关程度。由图4可看出,发文较多的论文作者有:刘加平、王军、杨豪中、李志民、张锦秋等,以他们为中心围绕着合作密切的论文作者,形成研究上的核心团队或中坚力量。其中围绕刘加平、李志民、张锦秋、王军有较多的高质量论文作者,可以看出其研究团队的力量。其中,发文量排名前10的作者及其单位机构如表1所示[6]。

5研究热点和趋势

对陕西省当代建筑理论研究热点的研究,将通过对样本论文的关键词进行数据分析。关键词是论文的文献检索标识,可以表达文献的主题概念,从很大程度上反映了论文的主要研究内容。将收集到的论文导入citespace软件中,时间节点为1978年到2018年,网络节点确定为主题词(Term)和关键词(Keyword),得到主题词和关键词生成的关系图(见图5)。词的字体大小和圆圈代表了关键词出现的频次数量,圆圈半径越大则出现的频率越高;圆圈之间的连线,则表示相互关联的程度,连线越多则表明与其研究方向也越紧密。从图5可看出,可持续发展、传统民居、绿色建筑、建筑创作、历史街区、人居环境、节能、工业遗产等是陕西省建筑研究的几个核心方向。对这些关键词进行整合,可以看出几个研究方向:(1)围绕可持续发展,有“改造”“有机更新”“传统建筑”等词,代表了对原有建筑更新改造,达到可持续发展的研究方向;(2)围绕传统民居,有“地域文化”“保护规划”“窑洞”等词,体现了对传统民居的保护性研究;(3)围绕建筑设计和建筑创作,有“生态设计”“建筑遗产”“现代建筑”等讨论,其他出现在5次以上关键词则较少,由此可见这方面讨论的多元化[7];(4)围绕历史街区,有“历史文化名城”“文脉”“传统”“建筑文化”“环境”等词,代表着对历史文化名城、历史街区文化传承的关注;(5)围绕文化遗产,有“物质文化”“保护更新”等研究。其余周边零散着一些有关“生土建筑”“中小学校”“农村住宅”“传统聚落”“地域特色”等关键词,这些词一定程度上代表了陕西省自改革开放以来的主要研究领域。利用软件中膨胀词搜索(BurstDetection)功能,把较有爆发性的词语及其爆发的时间区间挖掘出来,依靠词频的时间变化趋势在一定程度上可以反映陕西省建筑理论研究在不同时间的关注点。除去一些较中性的关键词,得到图6,可以清晰地看到不同时间段研究的侧重点。从内容上看,在1996年以前,陕西省建筑研究的方向是分散的,没有代表性关键词的出现。从1996年开始,尤其是1997—2007年,研究的重点是围绕“绿色住区”“可持续发展”“黄土高原”“窑洞”等西部乡土建筑及其可持续性发展研究。2008年出现灾后重建、农村住宅的爆发性关键词,这一时期汶川大地震对农村住宅造成了巨大的破坏,作为邻省的陕西省义不容辞地加入了相关的建设和研究中。自2009—2013年,文化传承成为主要研究方向,一是对文化遗产的相关保护研究,二是以文化传统为导向的建筑设计研究。对工业遗产的相关研究爆发在2013年,陕西省在建国初作为西部工业重省,建立了一批大型工业建筑,随着经济转型,对这些工业遗产的保护和再利用成为一大研究方向。

6结语

从以上陕西省建筑理论工作者发表在主流建筑期刊上的论文的统计分析中可以看出,陕西省的建筑理论研究工作取得了一定的成果。从数量来看,一直处于波动的增长中,且受到社会背景的影响;从作者群体来看,陕西省建筑理论工作者数量较多,以高校为主,尤其是西安建筑科技大学,该校形成了较有代表性的研究团队,各个作者直接合作较多。从研究热点来看,不同时期关注热点不尽相同:1997年前研究点较为分散;1997年开始对西北乡土建筑与地域文化、绿色建筑、建筑节能较为关注;2009年开始,对文化遗产、遗址环境保护、工业遗产的关注增多,对建筑设计的研究则一直贯穿于整个时期。从对西安历史传统的继承到与城市风貌的协调,从地域文化的传承到多元化的发展趋势,立足于陕西省独特的文化地域条件并紧跟时展[8,9]。

参考文献

[1]李萍.近20年来西安地区建筑创作中多元化探索的研究[D].清华大学,2013.

[2]杨宇振.1994—2006年中国建筑类院校学术论文生产、空间分布与格局演变———基于主要院校建筑学一级学科与主流期刊[J].时代建筑,2007(03):20-29.

[3]李凌燕.从当代中国建筑期刊看当代中国建筑的发展[D].同济大学,2007.

[4]曾巧巧,李翔宁.中国20世纪80年代建筑观念演变——基于建筑专业期刊文献话语的文本分析[J].时代建筑,2014(06):35-39+34.

[5]支文军,张兴国,刘克成.建筑西部:西部城市与建筑的当代图景•理论篇[M].北京:中国电力出版社,2008.

[6]孙玄烨.基于文献统计方法的我国当代城市公共空间发展研究[D].浙江大学,2017.

[7]罗智慧.传统聚落环境研究文献分析[D].西安建筑科技大学,2014.

[8]和红星.西安於我:一个规划师眼中的西安城市变迁•3,建筑创作[M].天津:天津大学出版社,2010.

多元统计论文范文篇9

前面几讲,我们讨论了一些临床研究的方法。然而临床研究的结果,最终多以论文的形式发表在医学期刊上。虽然风湿病学的论文质量不断提高,但运用循证医学的评判(criticalappraisal)提纲来阅读,仍有较大的距离。

临床医学论文的结构如图1所示,其中摘要部分一般有固定的格式,即“目的、方法、结果、结论”,摘要部分只求简单扼要,不要详细的解析和分析。因此,下面重点讨论后面四大部分。

1.引言

引言俗称为“开场白”,对判断文章的价值有重要的作用。它不但给读者,也往往给审稿人和期刊编辑部一个“先入为主”的印象。临床文献评判提纲的第一条就问到[1]“作者研究的目的是什么?是否为解答某个(些)研究问题或验证某个假说?如果是的话,你能否从文章中归纳出该研究的问题或假说?这个研究问题或假说是否关于某个干预(如治疗)的效果、因果关系或确定某个健康问题的强度?”引言中最重要的内容就是要清楚地将研究的目的告诉读者,同时要交代研究的背景和立题的依据。一般要求先从总体上介绍研究背景,逐渐缩小到立题依据,再集中到研究目的。所以如图1所示,引言部分呈倒梯形结构。

国际上有一些医学期刊,要求在引言部分详细地介绍研究背景和立题依据,但更多的国际和国内医学期刊,是要求在引言部分简明扼要地介绍研究背景和立题依据,然后集中到研究目的。这样一些研究背景和立题依据的内容,就需要在讨论中描述。一个好的引言应该是用几句话概括先前这个领域的研究,接着说明这个研究的必要性,必须如实地阐述你的研究比先前的研究好在哪里,新在哪里。

2.材料与方法

2.1文章科学性和有效性的体现许多基层医院的医生和没有循证医学概念的医生,在阅读论文时,常常不太注意其研究方法。然而这一部分的内容往往体现出文章的科学性和有效性,因此它是期刊确定论文的取舍最关键所在。临床文献评判的9条提纲中,有7条是反映在“材料与方法”部分。

由于国内风湿科医生中接受过流行病知识培训者甚少,加上许多人在平时阅读文献时,常跳过“材料与方法”部分,致使风湿病学的论文普遍存在这样的问题:如果论文涉及到有实验室内容者,则将大部分的篇幅放在描述实验室的方法,而忽略了体现文章的科学性和有效性的内容;如果论文不涉及到有实验室的内容,则不知道这部分该写什么,不少临床论文在“材料与方法”部分中,只用几行字,因为“没东西好写”。其实一篇论文质量高低,往往体现在这一部分。因此,要提高风湿病学论文的质量,需要从这里入手。

建议有志于提高自身论文写作能力的年轻风湿科医生,从Lancet、NewEnglJMed、BMJ、JAMA等高级期刊中,寻找10~20篇自己感兴趣领域的论著,详细阅读(重点放在“材料与方法”部分),并选其中3~5篇,按评判提纲进行评判性的阅读。完成以后,对你的临床研究和论文书写必将会有长足的进步。笔者在国际临床流行病学工作网,澳大利亚的培训中心学习期间,各国学员普遍都感觉到,在上了“criticalappraisal”的课和做完“criticalappraisalExercise”的作业后,有“茅塞顿开”的感觉。

2.2需要阐明的内容不少论文将病例的性别、平均年龄、平均病程、基线的比较等“结果”部分的内容提前写在“材料与方法”中,这是不恰当的。“材料与方法”主要是描述该研究的计划,主要包括6个方面。

2.2.1研究策略:论文需要阐明研究策略[2],可以直接,也可以间接,但必须让读者很明确地知道本研究的策略。因为读者需要判断,该研究策略用于解答本项研究的问题是否恰当。风湿病学的论文中,实验性研究(随机临床试验)和分析性研究(队列研究与病例对照研究)较少,多数论文是描述性,或者根本无法从论文中悟出其研究策略。因此,强调在写文章时,需要留意一下研究策略交代清楚了没有。因为没有研究策略的论文,资料再好,也只能是一盘散沙。

2.2.2研究样本:临床研究的样本主要是病人,样本来源必须被阐明。研究病例最好是某一时段内的连续性的病人,如果不是连续性的病人,有必要阐明如何从大组的病人中选取研究样本。风湿病学的论文中,不少在介绍研究对象时只简单地提到“××病××例,均符合××诊断标准”,至于研究样本来自何方,是哪个年代的病人,如何抽样等等,一概不说。这样的论文,读者根本就无法判断该研究的外部有效性,难以被循证医学接受。研究样本的入选标准和排除标准也必须详细描述。在病例对照研究中,对照组的构成和来源必须交代清楚,因为对照组的确定问题,容易造成偏倚。

2.2.3研究因素:在实验性研究和分析性研究中,研究因素非常重要,往往是该项研究的核心内容。因此一定要明确交代研究因素以及测量这些研究因素的方法。在实验性研究,分组是否真正随机,如果不是随机,必须比较两组间的基线是否基本相同;干预组和非干预组的治疗方法有何区别,除干预之外,其他治疗是否相同,干预组和非干预组各自的治疗方法必须交代清楚。分析性研究中,研究因素存在与否,是病人进入研究时已经存在,而不是按照研究者的意愿进行分组的。因此,需要交代的是其测量方法,而不是分组。在审稿时,见过一些论文错误地将类风湿关节炎的病人“随机地分类风湿因子阳性组和阴性组”。在队列研究,研究因素的确定在先,结局的判断在后,一般较少发生研究因素测量时的主观偏倚;但在病例对照研究,由于先确定病例组和对照组,在回顾暴露因素时容易出现主观偏倚,文章在这里必须交代避免偏倚的方法,如采用盲法等。

2.2.4研究结局:研究结局的判断必须准确无误,因此需要交代判断研究结局的方法。如果结局的判断受研究者主观因素的影响,如关节炎的放射学损害,则必须交代是否采用盲法。在随访研究(包括随机临床试验和队列研究)中,失访病例如何归属,及其随访时间如何确定,均需交代清楚。对于不以死亡为结局的研究,如何处理死亡者的资料,算删失还是终点,时间如何确定等等。

2.2.5控制混杂和偏倚的措施:如果研究因素和研究结局之间有可能存在混杂因素,必须有措施去校正混杂因素所导致的偏倚。对于多因素的因果关系推导,必须采用多元回归的方法校正各因素之间的相互混杂。见过一篇强直性脊柱炎髋关节损害的相关因素的分析,立题和所收集的资料都很好,可惜只简单地采用t检验和χ2检验进行单因素分析,没有校正各因素之间的相互混杂,如果作者在论文书写时,有“混杂”这样一个概念,自己或请统计学的老师,再花几十分钟的时间,进行多因素分析,论文的质量和可循证性将会有大幅度的提高,仅一念之差而使论文质量未能进一步提高,多么可惜。减少或避免偏倚的措施需要交代,如在时间较长的随访研究中,如何减少失访。盲法不单只应用于实验性研究,在分析性研究中,研究因素和研究结局的确定和判断,也常常需要采用盲法。可导致偏倚的种类很多,本刊2000年有一讲座《如何识别和控制临床研究中的混杂与偏倚》已经详细介绍。

2.2.6统计学方法:实验性和分析性的医学论文,均必须明确地交代统计学方法。多年来,风湿病学论文中统计学方法存在的问题较为突出。

有不少论文没有交代统计学方法,多是那些含有实验室研究内容的文章,由于花了大量的篇幅介绍实验室的流程,使“材料与方法”部分显得“充实”,因此遗漏或省略了统计学方法的描述,使文章不完整和欠缺科学性。有些文章在“统计学方法”一栏中,只用了5个字:“采用t检验”。也有些只写“全部数据均由SSPS8.0软件进行统计学处理”。没有交代具体的统计学方法。让人感觉到,这是在应付式的填补“缺项”,写了等于没写。

虽然t检验和χ2检验是基本的统计学方法,但并非“放之四海而皆准”。风湿病论文中,常由于盲目运用t检验和χ2检验,导致质量不高。首先并非所有资料的统计分析均可以用t检验和χ2检验,病例数少和非正态分布的资料就必须用非参数检验方法,如秩和检验和精确概率法等。多组间的比较可能需要采用方差分析;随访资料(如随机临床试验、队列研究等)用生存分析方法可能更佳;存在多因素的因果关系分析(如预后因素分析、病因学研究等)需要多元回归分析等等。不少论文在交代统计学方法时,笼统地说采用多元回归的方法,究竟是哪一种回归方法没有说明,从“结果”中也看不出其资料是否采用了回归方法。滥用相关分析和直线回归的现象也很普遍。实际上,相关分析是一种低层次的统计学分析方法,主要用在描述性研究(如横断面研究)的资料分析,而一般不用于实验性和分析性研究的资料分析。因为相关分析有统计学意义并非代表两组资料存在相关关系。由于在回归分析的统计学教学中,一般是从直线回归到Logistic回归,再到cox回归,因此回归分析的原理和精神,多在直线回归中进行交代,使学习统计学的医学研究生们普遍对直线回归的印象较深。其实直线回归分析很少被运用于医学研究,医学研究中运用的最广的回归分析是Logistic回归和COX回归。

另外,风湿病学论文中,极少提到样本量的推算。样本量的推算主要是使研究的结果避免犯统计学第Ⅱ类错误。第Ⅱ类错误是指由于样本量不足,使得本来有差异的两组,运算出无差异的结果。样本量的推算是根据研究者期望的差异值、检出意义的水平(α值)和研究的功效(1-β值)。β值是允许犯第Ⅱ类错误的概率。一般要求α值=0.05,研究功效在0.8或0.9。当你的研究结果中存在P值>0.05时,则要求文章有样本量的推算,或提供研究功效。

3.结果

写论文最主要的目的就是向读者展示研究的结果,论文的核心和精髓主要体现在“结果”部分。因为在“引言”部分,你所提出的问题,均可在“结果”部分找到答案。这部分要求对研究结果进行客观的陈述,既不受其他文献的影响,也不受作者主观意愿的左右。所以图1所示,“结果”部分是一个方形的结构,提示它不需要拓展,只是要客观的陈述。

一份好的“结果”,必须让读者顺着你的思维,一步一步地获得答案。通过文字告诉读者本研究发现了什么;通过表格将具体的数据有条理地展现给读者;通过图形使读者能够直观地理解研究的结果。

3.1研究资料基线的描述虽然有些作者将研究资料基线的描述放在“材料与方法”中,但实际上基线的描述放在“结果”中更加确切。因为“材料与方法”主要是交代研究的计划,至于所收集的病例中年龄多大、男性占多少、病程多长等等,是在结束研究后资料分析时才知道。如果是分组的研究,需要比较各组间的基线是否相同。随访研究还要比较失访者或中途淘汰病例的基线是否有别于组内待分析病例的资料,让读者知道失访或中途淘汰病例是否导致研究的偏倚。

3.2统计学运算结果实验性和分析性研究的结果很大部分是来自统计学运算的结果。这里结合这几年风湿病学论文的“结果”部分常见的一些错误(不一定在本刊)进行讨论,以减少今后的论文继续出现类似问题。

3.2.1P值问题:尽管中华医学会杂志社一直强调“应尽可能给出具体的P值”,但是风湿病学的论文中用“<”或“>”来表示者仍占绝大多数。曾对来审稿件和一些已,根据文章中所提供的资料(如病例数、均数、标准差等)进行复算,发现不少错误或欠缺。例如有些P值在0.05~0.1之间,却被写成<0.05;一个表中,多个组合的比较,作者用“为P值<0.05,为P值<0.01”,为P值<0.001”,复算的结果是“”的数值中有些P值是落在0.01~0.001之间或0.001以下。既然文章中已阐明统计学运算是采用统计软件,计算机运算的结果就肯定是具体的P值,因此论文没有理由不给具体的P值。只有当P值非常小,计算机运算结果显示的P值为0.000”时,论文中才标“P值<0.001”。

3.2.2注意相关强度及其95%可信区间的表示:临床研究的结果常常涉及到相关强度的运算,最常用的是OR值和RR值。有些已发表的论文,作者明明在统计学方法中说用Logistic同归或COX回归,但结果中却找不到OR值或RR值。相关强度及其95%可信区间的运算和意义己在前面几讲中讨论,这里不重复。值得一提的是,不少文章中OR值或RR值的95%可信区间包含了1,P值却<0.05,计算机肯定不会运算出这样的结果。

3.2.3数据必须与研究资料一致:少数论文的结果中,数据与研究资料相差太大。例如一篇长期随访的研究,在“材料与方法”中注明“为1985年1月至2000年12月”,而“结果”中的3个生存曲线图,均显示曲线右端到达25年,究竟是哪个环节出问题呢?

3.2.4避免违反科学的数据:不时见到一些违反科学的数据,使论文成为“垃圾”。例如一篇狼疮性肾炎长期随访的论文,将1组病人的两个结局(人生存率和肾脏生存率)的2条生存曲线描绘在一个坐标上,运用logrank检验,竟能“计算”出其χ2值和P值。计算机是不可能作这种运算的,因为这两条曲线不可能作差异性检验。

3.3全面描述本研究的问题凡是可以进行统计学处理的资料,都应尽量运用统计学处理。但有些资料则需要进行详细的陈述。应该说,该研究资料所能反映的各种结局都应该被陈述。例如,淘汰或失访病例的数量和主要原因;各种疗效和各种副作用;研究中出现的各种问题,包括意外的发现等等。有些意外事件的发生虽然不一定与本研究有直接联系,但也必须如实描述,然后在“讨论”中进行分析,陈述自己对这意外事件的观点。陈述必须客观,不要牵强,也不要讨论和主观推断。讨论和推断必须放到“讨论”中去。

4.讨论

图1所示,讨论部分呈梯形结构,提示这一部分需要根据研究的结果,结合文献的回顾,拓展开来分析讨论,以得出本研究的结论。

多元统计论文范文篇10

少年时代的许宝騄受益于表姐夫徐传元(毕业于美国麻省理工学院)的指导。1928年,许宝騄考入燕京大学化学系,但对数学的浓厚兴趣,促使他改攻数学,并于1930年考入清华大学数学系。期间,深受熊庆来(1893—1969年)、孙光远(1900—1979年)和杨武之(1896—1973年)的教诲。1933年,以优异成绩获得理学士学位。1936年,通过赴英庚子赔款公费留学考试,进入伦敦大学学院(UniversityCollege)的高尔顿(FrancisGaldon,1822—1911)实验室和统计系学习数理统计学。1938年获得哲学博士学位,两年后又获得理学博士学位[2]。

1940年,许宝騄回到抗日烽火中的祖国,受聘为北京大学教授,在西南联合大学任教。1945年,应加州伯克利大学和哥伦比亚大学的联合邀请而前往美国。1947年10月,谢绝众多朋友的挽留,毅然回到中国,此后一直在北京大学任教。

许宝騄是中央研究院第一届当选的5名数学所院士之一。1955年当选为中国科学院学部委员。1979年美国《数理统计学年鉴》高度评价了他对概率论与数理统计学科所做出的卓越贡献。1981年和1983年,科学出版社和德国施普林格(Springer2Verlag)出版社分别出版了《许宝騄文集》和《许宝騄选集》。在美国斯坦福大学统计系走廊里至今悬挂着许宝騄的画像。

1984年,为了纪念许宝騄及推进我国统计学的发展,数学家钟开莱、郑清水、徐利治发起设立“许宝騄统计数学奖”,奖励35岁以下研究数理统计与理论统计的青年工作者。这是我国最高的数学奖项之一。

1问津概率论王国

1880年,英国学者傅兰雅(JohnFryer,1839—1928)和中国数学家华蘅芳(1833—1902年)合译的《决疑数学》是传入我国的第一部概率论著作。由于种种因素,该书对我国的概率论发展没有产生多大影响。辛亥革命后,微积分、近世代数、近世几何学等相继进入我国的高等教育领域,而概率论尚未进入。1915年1月创刊的中国第一份现代科学杂志《科学》曾刊出一篇文章《最小二乘式》,此为我国第一篇概率论文章。后胡明复(1891—1927年)曾撰写《几率论》、《误差论》等一系列论文探讨概率统计的哲学问题[3]。由于受中国传统数学思想的影响,加之近代数学基础薄弱,随机数学在我国发展甚是缓慢。直到20世纪30年代,我国数学家褚一飞、刘炳震、许宝騄、钟开莱等才陆续发表概率论与数理统计的研究论文,拉开了中国对概率论与数理统计研究的序幕。

许宝騄痛感中国数学之落后,怀着满腔的报国热情,决心把自己的事业立足于祖国。由于概率论与数理统计在中国几乎是空白的学科领域,于是,许宝騄以惊人毅力和无私奉献精神为其奠定了基础,并为之振兴付出了毕生精力。

在实际工作及理论问题中,概率接近于1或0的随机事件具有重要意义。概率论的一个基本问题就是探索概率接近于1的规律,特别是大量独立或弱相依因素累积结果所发生的规律。大数定律就是研究这种规律的命题之一。许宝騄对大数定律进行了深入探讨。

强大数定律和弱大数定律取决于收敛的类型。第一个弱大数定律由雅可布·伯努利(JacobBernoulli,1654—1705)提出,刻画了大量经验观测中呈现的稳定性。后泊松(SiméonDenisPoisson,1781—1840)又提出了一个条件更宽的陈述,即泊松大数定律。

切比雪夫(P.L.Chebyshev,1821—1894)第一次严格地证明了伯努利大数定律,并把结果推广到泊松大数定律。1866年,切比雪夫给出著名的切比雪夫不等式,并由此导出切比雪夫大数定律。

第一个强大数定律由法国数学家博雷尔(EmailBorel,1871—1956)在1909年对伯努利试验场合建立。他证得若试验次数无限增加时,频率将趋于概率。博雷尔的工作激起了数学家沿这一崭新方向的一系列探索,其中尤以柯尔莫戈罗夫(A.H.Kolmogorov,1903—1987)的研究最为卓著。他在1926年推导了弱大数定律成立的充分必要条件,后又对博雷尔提出的强大数定律给出了一般结果。

许宝騄进一步加强了强大数定律的结论。其结果为:设X1,X2,⋯,Xn,⋯是独立同分布均值为零、方差有限的随机变量序列,任给ε>0,有Σ∞n=1P1n|X1+X2+⋯Xn|>ε<∞证明是经过一个卷积的富立叶逆转,把问题转化为含有特征函数某个积分的分片估计,这需要具有相当深厚的数学功底和敏锐的数学眼光才能完成。由于推证较复杂,尽管已经得出关于矩的充要条件,但在刊出时删去了必要性的证明[4]。

概率论中的极限定理研究的是随机变量序列的某种收敛性,对随机变量收敛性的不同定义将导致不同的极限定理。许宝騄在“依分布收敛”、“依概率收敛”、“r2阶收敛”和“依概率1收敛”的基础上,创造性地提出“完全收敛性”概念,开辟了概率论极限理论研究的新局面。直到今天,对完全收敛性的讨论仍是一个有意义的课题,这就足以表明该文的开创性价值。正如许宝騄所说:“一篇论文不能因为获得发表就有了价值。其真正价值要看发表后被引用的状况来评价。”[1]许宝騄对中心极限定理也进行了较为深入的研究。“中心极限定理”这个术语是由波利亚(G.Polya,1887—1985)1920年引入的。该定理断言在适当条件下,大量独立随机变量和的概率分布近似于正态分布。在长达两个世纪的时间内极限定理成了概率论的中心课题。

1733年,棣莫弗(A.DeMoivre,1667—1754)由二项分布的渐进分布推导出正态分布。较一般的极限定理由拉普拉斯(Pierre2SimonMarquisdeLaplace,1749—1827)给出,但其证明不完善。

误差分析是概率论的生长点之一。如果把随机变量总和中的每项看作是小的“基本误差”,那么中心极限定理就为观察误差中正态分布的发生给出一个解释。19世纪初高斯(C.F.Gauss,1777—1855)在研究测量误差时引进了正态分布,并发展了具有广泛应用的最小二乘法。

在许多数学家为给出中心极限定理严格证明所做的努力均告失败后,切比雪夫使用矩方法的尝试相当令人鼓舞。马尔科夫(A.A.Markov,1856—1922)于1887年第一个用矩方法给出了中心极限定理的严格证明。切比雪夫的另一个弟子李雅普诺夫(A.M.Lyapunov,1857—1918)则从一个全新角度去考察中心极限定理,引入特征函数这一有力工具,避免了矩方法所要求的高阶矩存在的苛刻条件,在1901年给出了定理的完善证明,其证明方法与现在素数理论中的方法相类似。特征函数实现了数学方法的革命,为极限定理的进一步精确化提供了条件。

一个从理论和应用上都应当关心的问题是,仅知道某个概率分布渐近正态分布是不够的,还必须知道换成正态分布后误差有多大。李雅普诺夫给出这个误差的一个上限。瑞典数学家克拉美(H.Cramér,1893—1985)发现李雅普诺夫所给余数的估计在风险问题中是远远不够的,并于1928年改进了结果。1941年,贝莱(A.C.Berry)再次改进了李雅普诺夫的结果。

许宝騄有一本翻破了的克拉美概率著作,书上几乎写满了批注。他认为该书包含了所有概率论的基础。1945年,许宝騄改进了克拉美定理和贝莱定理,并给出克拉美定理的一个初等证明[5]。他以特征函数为工具,通过12个引理,给出了上述定理的证明。但影响更深远的结果是他将相应的样本均值代之以样本方差。许宝騄说:“关于均值的渐近分布,已知结果如此之多。考尼斯(Cornish)和费希尔(R.A.Fisher,1890—1962)通过半不变量获得了逐步近似于任何随机变量分布的各项。若把考尼斯和费希尔的形式结果转化为一条渐近展开的数学定理,它能给出剩余项大小的阶。在本文中,样本方差就做到了这一步。”[5]

这里许宝騄第一个讨论了样本方差的渐近展开,给出余项阶的估计。他直接引进了一个新维数,用特征函数来近似随机向量的分布,其难点是用特征函数来近似两个高度相关的随机变量的分布。他对特征函数的应用已经达到炉火纯青的境界,在不少论文中对这一技巧信手拈来,应用自如。

许宝騄所采用的方法具有普遍意义,还可以用于解决样本高阶中心矩、样本相关系数及样本统计量的类似问题。他的这一工作在20世纪70年代以后引起了进一步的研究。此后,许宝騄开始研究费勒(W.Feller,1906—1970)对中心极限定理一般形式的充要条件。1947年5月,他得到每行独立的无限小随机变量三角阵列的行和,依分布收敛于一给定的无穷可分律的充要条件。当时一些著名的概率专家,如柯尔莫戈罗夫、辛钦(A.Ya.Khintchine,1894—1959)、格涅坚科(B.V.Gnedenko,1912—1995)、莱维(PaulLévy,1886—1971)和费勒等,都在寻找这一答案,所以许宝騄在给钟开莱的信中说,担心正在进行的工作会和别人相重复。

许宝騄的条件与格涅坚科的不同,后者的“两个尾巴”是并在一起的,而许宝騄则利用核(sint/t)3直接证明。但得知格涅坚科的研究成果已经发表时,许宝騄立即承认了其优先权[6]。因此,在格涅坚科和柯尔莫戈罗夫合著的相关专著英译本再版时,添加了许宝騄的这一论文作为附录。

20世纪50年代中期,许宝騄对马尔科夫过程产生了兴趣,他用分析的方法讨论了关于转移概率函数的可微性。这一工作暗示了分析结构和概率结构的内在联系,为进一步研究奠定了基础。

2涉足统计推断领域

贝叶斯(T.Bayes,1702—1761)的论文《论机会学说问题的求解》可看作最早的一种统计推断程序。拉普拉斯和高斯等利用贝叶斯公式估计参数的研究,促使统计学摆脱观测数据的单纯描述而向强调推断的阶段过渡。

19世纪末,皮尔逊(K.Pearson,1857—1936)明确指出,统计学不是研究样本本身而是要根据样本对总体进行推断,并引进一个分布族,包含正态分布及现在已知的一些重要非正态分布,还提出矩估计法,用来估计分布族中的参数[7]。皮尔逊所提出的检验拟合优度统计量,为大样本统计的先驱性工作。戈塞特(W.S.Gosset,1876—1937)1908年导出的t分布,则开了小样本理论的先河。小样本理论强调样本必须从总体中随机抽取,从而使统计学研究对象从群体现象转变为随机现象。

20世纪20年代费希尔对现代数理统计学的形成和发展做出了卓越贡献。他发展了正态总体下种种统计量的抽样分布理论,建立了以最大似然估计为中心的点估计理论,创立了实验设计,并发展了相应的数据分析方法———方差分析。

1911年,皮尔逊应聘为伦敦大学学院优生学教授,并任生物统计系主任,而费希尔自1933年起任伦敦大学学院教授。他们共同建立和领导了一个有世界影响的数理统计学派,使伦敦大学学院的高尔顿实验室和统计系成为世界数理统计学的研究中心。

1936年许宝騄来到高尔顿实验室和统计系学习时,小皮尔逊(E.S.Person,1895—1980)刚继任父亲的领导工作,任统计系主任;费希尔任高尔顿实验室主任;现代统计学家奈曼(J.Neyman,1894—1981)任统计系教授;一些著名学者也不断来访,如美国的多元分析专家郝太林(H.Hotelling,1895—1973)、频率曲线专家克莱格(C.C.Craig)和概率专家费勒等。频频接触这些“世界级”人物,其发现一般原理、发现科学实质的深邃思想,其才气横溢、思如泉涌的大家风范,其刻苦钻研、锲而不舍的科学精神,都给天资聪慧的许宝騄留下了深刻印象。这对其概率统计思想的形成和发展产生了很大影响,他一生的科学贡献与这段经历是密切相关的。

在奈曼.皮尔逊的假设检验理论建立之初,将这一方法应用于线性模型的线性假设检验问题是一个很有意义的研究方向。费希尔对线性模型的线性假设发展了F检验(起初他称之为Z检验,其学生改进为F检验,用Fisher的第一个字母命名),但这种检验有何优越性或是否存在比它更优越的检验,尚需进一步探讨。奈曼2皮尔逊理论提供了以比较功效函数为基础的方法,涉及到很复杂的精细分析问题,在当时的统计队伍中,具备这样数学素质的为数甚少,许宝騄正是其中的突出者。他敏锐地意识到该课题的重要性,并随之进行了精心研究,发表了一系列相关论文,取得了突破性进展,从而在国际数理统计界争得一席之地。

28岁的许宝騄在奈曼和皮尔逊《统计研究报告》的第二卷发表了关于数理统计学的第一篇论文《Studentt分布理论用于两样本问题》,研究了所谓Behrens2Fisher问题。[8]他创造性地引进统计量u=(X-Y)2(A1S21+A2S22)

其中A1>0,A2>0为常数,来讨论以|u|>c为否定域的检验。许宝騄通过把u的密度函数展开成幂级数,研究了否定域|u|>c的势函数对参数的依赖关系。其主要内容是计算上述U检验的功效函数,并研究该检验在种种情况下的表现[9]。这是一个精确的(不是渐进的)分析,当代统计学家谢非(H.Scheffe)称之为“数学严密性的范本”。据许宝騄的研究结果所给出的方法后被称为“许方法”。

1941年,许宝騄首次证明了方差分析中的F检验在功效函数观点下的优越性。方差分析中任一个效应有无的检验,都可以化为典则形式之下的假设。他证得若假设水平α的检验不是F检验,其功效函数在任一球面上保持常数,则此检验的功效必小于水平α的F检验的功效[10]。这是一元线性假设似然比检验的第一个优良性质,其本质上是对任何特定多于一个参数值假设的第一个非局部的优良性质。许宝騄考察了高斯2马尔科夫模型中方差的最优估计问题,得到了样本方差为总体方差的最优二次无偏估计的充要条件。后来的研究表明,许宝騄的结果是近年来研究方差分量模型和方差最优二次估计的起点。

许宝騄证明了似然比检验在所有功效函数仅依赖于一个非中心参数的所有检验中是一致最强的。这个条件等价于势函数在某一类自然变换下的不变性,由此开创了假设检验的两个发展方向:(1)将所得形式推广到多元问题(郝太林的T2及多元相关系数);(2)提供了获得所有相似检验的新方法。

正是在许宝騄的建议下,其学生席玛卡(J.B.Simaika)和莱曼(E.L.Lehmann)将这个方法用于其他问题,后莱曼和谢飞形成了完备性的概念。

3推进多元分析发展

皮尔逊的数理统计学建立在自然总体的“大样本”基础上,而费希尔则着重处理受控实验中“小样本”的统计分析。后者在数学上占有优势,频频对前者发起攻击,尖锐地批评皮尔逊所提出的x2检验。

奈曼和小皮尔逊在1933年发表了关于假设检验的论文,把检验问题作为一个数学最优化问题来处理,发展了费希尔的研究工作。由于费希尔对皮尔逊有成见,因而对奈曼和小皮尔逊的研究也不以为然,甚至称其编辑的《统计学研究通报》是“一堆破烂货”。由于和费希尔的矛盾,奈曼感到在英国难以发展,于1938年4月应聘为美国加州伯克利大学数学系教授,并筹建了统计实验室。

加州伯克利大学统计实验室在二战后逐步取代了伦敦大学学院的统计系地位,成为世界数理统计学的中心。相比之下,当时苏联在概率论领域虽领先于世界,但在数理统计领域远远落后于美国。在20世纪50年代大力倡导“学习苏联”时期,中国统计学也长时期得不到发展。

奈曼犹如伯乐,慧眼识俊才。他非常器重许宝騄,认为许宝騄是新一代数理统计学家中的佼佼者,一度选定其为接班人。1945年,奈曼邀请许宝騄参加了第一届伯克利概率统计讨论会,并聘请他为伯克利统计实验室教师。校方仅聘许宝騄为讲师,奈曼为此大声疾呼,表示了强烈不满。1946年秋,许宝騄开始在教堂山(ChapelHill)教学,奈曼还曾去看过他。当许宝騄回国时,奈曼一再挽留,想把他争回自己的麾下。回国后,许宝騄也与奈曼保持了多年的联系。许宝騄对科学所做的贡献以及孜孜以求的好学精神,是与奈曼的教诲和影响分不开的。

如果个体的观测数据能表示为P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法称为多元统计分析。主要多元分析方法有:多重回归分析、判别分析、聚类分析、对应分析、典型相关分析、多元方差分析等。许宝騄在哥伦比亚大学和教堂山讲授多元统计分析,培养学生从事这一领域的研究。

自20世纪30年代起,费希尔、郝太林、许宝騄等做出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。1938年到1945年,许宝騄所发表的相关论文一直处在多元统计分析理论的前沿。在多元分析假设检验理论中,许宝騄最先讨论了优良性,是奈曼-皮尔逊的假设检验理论在多元分析中应用的先导。他推进了矩阵论在数理统计理论中的应用。许宝騄把矩阵论中处理问题的方法引进了数理统计的研究,实质上这是一个长方阵在某一变换群下的标准型。有了线性模型的法式,使估计和假设检验问题变得十分简明。

费希尔创立的“n维几何”方法,使数学家们获得了一些重要统计量的精确分布。典型例子是1928年维夏特(J.Wishart)导出了任意维正态样本全体二阶矩的联合分布———维夏特分布。

不少学者给出维夏特分布的不同证明。1939年,许宝騄利用数学归纳法推导出维夏特分布。他假定对n-1,p-1成立来推导对n,p的密度函数。除了密度函数中的矩阵外,还需要一个(p-1)维的正态向量和一个n维的正态变量,在证明过程中所需的分析推导仅仅是n维向量模的平方是x2n分布[11]。专家们一致认为许宝騄的推导方法是最优美的一个。

文中许宝騄的另一个杰作就是得到了现今所称的许氏公式:当n≥p≥1时,有

∫⋯∫f(x′x)dxn×p=πnp2-p4(p-1)Πp-1j=OΓ(n-j2)∫A>0⋯∫|A|n-p-12f(A)dA

该公式是处理20世纪80年代所形成的椭球等高分布统计量的有力工具。

多元分析中一个基本分布是关于随机正定阵相对特征根的分布。线性模型中线性假设的检验问题,都与这些特征根有关。若正定随机矩阵A和B相互独立,各自遵从维夏特分布W(m,Σp×p)和W(n,Σ),且m≥p,n≥p,θ1≥⋯≥θp≥0表示|A-θ(A+B)|=0

的p个根,寻求θ1,⋯,θp的联合密度是一个重要研究课题。在20世纪30年代末,许宝騄和一些著名统计学家,都对其进行了探讨。在众多方法中,许宝騄的方法严密而清晰,他以矩阵微分为工具,计算了一些复杂变换的雅可比行列式,而导出相应的分布[12]。

这个方法的难点是计算雅可比行列式,许宝騄在文章中给出了任意阶的雅可比行列式结果,并证明了3阶行列式情形。其学生安德逊(T.W.Anderson)详细介绍了这一工作,认为某些雅可比行列式的计算是许宝騄的杰作。

许宝騄把数学家分成三流。第一流的数学家是天才,他们能开创新的领域,如柯尔莫哥洛夫、诺依曼(JohnvonNeumann,1903—1957)、维纳(NorbertWiener,1894—1964)等。第二流数学家是靠刻苦学习而成功的。他们认真消化整理前人的东西,在此基础上有所创造和发现,辛钦就属于这一类。第三流的数学家只是在某个问题上有所贡献,不能像第二流的那样系统工作。剩下的就是不入流的数学家了。他认为自己没有才能,所有成就完全是靠刻苦学习而获得。

“三十功名尘与土,八千里路云和月”。许宝騄对科学研究的态度和精神永远值得我们借鉴和学习。

参考文献

1吴文俊.世界著名数学家传记[M].北京:科学出版社,1990.

2江泽涵,段学复.深切怀念许宝騄教授[J].数学的实践与认识,1980,(3):1—3.

3张奠宙.中国近现代数学的发展[M].石家庄:河北科学技术出版社,2000.

4Pao-LuHsu,pleteConvergenceandtheLawofLargeNumber[J].Proc.Nat.Acad.Sci.U.S.A.,1947,33:25—31.

5Pao-LuHsu.TheApproximateDistributionoftheMeanandVarianceofaSampleofIndependentVariables[J].Ann.Math.Statist,1945,16:1—29.

6钟开莱.许宝騄在概率论方面的工作[J].数学的实践与认识,1980,(3):12—15.

7陈希孺.数理统计学简史[M].长沙:湖南教育出版社,2005.

8MorrisLE,RichardAO.RandomQuotientsandtheBehrens2FisherProblem[J].AnnMathStatist,1972,43:1852—1860.

9Pao-LuHsu.ContributionstotheTwo-sampleProblemandtheTheoryofthe“StudentpsT-test[J].Statist.Res.Mem,1938,2:1—24.

10Pao-LuHsu.OntheBestQuadraticEstimateoftheVariance[J].Statist.Res.Mem,1938,2:91—104.

11Pao-LuHsu.AnalysisofVariancefromthePowerFunctionStandpoint[J].Biometrika,1941,32:62—69.

12Pao-LuHsu.ANewProofoftheJointProductMomentDistributions[J].Proc.CambrigePhilos.Soc.,1939,35:336—338.