非参数检验十篇

时间:2023-04-02 06:45:48

非参数检验

非参数检验篇1

[关键词]假设检验 非参数检验 Excel

近年来,非参数统计技术得到迅速发展,已成为现代推断统计的重要分支。因此,在高校经济与管理类统计学的教学中,非参数检验成为一项重要的教学内容。在讲授非参数检验时,老师们会详细讲解其理论基础与算法,但并没有介绍如何使用相关统计软件进行计算与分析。这样的教学方式存在一些明显的缺陷:首先,理论教学与实践相脱节,学生们虽然熟知算法,但动手能力不强;其次,由于没有实际动手,一些同学对理论的理解不透彻。这些都是实际教学中确实存在的问题。为此,我们完全可以在教学中增加一定的实践课时,给同学们讲解使用相关软件进行非参数检验的方法,以弥补现有教学方式的缺陷。

那么,应选用何种软件呢?虽然一些专业的统计软件(如SPSS)能够很容易地实现非参数检验,但根据笔者的经验,在实践教学中,最好选用Excel进行讲解。主要的考虑是,利用Excel中进行非参数检验的计算时,基本上是利用其公式与数学函数、统计函数等功能,逐一实现理论算法的每一步骤,能够加深学生对非参数检验的理解;而SPSS是直接给出结果,并没有中间的步骤,学生往往是知其然,不知其所以然,不能通过实践来巩固对理论的理解。此外,目前Office软件已经普及,大部分同学能够比较熟练地操作Excel,讲解时学生也比较容易接受。

针对经管类统计学教材中常见的非参数检验,本文拟以实例来介绍这些检验在Excel中的具体实现过程,而各种检验的理论背景请参见相关的统计学教材。

一、单样本符号检验

例1.设有20个工人,他们一天生产的产品件数,抽样结果如下:168,163,160,172,162,168,152,153,167,165,164,142,173,166,160,165,171,186,167,170,164,150,152,156,174,178,180,168。试以0.05的显著性水平,判定总体中位数是否是160。

解:首先提出假设:

H0∶η=160H1∶η≠160

利用Excel求解步骤如下:

1.输入数据,见图1。A、B列为原始输入数据,样本数据存放在A2:A29单元格区域,图中未完全显示出来,D、E列为计算得出的结果。

2.计算样本观察值大于中位数的个数(即正号的个数)。在E1中输入如下的公式

=COUNTIF(A2:A29,“>90”)

COUNTIF函数计算区域中满足给定条件的单元格的个数。

3.计算样本容量n(不含0差数)。在E2中输入公式

=COUNT(A2:A29)-COUNTIF(A2:A29,“=90”)

4.计算检验统计量Z。在E3中输入公式

=(E1-0.5*E2)/SQRT(0.25*E2)

5.计算临界值Zα/2

。在E4中输入公式“=ABS(NORMSINV(B2/2))”。

根据以上计算结果,由于2.75 > 1.96,检验统计量的样本值落在拒绝域,故拒绝原假设,即不能认为总体中位数是90。此外,也可通过求二项分布的临界值进行断断。

二、配对样本的符号检验

试用符号检验法检验这两位裁判裁定的成绩是否有显著性差异(显著水平0.05)。

解:提出假设:

5.计算临界值。二项分布临界值可用Excel的分布函数求得。在E7中输入公式“=CRITBINOM(F3,0.5,1-F2/2)+1”即可。其中第一个参数存放的是n;第二个参数是一次试验中成功的概率,根据二项分布临界值表的要求,固定为0.5;第三个参数是概率保证度的临界值,对于单侧检验,它等于1-α,对于双侧检验,它等于1-α/2。因为CRITBINOM返回的是使累积二项式分布概率大于等于1-α(或1-α/2)的最小值,所以根据符号检验的要求,应在上述公式中加1。

由于r=6

=9,所以不能拒绝原假设,即不能认为两位裁判的裁定成绩有显著性差异。

三、威尔科克森配对符号秩检验

该检验也是用于检验配对样本情形下,两总体分布在位置特征上是否有差异。与上一检验不同的是它考虑了配对观测之间差别的大小。首先,将配对观测值之差di

的绝对值按大小递增排列,并从1至n给以秩次。其次,对每个秩次按照di

的正负号赋以正负号。再次,分别对正号秩与负号秩计算秩和,所得之秩和不带正负号,记作∑秩(+)与∑秩(-)。为检验两总体平均水平是否有差异,可建立下列原假设H0∶∑秩(+)=∑秩(-)。两个秩中较小的一个,作为威尔科克森T统计量,将其作为检验统计量(例3略)。

四、卡方独立性检验

该检验主要是考察多个变量之间是否有关联,如果变量之间没有关联性,那么就说变量之间是相互独立的。这里的变量主要是指定类、定序资料。为了分析变量之间的关联性,需要将资料整理成列联表的形式。

例4.抽样调查某地区500名待业人员,这些人员中文化程度为高中及以上的有104人(男44人),初中的有96人(男36人),小学及以下的有300人(男140人)。问此调查结果能否说明待业人员中的文化程度与性别是相互独立的。

解:提出假设:

这些待业人员文化程度与性别是相互独立的这些待业人员文化程度与性别不是相互独立的Excel的计算过程如下。

1.构造工作表,见图3。图中的文字以及方框之内的数字为原始输入数据,其他为公式计算所得。

2.建立期望值表。

(1)计算实际数表中的行合计与列合计

在E4中输入公式“=SUM(B4:D4)”,并将该公式复制到E5:E6单元格区域。在B6中输入公式“=SUM(B4:B5)”,并将公式复制到C6:D6区域。

(2)计算期望值

在B9中输入公式“=$E4*B$6/$E$6”,然后选定B9:D10区域,按Ctrl+R组合键,再按Ctrl+D组合键,即可将公式复制到B9:D10区域中的其他单元格。

(3)期望值表中的行列合计可以参照(1)中的方法,也可以将实际数表中的行列合计公式直接复制到期望值表中。选定E4:E6区域,按Ctrl+C,再单击E9单元格,按Ctrl+V,即可计算出行合计;再选定B6:D6区域,按Ctrl+C,再单击B11单元格,按Ctrl+V,即可计算出列合计。

3.建立卡方统计表,并计算卡方统计量。

在B14中输入公式“=(B4-B9)^2/B9”,并将公式复制到B14:D15区域的其他单元格。最后计算行列合计。此时,卡方统计表右下角的E16单元格中的数值即是所要求的卡方统计量。当然在卡方统计表中,卡方统计量可以直接用公式“=SUM(B14:D15)”求得,这样就不一定要计算行列合计了。

4.计算临界值。显著性水平为0.05,自由度为2,在B18中输入公式“=CHIINV(0.05,2)”即可得到临界值。

根据以上结果,卡方统计量为2.633小于,小于自由度为2的卡方临界值5.991,所以我们不能拒绝原假设,也就是待业人员中的文化程度与性别之间没有显著的关联性。

参考文献:

[1]曾五一,肖红叶.统计学导论[M].北京:科学出版社,2006.

[2]曾五一.统计学[M].北京:金融出版社,2006.

[3]黄良文.统计学(修订第三版)[M].成都:四川人民出版社,2006.

[4]曾五一.统计学概论[M].北京:首都经济贸易大学出版社,2003.

非参数检验篇2

(安徽科技贸易学校 安徽 蚌埠 233080)

摘要:板书教学和多媒体教学是课程教学的重要手段。以电子商务概论课程为例,通过对板书教学和多媒体教学手段下电子商务概论课程教学效果的非参数检验和偏相关分析,明确不同教学手段与电子商务概论教学效果之间关系及其差异性。结果表明,板书和多媒体教学手段与电子商务概论教学效果之间存在强正相关关系,多媒体教学手段的教学效果较板书教学手段好。

http://

关键词 :教学手段;教学效果;非参数检验;PCA分析

中图分类号:G710 文献标识码:A 文章编号:1672-5727(2015)05-0017-04

作者简介:刘晓艳(1985—),女,硕士,安徽科技贸易学校讲师,研究方向为电子商务、教育管理。

基金项目:安徽省职业与成人教育学会2014年度教育科研规划课题“中职学校会计专业人才培养质量的影响因素及提升路径研究”(项目编号:BBB14008);“中职毕业生就业能力培养的路径及对策研究”(项目编号:BBB14007)

教学手段的优劣对课程教学效果具有十分重要的影响。板书教学和多媒体教学是目前常用的两种教学手段。随着计算机和信息技术的广泛运用,多媒体教学已经逐渐替代板书教学成为课程教学的主流。多媒体教学手段的引入旨在提高课程教学效果,但从现有的文献来看,相关的研究主要集中在多媒体教学效果的调查分析、影响因素、评价体系及优化策略等方面。周媛以西北师范大学、兰州大学、甘肃政法学院和兰州交通大学4所学校为例,从多媒体课件质量、教室硬件、教师水平、学生满意度等方面开展了问卷调查,以分析影响多媒体教学效果的因素;魏文忠等人对多媒体教学的学校普及情况、学生适应程度与评价等进行了调查,设计了包括22个项目的测量量表,并采用因子分析法将影响多媒体教学效果的因素归纳为教学节奏、教学效率、教学课件、教学设施、教学技术等5大类;王娟则认为师生对多媒体教学的认知不足、教师信息技术能力不强、多媒体教学技巧和方式单一、共享资源匮乏等是影响教学效果的主要因素;张芝花建立了一个包括科学性、技术性、教学性、学习性、艺术性及教学活动组织性等6个二级指标30个三级指标的评价体系,设定了各指标的权重系数,并以英语多媒体教学效果为例开展了综合评价;王淑芬通过正交实验设计方法分析,认为有利于提高财经管理类多媒体课程教学效果的因素是学生学习能力水平、教师授课时间和课堂互动次数的最佳组合;薄红英从政策体系、培训体系、多媒体资源体系及教学评价体系等方面,探索了提高多媒体教学效果的策略。

关于板书教学与多媒体教学效果的比较研究,尤其是关于具体课程教学效果的计量实证研究成果较少。鉴于此,笔者拟以安徽科技贸易学校的电子商务概论课程为例,通过对板书教学和多媒体教学手段下电子商务概论课程教学效果的非参数检验和偏相关分析,探讨不同教学手段与电子商务概论教学效果之间的关系及其差异性,旨在为提高课程教学效果和人才培养质量提供参考。

一、研究方法

(一)非参数检验

非参数检验是在无法或无需获悉两独立样本总体分布形式的条件下,通过统计学方法和数学技巧等建立统计量,挖掘数据样本背后隐藏的信息,从而比较样本分布位置和形状等是否存在显著差异的一种重要的统计分析方法,其中Mann-Whitney U检验是最主要的方法之一。

(二)PCA分析

PCA分析(Partial Correlation Analysis)即偏相关分析,是通过控制其他变量的影响来分析两变量之间关联程度的分析方法。采用如下公式计算偏相关系数:

建立零假设H0,即两样本的PCA分析与零无显著差异,选择如下偏相关分析检验统计量,通过计算检验统计量的观测值和概率p值,并比较概率p值与显著性水平的差异。

二、教学手段与电子商务概论课程教学效果的关系实证分析

为分析板书和多媒体两种教学手段与电子商务概论课程教学效果之间的关系,并尽可能减少其他因素的影响,笔者分别选取安徽科技贸易学校2012—2013学年和2013—2014学年第一学期2012级、2013级两个独立样本,以上两个样本时间上跨度较小,且电子商务概论课程由同一名专业教师授课。考虑到研究的需要,剔除同一学期电子商务概论、语文、数学、计算机基础期末综合成绩不全以及调查问卷未收回或无效的学生,共得到2012级、2013级两个样本容量分别为31和45的样本。学校期末综合成绩是由期末考试、平时成绩、学习态度和出勤四个部分加权得到的综合成绩,为更准确地分析多媒体和板书这两种教学手段与电子商务概论课程教学效果之间的关系,笔者选取了综合成绩中的期末考试和平时成绩来衡量教学效果。

安徽科技贸易学校电子商务概论课程2013年起采用多媒体教学,而此前采用板书教学。为了比较两种不同教学手段的优劣,需要分析2012级、2013级电子商务概论教学效果两个独立样本数据分布是否存在显著的差异性。将两个独立样本数据混合,按照升序进行排列,并得到每一个数据相应的秩,分别求出两个独立样本数据的平均秩次及秩和,如表1所示。

从表1来看,在2012级、2013级电子商务概论教学效果中分别抽取31个和45个样本,两独立样本的秩和分别为1 036.00和1 890.00,平均秩分别为33.42和42.00。从平均秩次可粗略地看出,2012级、2013级电子商务概论教学效果的秩和存在一定的差异,为检验其差异是否具有统计学意义,通过两个独立样本Mann-Whitney U检验和Kolmogorov-Smirnov检验进行了分析,如表2所示。

从表2来看,取2012级电子商务概论教学效果的秩综合为W统计量,Mann-Whitney U统计量及Z值540.00和-1.666,双尾(2-tailed)近似概率值为0.096,小于显著性水平0.10。因此,2012级、2013级电子商务概论教学效果的分布存在显著差异。

Kolmogorov-Smirnov检验也表明,2012级、2013级电子商务概论教学效果的累积概率最大绝对差、D观测值分别为0.312、1.336,概率p值为0.056,小于显著性水平0.10。因此,拒绝零假设,即2012级、2013级电子商务概论教学效果的分布存在显著差异。

在对相关研究成果进行归纳的基础上,构建以下模型来分析教学手段与电子商务概论课程教学效果之间的关系:

y=α+β1x1+β2x2(5)

其中,y为电子商务概论课程教学效果,x1为教学手段学生满意度,通过建立包括信息量、生动性、互动性、启发性等4个二级指标11个问项的测量量表,并采用李克特LIKERT五分量表法在学生无意识的条件下进行调查并得出;x2为学生基础、学风、班风等综合变量,用语文、数学、计算机基础期末综合成绩表示,如表3所示,α、β1、β2为待定归系数。

为剔除2012级和2013级学生基础、学风、班风等方面的影响,避免出现变量间的虚假相关性,将x2作为控制变量,进行偏相关分析。

表4为剔除了学生基础、学风、班风等方面的影响之后教学手段与电子商务概论的偏相关系数方阵,其中相关系数为0.774,自由度为73,显著性概率p值为0.000,表明两者之间存在强正相关关系。

三、结论及建议

教学手段、学生基础、学风、班风等因素会影响课程教学效果,进而影响人才培养质量。为分析教学手段与课程教学效果之间的关系,笔者首先采用Mann-Whitney U检验和Kolmogorov-Smirnov检验等两独立样本非参数检验方法。以电子商务概论课程为例,分析了安徽科技贸易学校2012级板书教学和2013级多媒体教学这两种不同教学手段下课程教学效果分布存在的显著差异性。在此基础上,通过控制学生基础、学风、班风等方面的影响,分析了教学手段与电子商务概论课程教学效果之间的关系,结果表明:板书和多媒体教学手段与电子商务概论教学效果之间存在强正相关关系,多媒体教学手段的教学效果比板书教学手段的教学效果好。

基于以上结论,提出如下建议:

首先,要加强对教师的多媒体教学培训。许多电子商务教师入职前未接受过专业的多媒体教学培训,对多媒体教学的理解较为狭隘。作为一种新型的、重要的教学手段,多媒体教学集文字、色彩、图形、音像等于一体。要利用好多媒体,就需要强化教师对多媒体教学的认知,教师要明确影响多媒体教学效果的因素,了解学生对不同教学手段的接受程度及差异,掌握多媒体教学的特点,熟练地利用Authorware、Power point、flash、3DMAX、Premiere等软件,进行文本编辑、动画制作和图像处理,科学地管理多媒体硬件教学设施,并探索性地在电子商务概论教学过程中将不同教学手段结合起来,创新教学模式,提高学生学习的积极性和主动性。

其次,要实现多媒体教学资源共享。多媒体教学需要充足的软件、数据、图表、图片、动画、影像、网页、课件等资源,建立多媒体教学资源库,实现对这些资源的共享,是提高课件质量、降低制作成本的有效途径。电子商务概论课程教师要加强沟通与协作,对多媒体教学课件制作和教学中遇到的主要问题和主要困难展开讨论,积极协作,寻求解决方案。学校要鼓励教师借鉴国家精品课程资源,积极申报精品课程,通过精品课件建设平台,形成由电子商务教师和电化教育专业人员共同组成的团队,设计出教学内容和教学环节符合教学目标的优秀多媒体课件,在全校开展课程建设经验交流,并实现多媒体教学资源共享。此外,要增加对多媒体馆藏建设和多媒体资源库的投入。

再次,要完善多媒体教学激励机制。目前,学校电子商务概论多数采用传统板书形式进行教学,少数采用多媒体教学的教师,其课件也是以文字为主,仅将多媒体当作电子屏幕这种“单媒体”使用。一份优秀的多媒体课件,是顺利实现教学目标的重要工具,其字体、颜色、大小、行距、段落、标题需要合理设计,信息量需要合理安排,为提高学生的学习兴趣,还需要适时加入动画、声音、图像等元素,插入超级链接,并且每年要根据情况更新相应的多媒体素材,这需要投入大量的精力。此外,多媒体教学的采用对教师的教学互动、课堂管理、重点难点管理和学生逻辑思维能力培养等都提出了更高的要求。因此,学校要完善相应的激励机制,如可定期举行多媒体教学课件比赛,给予多媒体教学较传统板书教学更高的工作量系数,将多媒体教学与评优评先挂钩,引导教师积极开展多媒体教学。

最后,要构建多媒体教学评价体系。多媒体教学作为一种重要的教学手段,将在中职课程教学中长期存在。要鼓励教师革新教学手段,开展多媒体教学,制定多媒体教学课件制作、教学方法和教学质量评价标准,并构建科学合理的教学评价体系。每学期期初和期末应由教务处统筹、各个系牵头进行教学课件审查,对于教学内容消极、不符合教学要求的,应要求进行整改。要不定期地安排同行和督导对多媒体课件制作质量、教学方法和教学质量等进行评价,期末组织学生进行教学评价,从课件内容与教学大纲的吻合度、课件制作质量、课程考核、专家评教、同行评教、学生评教等方面进行综合评价并形成长效机制,以此促进教师提高对多媒体教学效能的认知和使用的动力,激发教师开展多媒体教学研究与创新的主观能动性,从而有效地提升教学效果。

http://

参考文献:

[1]郭晓光.多媒体教学与板书教学的再认识[J].中国教育学刊,2014(2):71-74.

[2]周媛.高校多媒体教学效果调查分析与策略研究[J].中国大学教学,2010(2):86-88.

[3]魏文忠,王寄鲁,吴玉阁.对多媒体教学效果的调查与分析[J].现代教育技术,2007,17(9):35-37.

[4]王娟.影响高校多媒体教学效果的因素分析与建议[J].电化教育研究,2009(5):96-99.

[5]张芝花.大学英语多媒体教学效果的模糊综合评价与分析[J].教育理论与实践,2010(11):54-55.

[6]王淑芬.基于学生角度的高校财管类多媒体课堂教学效果的优化[J].中国教育信息化,2011(21):65-67.

非参数检验篇3

[关键词]统计学原理 男女生 成绩差异

[中图分类号] O212.1 [文献标识码] A [文章编号] 2095-3437(2013)14-0150-02

一、期末测试成绩

中国海洋大学2012年秋季学期大学日语Ⅱ(2011级)男女生期末测试成绩如下:

男生(n1=13):

97 96(2) 90 86 84 83(2) 80 75 53 33 18

女生(n2=25):

98(2) 97 96(2) 95 93 92 91 90(3) 89 88 87 85 84 83 82 81 80 79 78 70(2)

二、中数

中数(Md)也称为中位数,是指在频数分布中位于中间位置的那个数值。它反映的是一组数据的集中趋势,也称为集中量数。

(一)列频数分布表(部分数据)

(二)计算中数的位置

中数的位置=■=■=19.5

即中数的位置在第19位和第20位的两个数值中间。

(三)找出中数

在本案例中,由于排列在中数位置上的数值是87和85(2个85重复)之间的数值。在计算上可将其视为一个分数单位上的几个连续数字,即3个数值是均匀分布在87-85区间。

如图所示:

-88---87----85-----85-----84-----

第19区间 第1个20区间 第2个20区间

假设每个区间的间隔为1/3=0.33,则案例中的中位数位于第19位和第20位(2个)三个数值中间,即为第1个20区间的上限(0.33÷2≈0.17),因此中数(Md)=85+0.17=85.17≈85

(四)中数的优缺点

当一组测试结果出现极端数据时,常用中数。这样做并不影响进一步的统计分析。因为求中数不受极大值和极小值的影响,决定中数的关键是居中的那几个数据的数值大小。如在本案例中,33和18就是两个极小值。但中数也有一些不足之处,如中数是根据数据的相对位置来确定的,在计算时不是每个数据都加入计算,从而有较大的抽样误差,不如平均数稳定。

三、中数检验法

(一)计算原理

中数检验法是通过对来自两个独立总体的两个样本的中位数来判断两个总体取值的平均状况是否有显著性差异。它的基本思想是假设两个总体总有相同的分布规律,那么它们的取值将具有相同的平均状态,中数是集中趋势的度量,因此两个总体的中数应该是相等的。两个样本是从两个总体中随机抽取出来的,那么两个样本的总数也应该大致相同。如果两个样本的总数差异较大,则应否定两总体取值平均状态相同的假设,或者说两总体不具有相同的分布规律。因此其虚无假设是:两个独立样本是从具有相同中数的总体中抽取的。它可以是双侧检验或单侧检验。双侧检验结果显著,意味着两个总体中数有差异(并没有方向);单侧检验结果显著,则表明备择假设“一个总体中数大于(或小于)另一个总体中数”成立。

(二)计算过程

中数检验法的具体步骤为:

(1)将两个样本数据混合由小到大排列。

(2)求混合排列的共同中数(Md)。

(3)分别找出每一样本中大于混合中数及小于混合中数的数据个数,列成四格表。

(4)对四格表进行X2检验

查X2表求得临界值,若实得X2值大于临界值,X2检验结果显著,则说明两样本的集中趋势(中数)差异显著。

四、虚无假设和备择假设

(1)建立虚无假设和备择假设。

H0:男女生的期末成绩没有差异。

H1:男女生的期末成绩有差异。

(2)选择并计算检验统计量。

根据前面计算与推断已知:中数(Md)=85。以下统计男女生成绩大于和小于85的数据个数,并列成四格表。

X2=■

=■=1.59

(3)根据显著性水平α确定临界值。

设α=0.05,由df=1,查X2分布表,求得X20.05 (1)=3.84。

(4)根据统计结果,做出推论结论:

因实得X2=1.59,而X20.05 (1)=3.84;故X2X20.05 (1)。

所以不能拒绝虚无假设,认为男女生期末成绩无显著差异。

五、两独立样本的非参数检验

中数检验法是通过对来自两个独立总体的两个样本的中位数来判断两个总体取值的平均状况是否有显著性差异。中数检验法属于两独立样本的非参数检验。

非参数检验一般不需要严格的前提假设。这是它与参数检验相比的最大优点。几乎每种参数检验都有一些严格假设,若不满足这些假设仍然有参数方法处理,很可能得出错误结论。而进行非参数检验不必过多考虑那些假设条件。比如在参数检验中,无论是Z检验、T检验还是F检验,它们对总体参数都有相应的前提假设,如T检验中要求样本来自正态分布的总体,若是两独立样本的T检验,还要求两个总体方差齐性。在方差分析中,需要满足正态性、可加些、各组方差齐性等基本假设。

但在本案例中,我们并不清楚总体分布是否呈正态,或者对研究总体的其他情况知之不多,这时数据无法满足参数检验的诸多要求和假设。鉴于上述情况,本检验采用了不需要根据总体的分布及参数进行统计的方法――非参数检验(中数检验法)。非参数检验不必过多考虑那些假设条件,对总体分布不做严格假定,这种方法是依据数据的顺序、等级资料即可进行统计推断,在实践中得到了极为广泛的应用。不过非参数检验也有不足之处。最大的不足是未能充分利用资料的全部信息。例如本案例中,把全部分数按顺序排列后转化为序列数据,即用第一位、第二位等来表示,然后计算中数位置,找出中数,进行X2检验。这时数据变得相对简单,分数之间的差异多样性也变得简单化了。因此,如果某些资料既可以用参数检验,也可以用非参数检验,则应使用参数检验。若所得资料不满足参数检验要求的前提条件,则应使用非参数检验,虽然会浪费一部分信息使得检验的效能低一些,但不至于做出错误结论。

[ 参 考 文 献 ]

[1] 刘翔平,葛鲁嘉.男女差异心理学[M].北京:北方妇女儿童出版社,1988:41-91.

[2] 贾进强.性别心理差异探秘[M].北京:中央民族大学出版社,1997:4-171.

[3] 朱曼殊.心理语言学[M].上海:华东师范大学出版社,1990:91-98.

[4] 黄崇龄.性别差异与大学外语教学――对外语学习中女强男弱现象的分析[J].同济大学学报.(社会科学版),2004,15(1):108.

[5] 王初明.应用心理语言学――外语学习心理研究[M].长沙:湖南教育出版社,1990:105-128.

非参数检验篇4

关键词:Friedman检验;Spearman秩相关系数检验;基金公司

中图分类号:F27文献标识码:A文章编号:1672-3198(2008)07-0229-02

1 样本、数据和操作方法

国内现在共有59家基金公司,我们根据其旗下基金数目选取排在前十位的基金公司,它们分别是:华夏、国泰、华安、博时、嘉实、大成、富国、易方达、南方、鹏华十家基金管理有限公司。

本文使用的大部分数据均来自Wind资讯,同时采用年几何平均风险收益率来度量各家基金公司的投资绩效,计算公式是:

n为根据时间频度决定的收益率个数。

2 具体检验过程

2.1 Friedman区组检验

Friedman分析方法是一种用于有交互作用的双因子方差分析的非参数统计方法。它在检验中考虑到了不同区组(即本例中不同年份)的影响,将处于同一区组的样本观测值由小到大排列求其相应的秩,并计算秩的组间平方和。本例中,由于不同年份的几何平均风险收益率有一定的联系,所以可用Friedman分析方法进行分析,以判断十家基金公司是否存在不同的风险收益率。

同样由P值可以看出,对公司因素来说,F=3.26,P=0.005

2.2 Spearman秩相关检验

既然各家基金公司的投资绩效有显著的不同,那么投资者可能就会关心一个企业的年平均收益率到底受到什么因素的限制。对于这个问题,很多人会不假思索地认为规模越大的基金公司带来的收益率也越大,为了说明这个看法是否正确,我们拟定使用非参数统计分析中的Spearman秩相关方法进行检验。

Spearman相关系数检验不同于参数统计中的相关检验,它是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数检验。它的检验统计量是:

可以发现,2003-2006各年度各基金公司总资产净值与收益率并不存在相关性,这也就间接说明了在短期内,各家公司的投资绩效与其投资规模并没有相关关系。

3 结论

从以上通过非参数统计方法得到的结论可以看出,目前中国国内的各家基金公司的投资绩效存在着明显的差异,这可能与各家基金公司的管理水平、管理方法等因素有关,但我们不能认为它们的差异会受到自身规模的影响,因为通过Spearman秩相关系数检验得到P值都表明我们没有足够的理由拒绝原假设:两者相互独立。

希望国内投资基金的中小“基民们”,在选择投资哪支基金时,不能仅仅考虑基金公司的规模大小,一定要综合考虑基金公司的管理能力、风险规避能力以及当时的市场状况,这样方能使自己的投资立于不败之地。

参考文献

[1]王静龙,梁小筠.非参数统计分析[M].北京:高等教育出版社,2006.

非参数检验篇5

[关键词]区间估计的精度 枢轴量 UMAU

[中图分类号]O212.1 [文献标志码]A

引言

基于统计数据对未知的参数进行统计推断在实践中有着广泛的应用,其理论基础就是数理统计的两个重要分支,即参数估计和假设检验。参数估计问题又包括点估计和区间估计,其中区间估计问题相对于点估计而言有着独特的优势,它不仅给出了参数的存在范围,而且还给出了该范围包含参数的可信度。区间估计问题不仅和参数的假设检验密切相关,而且,当参数的置信区间收缩为一个点时区间估计就退化成了点估计,即区间估计问题也可以视为点估计的推广。众所周知,刻画一个参数的区间估计优劣的指标是精度和信度,信度是指置信区间包含参数真值的概率,而区间估计的精度可通过置信区间的长度(长度越小精度越高)或置信区间包含参数非真值的概率(概率越小精度越高)来表示。人们自然希望参数区间估计的精度和信度都越高越好。然而,一定条件下,提高了区间估计的精度就会降低区间估计的信度,反之亦然。所谓最优置信区间,就是在一定的置信水平下,精度最高的置信区间,然而这样的区间一般并不存在。于是,人们转而探求在选定枢轴量或附加无偏性等前提下的最优区间估计问题。文献中对参数区间估计的精度问题已有许多的讨论,提出了不同的算法。比如,对均匀分布中参数最优置信区间的讨论[1],[2],伽马分布中参数的最优区间估计的研究[3],正态总体方差最优置信区间的算法[4],[5],对非对称分布参数置信区间的讨论[6],对参数区间估计问题与假设检验的关系的研究[7],以及关于最优风险无偏区间估计的讨论[8]等。本文基于枢轴量方法讨论了区间估计精度的两种不同表示,及其与对应的双边检验问题的关系问题,证明了当选定的枢轴量为参数的线性函数时求解平均长度最小的置信区间问题可简化为确定最小接受域的优化问题,最后,通过实例说明了用数值算法求解最短置信区间的基本思想。

置信区间精度的讨论

参数的区间估计问题和参数的假设检验问题密切相关。一般说来,参数的假设检验问题也可以通过区间估计的方法来处理。然而,这两个问题又不完全等价。为了说明区间估计的精度以及区间估计与对应假设检验问题的关系,我们首先引入几个相关的基本概念。

求解参数的区间估计问题有枢轴量方法,信仰分布方法,似然比方法,渐进分布方法,Bootstrap自助法等许多的方法。其中,枢轴量方法是求解参数区间估计问题最常用的一个方法。借助枢轴量方法来求解正态总体参数的区间估计问题时,涉及到的枢轴量的分布可能是标准正态分布,卡方分布,F分布,或T分布,这些分布的密度函数有一个共同的特点,就是他们都是单峰函数。事实上,当所选取的枢轴量的分布具有单峰密度函数形态时,可以证明,一定置信水平下置信区间长度最小的置信区间一定是存在的而且是唯一的。

引理[11]设,x1,x2,…,xn是来自总体ξ的样本,总体ξ的分布函数为F(x,θ),θ,为未知参数,枢轴量T=(T1,…,Tn;θ)的分布密度函数为p(x),假定p(x)与θ无关,且是单峰一阶可微函数,则θ的最优置信区间存在而且是唯一的。

参数的区间估计问题与参数双边假设检验问题密切相关,如果区间估计的精度用包含非真值的概率最小为标准,那么与参数θ的置信水平为1-α的一致最优无偏(UMAU)区间估计问题对应的就是关于原假设H0∶θ=θ0的水平为α的双边一致最优势无偏检验(UMPU)问题。即参数θ的置信水平为1-α的所有无偏区间估计中,包含非真值概率最小的置信区间可以由对应的UMPU检验问题导出。尽管这个导出的置信区间的长度不一定是最短的,但在θ所有无偏置信区间中它一定是平均长度(置信区间长度的数学期望)最小的。

若选取的枢轴量不是或不能变换成参数θ的线性函数,此时要寻找一定置信水平下长度最短的置信区间,可借助数值算法来实现。其基本思想是若a≤T(X,θ)≤b等价于

最后,我们用一个正态总体方差区间估计的例子来对比说明,优化算法与教材中传统的等尾截取方法得到的置信区间长度的差异。设已知正态总体容量为n的一个样本,样本方差S2=0.5419。对于不同的样本容量n(5~20),分别用传统等尾截取方法和黄金分割优化算法求得的总体方差置信水平为95%的置信区间,结果如表2所示(Text_Chi2表示运用传统方法的解,New_Chi2表示优化算法的解):

如表所示,样本容量越大,优化算法对σ2置信区间的精度提高的就越小。这是因为随着样本容量的增加根据中心极限定理,枢轴量的分布越来越趋近于正态分布。但当样本容量较小时,相比于优化算法用传统的等尾截取的方法得到的置信区间精度较低,即教材中一般采用的等尾截取的方法只适用于样本容量较大的情形。

结论

围绕提高参数区间估计的精度问题,讨论了区间估计精度的两种不同表示及与之相关的双边检验问题的关系。 证明了基于参数的线性枢轴量求解平均长度最小置信区间的问题可简化为最小接受域的优化问题。 最后,通过一个实例说明了用数值算法求解总体方差最短置信区间的基本思路,揭示了传统等尾截取方法的使用范围。

[参考文献]

[1]曾艳.均匀分布参数的最短置信区间[J].赤峰学院学报(自然科学版),2011,9.

[2]潘高田,胡军峰.小样本的均匀分布参数的区间估计和假设检验[J].数学的实践与认识,2002,32(4).

[3]姜培华.伽玛分布参数的最优区间估计和最佳双边检验[J].安庆师范学院学报,2010,16(2).

[4]王建华,张来成.正太总体方差的最短区间估计和最佳双边检验[J].数学实践与认识,2003,33(2).

[5]姜培华.两正太总体方差比的最优区间估计和最佳双边检验[J].菏泽学院学报,2011,33(2).

[6]张庆平.非对称分布置信区间的分析[J].统计与决策,2007(9).

[7]陈乃辉.关于区间估计与假设检验的最优性[J].工科数学,2002,02.

[8]崔雅莉.最优风险无偏区间估计探究[J].时代教育,2011,8.

[9]刘剑平,朱坤平,陆元鸿.应用数理统计[M].上海.华东理工大学出版社,2012.

[10]茆诗松,王静龙.高等数理统计.第二版[M].北京:高等教育出版社,2006.271-300.

[11]孙慧玲.用非线性规划证明最短置信区间存在性与唯一性[J].北京联合大学学报,2008,22(4).

[12]E. Rozeta, S. Rudazb, R.D. Marini, E. Ziémons, B. Boulanger, Ph. Hubert. Models to estimate overall analytical measurements uncertainty:Assumptions, comparisons and applications[J]. Analytica Chimica Acta,2011,702,160-171

[13]Albert Vexler , Sergey Tarima. An optimal approach for hypothesis testing in the presence of incomplete data[J]. Ann Inst Stat Math,2011,63,1141-1163.

非参数检验篇6

关键词: TAR与M-TAR模型;Monte-Carlo模拟;非对称性;检验势

中图分类号:F224.0 文献标识码:A 文章编号:1003-5192(2008)06-0067-06

Research into the ADF and PP Methods in Asymmetric Unit Root Test

LIU Han-zhong1, LI Chen-hua2

(1. College of Economics and Commerce, Hunan University of Commerce, Changsha 410205, China; 2. Academe of Economics and Management, Hunan University ofCommerce, Changsha 410205, China)

Abstract:Economic theory often predicts that some economic variables display asymmetric threshold autoregressive adjustments towards their long-run equilibrium, but standardADF and PP test methods are misspecified in this case, consequently, may suffer from a lack of power against such alternatives. This paper aims to study the power of ADF and PP against such alternatives as TAR or M-TAR, and analyse some reasons for that. Mont-Carlo experiments demonstrate that the Asymmetry and mean-reversion of the data plays a important role in the power of ADF and PP methods; and when the Asymmetry and mean-reversion is very strong, the power of ADF and PP test falls dramatically, but the PP method is less powerful than the ADF test.

Key words:TAR and M-TAR model; Monte-Carlo simulation; asymmetry; test power

1 引言

在现代经济学的数量分析中单位根检验已经成为不可缺失的重要方法,众所周知许多经济变量呈现出非平稳的数据生成过程(DGP),其中单位根过程(即I(1)过程)无疑是最主要的数据形式,因此对变量进行单位根检验可以避免经典回归分析中的“伪回归”问题,因为如果对相互独立的单位根过程进行回归分析时,回归方程往往会通过所有的显著性检验。目前ADF和PP法已经成为了单位根检验的最主要方法,但是ADF[1]和PP[2]都是基于线性自回归模型而构造的,对非线性自回归模型的单位根检验并不适用[3~5],同时在非线性自回归模型中应用最广泛的是阈值自回归模型[6],刻画了自回归“衰减”随着一些变量值的不同而呈现不同的“衰减”速率;冲量阈值自回归模型(Momentum-TAR,简记为M-TAR)是由Enders和Granger[7]引入到经济分析,刻画了自回归“衰减”随着一些变量变化程度的不同而呈现不同的“衰减”速率。Perron[8]认为当时间序列数据在任何时候发生突变时,即使变化前后的两段都各自表现出平稳性,仍会使单位根检验的检验势大大下降。虽然Perron首次发现了这个问题,但是他只是对时间轴上发生的结构突变情况进行了研究,而本文是对TAR或M-TAR下的单位根检验势进行系统研究。Balke和Fomby[3]运用Engle-Granger[9]的两步协整检验法,对ADF和PP分别在EQ-TAR、Band-TAR与RD-TAR三种阈值自回归误差下的检验势进行了模拟研究,但是没有对ADF和PP检验在非对称单位根检验中的适用性进行研究,因此本文将对ADF和PP方法在非对称TAR和M-TAR模型下的检验势进行模拟研究与原因分析。

2 TAR、M-TAR模型和单位根检验

2.1 TAR模型

根据Tong对TAR模型的描述,TAR模型的定义如下

在以上模型中,每个Ai上拟合一个线性自回归模型,分割由转换变量Xt-d来确定,通常由下式来决定:Ai=(γi-1,γi],-∞=γ0<γ1<…<γk=∞,在这里γi是阈值(Threshold Value)。事实上该模型是自激励阈值自回归模型(Self-exciting Threshold Autoregression,简记为SETAR)的一种特殊形式,它可以广泛用于不同领域的各种非线性建模,包括经济学、环境科学、金融学以及人口动力学等。在这个模型中,我们假定阈值是不连续的(Discontinuity),如果阈值是连续的,则此时的模型被称为光滑转换自回归模型(Smooth Transition Autoregression,简记为:STAR),这个模型已被Granger和Terasvirta[10]详细讨论过,国内许多学者[11]也对该模型在我国货币政策中的应用研究作了详细的讨论。在本文中由于简单起见我们只讨论当阈值是不连续的情形。

2.2M-TAR模型

冲量阈值自回归模型(Momentum Threshold Autoregression,简记为M-TAR)由Enders和Granger引入到经济分析中,与TAR模型的主要区别在于转换变量不同。在TAR模型中以滞后的时间序列作为转换变量。而在M-TAR中,转换变量不再是滞后的时间序列,而是滞后的时间序列变化量,其它变量含义与TAR模型相同。即

(3)式和(1)式的唯一区别在于:在(1)式的TAR模型中转换变量是Xt-d,而在(3)式表示的M-TAR中转换变量不再是Xt-d,而是ΔXt-d。Enders和Granger认为TAR模型可以捕捉时间序列中的“深”的特征,而M-TAR模型可以捕捉时间序列的“尖”特征。时间序列的“深”和“尖”特征是由Sichel[12]在研究美国的GNP、失业率与工业总产值的周期波动过程中,发现它们的周期波动呈现“深”(Deepness)和“尖”(Sharpness)的非对称特征,所谓“深”是长期趋势以下的周期成分和长期趋势之上的周期成分的“衰减”(decay)速度不一样。所谓“尖”是指上升的周期成分与下降的周期成分呈现不同的“衰减”速度。Enders和Siklos[13]也对TAR模型和M-TAR模型的性质作了详细的比较研究。

2.3 单位根检验

传统的单位根检验假定时间序列是线性和具有对称调整机制,即基于以下的回归模型

ΔXt=θXt-1+εt(4)

其中εt是白噪声序列或具有自相关的随机项,对(4)式进行对称单位根检验的主要方法是DF、ADF和PP检验。如果接受原假设即θ=0,则认为Xt是单位根过程,反之认为是对称调整的平稳过程。即ADF和PP检验的原假设和备择假设为

H0:单位根过程H1:对称调整的平稳过程

而随着经济理论的发展,许多经济变量呈现出非对称的调整行为,这种非对称调整机制可以通过阈值自回归模型(即TAR)或冲量自回归模型(即M-TAR)来刻画,且在交易成本等经济分析中具有非凡的应用价值。因此具有非对称调整行为的单位根检验中,原假设和备择假设分别为

H0:单位根过程

H1:非对称调整的平稳过程(TAR或M-TAR模型)

如果采用传统的ADF对以上原假设进行检验是不适用的,因为ADF方法是针对线性自回归模型而构造的,对非线性自回归模型并不适用[14],但是Pippenger和Goering并没有对PP单位根检验法在非对称单位根检验中的适用性进行研究,因此本文采用Monte-Carlo模拟来揭示ADF和PP方法在非对称单位根检验中的适用性;同时由于经济分析中普遍存在异方差,所以也对ADF和PP法在异方差下的检验势进行了MC模拟研究。

3 ADF和PP检验在TAR与M-TAR模型下的检验势研究

3.1 在TAR下的检验势研究

为了进行MC模拟研究,我们特构造以下的Two-Regime的TAR模型

Xt=ρ1X

首先根据(5)式和(6)式分别生成Two-Regime或Three-Regime阈值自回归模型Xt。为了应用ADF和PP检验,对随机误差项εt施加自回归条件:εt=0.6εt-1+ηt,其中ηt是相互独立的N(0,1)。如果是异方差情形,对随机变量ηt的方差施加GARCH(1,1)的异方差,其表达式为:σ2t=1+0.12t-1+0.85σ2t-1,在模拟中样本容量T=50、100、200,每种情形模拟1000次,所有初始值都设为0,方差的初始值设定为1,因此为了消除初始值的设定对检验所带来的影响,模拟中去掉数据列的前200个数据。显著性水平分别为5%、10%,利用AIC准则确定最佳滞后阶数。

从表1得出如下结论:首先,不论是同方差还是异方差,ADF和PP检验会随着模型的非对称性程度越大(即在Two-Regime的TAR模型中,不同Regimes中自回归系数相差越大或在Three-Regime模型中,除中间Regime之外的自回归系数相差越大),则检验势都呈下降趋势,但是PP法的检验势比ADF的检验势下降幅度要大,如在样本容量为200、5%显著性水平下,随着非对称程度的加大,同方差下ADF的检验势由1.0下降到0.304,而PP的检验势由1.0下降到0.203;在异方差下ADF的检验势由0.995下降到0.301,而PP的检验势由1.0下降到0.210。这主要是因为当非对称程度越大,ADF和PP法具有越严重的设定误差,会导致检验势下降;而另一方面由于非对称程度加大使得数据的均值回复时间发生变化而导致检验势发生变化,两种效应叠加使得ADF和PP检验势下降。其次,在每一种情形中,两种方法的检验势都随样本容量的增大而增大,但是PP法的检验势随样本容量增大而增加的幅度在大多数情形比ADF法要大,可能的原因在于PP法是一种非参数方法,要求更多的样本;第三,在Three-Regime的TAR模型的检验势要低于Two-Regime的TAR模型的检验势,这主要是因为在Three-Regime的TAR模型的中间Regime服从单位根过程,增大了数据过程的均值回复时间;第四,是否存在异方差对ADF和PP的检验势没有明显的规律性影响。第五,在Three-Regime的TAR模型的检验中,随着中间Regime的单位根过程的加宽,ADF和PP检验势呈现出没有规律性的变化,原因在于加宽中间Regime的单位根过程的不同设定具有不同的均值回复时间,因而ADF和PP检验势也会发生变化。

3.2 在M-TAR下的检验势研究

首先生成冲量阈值自回归模型Xt,数据生成过程同(6)式,只是此时的转换变量为ΔXt-1,参数的设定、显著性水平、样本容量以及GARCH异方差形式与TAR模拟相同,表2为模拟结果。

从上面的模拟结果来看,首先,ADF和PP在检验M-TAR时比检验TAR时具有较高的检验势,可能的原因在于在其它条件(自回归系数都是大于0的正数,在经济时间序列中往往如此)都相同的情况下,M-TAR模型的“持久性”(persistence)一般要小于相应的TAR模型,因而在M-TAR模型中的均值回复时间往往要小于TAR模型的均值回复时间,这样M-TAR模型的ADF和PP统计量比TAR模型的ADF和PP统计量要更加左偏,拒绝单位根原假设的概率也增大。“持久性”反映了数据的均值回复时间的长短特征,如在一阶线性自回归即AR(1)模型中,当一阶自回归系数(大于0的正数)较大时,则数据的均值回复时间较长,“持久性”也较强,当一阶自回归系数(大于0的正数)较小时,则数据的均值回复时间较短,“持久性”也较弱;其次,在Two-Regime和Three-Regime的M-TAR模型中,随着非对称程度的增加,ADF和PP的检验势都呈上升趋势。究其原因在于随着M-TAR的非对称程度加大,一方面检验式的设定误差会导致ADF和PP检验势下降,而另一方面非对称程度加大使得数据的均值回复时间发生变化而导致检验势发生变化,两种效应叠加使得ADF和PP检验势上升。这与TAR模型下的ADF和PP的检验势变化趋势正好相反。第三,在异方差下两方法的检验势影响不明显。第四,在Three-Regime的M-TAR模型中,随着中间Regime的单位根过程加宽对ADF和PP法的检验势影响也不明显,具体的原因在于中间Regime的单位根过程加宽的数据设定的不同也是影响ADF和PP检验势的主要原因。

4 结论

ADF和PP检验虽然已经成为单位根检验的标准化方法,但是近年来随着经济学理论的发展,许多经济变量具有非对称自回归非线,因此新的非对称单位根检验方法论的研究已经成为目前时间序列计量经济学的重要领域之一。显然传统的ADF和PP单位根检验法由于检验式的设定误差已经不能适应非对称单位根检验。本文的模拟结果也显示了随着序列的非对称程度的加大,在TAR模型下ADF和PP的检验势都呈下降趋势;而在M-TAR下ADF和PP的检验势都呈上升趋势。究其原因:随着TAR或M-TAR的非对称程度加大,一方面ADF和PP检验式的设定误差也增大,因而其检验势也下降;而另一方面非对称程度加大使得数据的均值回复时间发生变化而导致检验势发生变化,两种效应叠加使得ADF和PP检验势在不同的模型下具有不同的变化规律。其次,在非对称程度保持不变,而转换变量不同,此时M-TAR的检验势要高于TAR模型的检验势,究其原因:TAR模型比M-TAR模型回复均值的时间要长(即“持久性”较大),因而M-TAR模型的检验势要高于相应的TAR模型的检验势。再次,在非对称程度和转换变量都相同的情况下,Three-Regime的TAR或M-TAR比相应的Two-Regime的TAR或M-TAR模型的检验势要低,究其原因:在Three-Regime中由于中间Regime中数据呈单位根过程,所以数据序列的均值回复时间比Two-Regime数据序列的均值回复时间要长,因而“持久性”也较强导致检验势下降。另外由于ADF和PP检验式的设定不同,ADF法的检验式是根据信息准则来确定滞后阶,不同的信息准则就有可能得到不同的滞后阶数,因而有可能得到不同的结论。因此在同一模型的单位根检验中,在检验式的设定上PP法比ADF法具有优势,原因在于:PP检验通过非参数方法可以全部剔除干扰项自相关对检验所带来的影响(检验式中不包含被解释变量的滞后项),而ADF只是通过增加滞后项来减弱自相关的影响,不同的信息准则具有不同的滞后阶数。但是在我们的MC模拟中反映出大多数情况下ADF检验势要高于PP检验势,其中可能的原因在于样本容量较小。由于PP是非参数方法,它的有效性要求样本容量较大,所以随着样本容量的增大PP的检验势增加较ADF法快,这一点在我们的结果中得到了充分的反映。最后,ADF和PP法在非对称单位根检验中,异方差对两方法的检验势不存在明显的规律性影响。还有一点需要说明的是在理论上随着Three-Regime的TAR或M-TAR模型中间Regime的单位根过程加宽,会导致ADF和PP的检验势下降,而在模拟中表现不明显,原因在于加宽中间Regime的单位根过程的不同设定具有不同的均值回复时间,因而ADF和PP检验势也会发生变化。

参 考 文 献:

[1]Dickey D A, Fuller W A. Likelihood ratio statistics for autoregressive time series with a unit root[J]. Econometrica, 1981, 49: 1057-1072.

[2]Phillips P C B, Perron P. Testing for a unit root in time series regression[J]. Biometrika, 1988, 75: 335-346.

[3]Balke N S, FombyT B. Threshold cointegration[J]. International Economic Reviews, 1997, 38(3): 627-645.

[4]刘汉中.Enders-Granger方法在协整检验中的应用研究[J].数量经济技术经济研究,2007,24(8):137-144.[5]刘汉中.具有GARCH(1,1)-正态误差项的非对称单位根检验研究[J].统计研究,2007,24(11):74-79.

[6]Tong H. Threshold models in non-linear time series analysis[M]. New York: Spinger-Verlag, 1983.

[7]Enders W, Granger C W. Unit-root tests and asymmetric adjustment with an example using the term structure of interest rates[J]. Journal of Business & Economic Statistics, 1998, 16(3): 304-311.

[8]Perron P. The great crash,the oil price shock and the unit root hypothesis[J]. Biometrika, 1989, 57: 1361-1401.

[9]Engle R F, Granger C W J. Cointegration and error correction: representation, estimation and testing[J]. Econometrica, 1987, 55(2): 251-276.

[10]Granger C W J, Terasvirta T. Modeling nonlinear economic relationship (advanced texts in econometrics)[M]. Oxford University Press, New York, 1993.

[11]王少平,彭方平.我国通货膨胀与通货紧缩的非线性转换[J].经济研究,2006,(8):35-44.

[12]Sichel D E. Business cycle asymmetry: a deeper look[J]. Economic Inquiry, 1993, 31(2): 224-236.

非参数检验篇7

【关键词】国债期货市场;弱式有效性;随机行走

引言

金融资产的价格是否可以利用资产价格的历史变化来构造其未来价格变化的预测问题,是最早且最持久的金融计量经济学的问题之一。根据美国芝加哥大学著名教授尤金・法玛(1970)的定义,如果市场中的价格已充分反映了可得信息,那么这个市场就是有效的。其中,弱有效(Weak form efficient)是有效市场的第一个层次,如果当前价格已完全反应了过去的价格信息,那么这就是弱有效。弱有效假说的推论就是过去的价格对未来价格没有预测能力,股票价格收益率序列在统计上不具有”记忆性”,所以投资者无法根据历史的价格来预测其未来的走势,人们无法根据过去的价格信息进行有价值的预测,任何投资者都不可能通过信息处理获取超额收益。市场的有效性是一个重要的金融学理论和现实问题,市场有效性是衡量市场信息分布和流速、交易透明度和规范程度的重要标志,是证券市场成熟与否的重要标志。只有当市场具有效率,价格才能准确正确反映资源的稀缺性,并导致资源的有效配置。

我国国债期货试点虽然由于一些机构投资者严重违规只经历了三十个月被暂停,但是依然是我国目前为止发展规模最大的金融衍生品,其影响深远。国债期货市场有效性如何,是投资者和监管者共同关心的问题,也是评价市场成熟程度的基础。研究国债期货市场有效性,有助于政府金融管理当局对国债期货市场的监管,也有利于我国股市发展中对机构投资者的培育以及对个人投资者的保护。本文对国债期货市场弱式有效性进行检验。

一、数据选择

在我国开展国债期货试点期间,全国有14个场所开展国债期货的交易,但上海证券交易所最早开始试点,而且,无论交易量还是影响力都比任何其它的一家都要大,因此,本文采用上海证券交易所的国债期货交易价格数据作为研究的样本。本文选取数据的时间跨度范围为1993年10月25日-1995年5月17日。

由于每个国债期货合约都将在最后交易日到期,因此,不同于股票价格,国债期货价格具有不连续的特点,即对应于每一个国债期货合约,国债期货合约的时间跨度是有限的,任一交割月份的国债期货合约在合约到期以后,该合约将不复存在。另外,在同一交易日,同时有若干个不同交割月份的国债期货合约在进行交易。为研究需要,克服国债期货价格不连续的缺点,必须产生连续的国债期货价格序列。对每一个国债期货品种,本文采用二种构造数据的方式构造了11个连续国债期货合约代码。第一种数据构造方式以1993年10月25日上市的6个国债期货品种代码作为国债期货交易序列代码,在这6个国债期货合约最后一个交易日后,选取最近期月份的国债期货合约,在最近期国债期货合约最后一个交易日后,选取下一个最近期国债期货合约,得到一个连续的国债期货合约交易数据序列,其优点在于距离最后交易日比较接近,期货价格与现货价格也应该比较接近。由此产生的6个连续国债期货合约分别记为310321、310312、310322、310303、310313、310314。第二种数据构造方式也是从1993年10月25日开始选取数据,在某一个国债期货合约上市交易截止后,选取下一个最近上市交易的国债期货合约,这样就得到一个连续的期货合约序列,这个连续的国债期货序列的代码就用先后两个国债期货代码的后三位数组成,如此产生了312316、313317、314318、322326、323327五个国债期货连续合约。

在金融研究中主要关心收益而不是价格,而计算资产收益的方法通常是连续复合法。资产的连续复合收益或对数收益被定义为总收益(1+)的自然对数。为研究方便,本文将某期货合约在第t个交易日的收盘价记为,定义期货价格收益为:

=(Ln- Ln)×100 (1)

因此,对前面构造的的11个连续的国债期货价格序列取对数,所生成的对数期货收益序列成为计量经济学数据处理的基础。具体数据不在此赘述。

弱式有效市场假说的检验框架,“有效市场”概念并不要求市场对未来资产价格的预测一定是准确无误的,而只是表达了一种无偏性估计的统计学涵义,即如果资产价格为一个随机变量,那么市场理性预期等于资产价格的数学期望值,而随机误差服从一个均值为零的正态分布。弱有效假说的数学表达就是:,其中为t时刻的价格信息集。由这个表达式可以看出,弱有效过程是一个鞅过程,即弱有效与鞅过程是等价的。很显然,仅根据这个鞅性质是很难进行实证检验的,所以,传统上是对具有鞅性质的随机行走(Random Walk)模型进行市场有效性假设检验。

若金融价格遵循随机行走,那么,这蕴涵着市场有效;但是,逆命题不一定成立。根据对随机变量扰动项et的属性的不同假设,形成了如下三种不同的随机行走模型,(Campbell、Lo and MacKinlay 1997)。

随机行走1(RW1),独立同分布增量,et是独立同分布的,E(et)=0, Var(et)=,Cov(es,em)=0; et独立不仅意味着任何增量et间是互不相关,而且任何关于增量的非线性函数也不相关。

随机行走2(RW2),et是独立的,但分布不一定相同;要求某一随机变量在很长一段时间里保持相同的分布,这在现实世界里,尤其是在金融市场中很难得到满足,而且也不是合理的。放宽同分布的假设,也就是et独立但不同分布,将使随机行走模型更符合现实。

随机行走3(RW3),非独立但不相关的增量,是随机行走假设最弱的一种形式,包括了作为其特例的RW1和RW2,et是不相关的,即只要求Cov(es,em)=0,s≠m。从市场有效的角度来看,只要增量et互不相关,价格就不可预测,所以在第二类随机行走的基础上进一步放宽et独立的假设而只是要求et不相关,并不影响EMH的检验。

根据以上三种不同的随机行走模型,计量经济学检验的方法也有不同。RW1模型要求残差项独立同分布,因此,传统上常采自相关系数检验和游程检验等方法;由于在不假设同分布的情况下去检验序列的独立性是相当困难的,因此对RW2模型一直没有合适的检验方法,虽然有文献采用过滤法则或技术分析方法来检验序列的随机性,但这两种方法都很难进行严格的统计显著性检验。至于RW3这种最弱的随机行走模型,增量或序列各水平的一阶差分对任意时点的前置或后滞都是不相关的,因此,可以在任意滞后其一阶差分的自相关系数均为零的原假设下检验RW3。目前最常用的是方差比检验。

二、研究思路

有效市场假说三类随机行走假设中,第二类和第三类随机行走假设允许存在异方差情况。因此,如果我们能在对收益序列建模之前先进行异方差检验,则可以有针对性地选择某一类随机行走模型,增强结论的说服力。本文首先通过异方差检验把国债期货收益序列分为第一类随机行走假设(RW1)检验、第三类随机行走假设(RW3)检验。对于第一类随机行走假设采用非参数的游程检验和参数估计的自相关性检验,对具有异方差的序列采用了方差比检验第三类随机行走假设。本文还对没有线性相关的国债序列还运用分形市场理论进行了非线性相关的BDS检验。

三、计量经济学检验模型和实证结果

(一)异方差检验

1.统计模型

Engle(1982)最早提出自回归条件异方差模型(ARCH),用于识别时间序列二阶距的自相关问题。称时间序列et服从ARCH(p)过程,如果:

其中,为在t-1时的信息集,et服从条件方差为的条件正态分布。

Engle(1982)提出了时间序列条件异方差的拉格朗日乘子检验法(Lagrange Multiplier test,),对收益率序列是否存在条件异方差效应进行检验,简称LM检验。定义辅助方程为:

(4)

计算上式回归方程的判定系数R2。LM检验的一般方法是先对收益率序列进行AR(q)自回归估计得到拟合优度R2,在不存在ARCH的原假设下,统计量nR2服从于自由度为q的分布,n为样本容量。在选定的显著性水平下,当nR2值大于分布的临界值时,则拒绝不存在ARCH的原假设,即认为存在ARCH效应。本文采用AR(1)模型对收益序列进行回归,然后分别计算拉格朗日乘子检验统计量LM=nR2。

2.实证结果

通过EViews5.0软件,分析11个国债期货收益序列的序列相关性。表1汇总了国债期货序列的残差的平方序列自回归条件异方差情况。

根据表1,310321、323327残差的平方序列不存在自回归条件异方差,其他9个序列的残差的平方序列存在自回归条件异方差。对于国债期货序列310321、323327宜采用第一类随机行走模型,本文将采用参数化的自相关系数检验和非参数化的游程检验两种方法,对没有线性相关的序列还采用了非线性相关的BDS检验;对于其他的国债期货序列由于存在明显的异方差,应当采用第三类随机行走模型,本文将采用方差比检验的方法。

(二)游程检验

1.游程检验统计模型

游程检验是一种非参数检验方法,其基本思想是作为一个随机平稳序列,各观测值的均值附近随机波动。根据穆德Mood(1940)对游程检验的全面分析,设n个独立同分布的样本分别以概率(,i=1,2,…q)在q个可能的值中取值,

本文中q=2,收益分为两种情况:i=1表示收益为正数的情况,i=2表示收益为负数的情况。设表示第i种符号的游程数,表示总游程数,则=∑(i),期望游程数E()=2nπ(1-π)+ +,π为符号取正的概率。为了检验价格变化是否遵循随机游走,采用统计量Z,统计量Z的渐近分布为标准正态分布:

在α=0.05显著性水平下,Z的绝对值小于1.96时,该时间序列就是随机游走序列;

Z的绝对值大于1.96时,说明该序列是非随机游走的序列。

2.游程检验实证结果

我们用Spss 13.0软件进行游程检验,本文中q=2,国债期货收益序列分为两种情况:i=1表示收益为正数或零的情况,i=2表示收益为负数的情况。结果如下:

分析表2,国债期货310321、323327收益序列的Z都小于1.96、P值都大于0.05,接受原假设,认为样本数据是随机出现的,不存在一定的内部结构(相关)关系。从统计意义上可以说,国债期货310321、323327收益序列遵循随机游走。根据有效市场理论研究结论,我们可以得知,从国债期货310321、323327收益序列来看,国债期货市场满足弱有效市场假说。

(三)自相关检验

如果一个时间序列是随机行走,那么序列自相关现象应当不存在或者说自相关系数很弱。因此,对随机行走模型最直接的检验方法就是看序列的自相关程度,如果样本自相关系数为零,那么就无法拒绝随机行走假设。从这个角度来看,自相关检验是检验国债期货收益序列是否符合随机行走假设的基本方法。

本节通过参数的自相关检验来研究没有异方差的国债期货310321、323327收益序列,以判断这2个序列是否符合第一类随机行走假设;还将检验其他有异方差的国债期货序列的自相关性,因为存在自相关的序列就拒绝第一类随机行走假设。

1.平稳性检验

在自相关系数检验之前,需要对序列平稳性进行检验。一般采用增广Dickey-Fuller(ADF)检验和Phillips-Perron(PP)检验先判别平稳性,再进行自相关系数检验。如果数据是非平稳的,则说明序列中包含单积成分,在估计过程之前需要进行差分。使用EViews5.0软件,软件分析检验结果如表3所示。

国债期货序列的ADF、PP检验值都小于显著性水平1%、5%、10%相应的临界值,这表明,这些序列都不含单位根,满足平稳性要求。

2.自相关检验统计模型

定义自相关系数:

k为滞后期数。那么,统计量的渐近分布为一个标准正态分布:

如果要对所有滞后期的自相关系数进行同时为零的联合检验,就要使用Ljung-Box(1978)Q统计量:

在独立同分布假设下,Q服从自由度为m的卡方分布:,m是最大滞后期数。

3.自相关检验结果

本文应用EViews 5.0软件分别检验了11个国债期货序列滞后10期的自相关系数。

从检验结果表4可以看出,国债期货310322、310303、310313、312316、313317、313318收益序列的Q值右侧的所有概率(最右侧的Prob列中的数字表示相应的自由度条件下C2的统计量取值大于 Q值的概率。)都小于0.01,说明大多数Q值都大于检验水平为0.01的C2分布的临界值(位于临界值的右侧),国债期货310322、310303、310313、312316、313317、313318这6个收益序列有自相关现象,可以拒绝随机行走假设; 310321、323327、310312、310314、322326的Q值右侧的所有概率都大于0.05,说明大多数Q值都小于检验水平为0.05的C2分布的临界值(位于临界值的左侧),国债期货310321、323327、310312、310314、322326这5个收益序列没有发现自相关现象,这些序列是非自相关的,符合第一类随机行走假设。

(四)非线性BDS检验

通过自相关性检验一个时间序列不存在自相关,并不能说明时间序列是相互独立的,因为通过自相关检验来检验一个时间序列不相关,仅仅说明这个时间序列不存在线性相关,但

仍可能存在非线性相关。因此,检验一个时间序列是否相互独立,服从随机行走的假设,仅仅通过自相关检验来检验其不相关是不充分的,还必须检验其不存在非线性相关性。

1.BDS检验模型

Brock, Dechert和 Scheinkman(1987)给出了一种检验时间序列非线性相关的非参数检验方法,简称BDS检验。BDS检验也被称为非线性检验,BDS检验能非常有效地将非线性序列和独立同分布的序列区别开来。

定义BDS统计量为:

其中,为相关积分的标准差,如果时间序列{,t=1,2,,n}是独立同分布的,则当时,趋向于标准正态分布函数N(0,1)。

如果BDS统计量W大于2,则在95%的置信度下拒绝原序列为独立同分布序列的假设;如果BDS统计量W大于3,则在99%的置信度下拒绝原序列为独立同分布序列的假设。如果BDS检验统计的结果是正值,也就是说“积聚效应”在价格波动中要比纯粹的随机过程中发生的频率要高。一个正的BDS检验统计值拒绝了残差为独立正态同分布的假设。

2.BDS检验结果

310321、323327、310312、310314、322326这5个国债期货收益序列没有发现自相关现象,但这仅仅说明其不存在线性相关。我们利用 BDS检验进一步检验国债期货价格收益序列的独立性,从而说明国债期货价格收益序列是否符合随机行走过程。

通过EViews 5.0软件分析,研究5个没有自相关的国债期货收益序列BDS检验,选择参数介于0.5和2之间(),最大嵌入维数m取6。表 5给出国债期货价格收益序列进行BDS检验的检验结果。

由表5检验结果可知,国债期货310321、323327、310312、310314、322326这5个国债期货序列的BDS检验的统计量W均小于2,因此,在95%的置信水平上接受零假设,可以认为310321、323327、310312、310314、322326这五个国债期货序列是独立同分布的。因此,310321、323327、310312、310314、322326这五个国债期货序列服从随机行走过程。

(五)方差比检验

对9个存在异方差的国债期货合收益序列进行方差比检验,以验证这些国债期货序列是否符合第三类随机行走假设。

1.方差比检验模型

所有三种随机行走假设的一个重要性质是随机行走增量应该是时间段的线性函数,因此,随机行走模型的似真性可通过将q期的连续组合收益的方差比q倍的单期收益的方差,若随机行走假设为真,这些数值在统计上应与1没有什么差异。运用蒙特卡罗模拟,罗和麦金雷(1988)证实:无论在同方差增量情形下还是在异同方差增量情形下,方差比检验均比Box-Pierce和Ljung-Box的自相关检验更可靠。这种方法的基本思想是,在一个随机行走序列中,长度为q期的收益率的方差应该是单期收益率方差的q倍。由于它是以随机变量独立为假设前提,而且给出了同方差和异方差下的统计量,所以,这种检验方法可以分别针对RW1类型和RW3类型的随机行走模型进行检验,其最常用来对RW3型随机行走模型检验。

异方差假设下的方差比统计量统计量分别为:

RW3假设下原假设假设具有不相关的增量,但又允许较一般形式的异方差,包括确定性的方差变化以及恩格尔的ARCH过程。在异方差的情况下,罗和麦金雷(1988)证明在样本容量无穷大时,仍在概率上趋近于1。此时,运用如下标准正态统计量,即:

2.方差比检验结果

应用EViews 5.0,通过编程运算异方差增量情形下的标准方差比统计量,表6为国债期货序列方差比检验结果汇总。在表6中,VR(q)表示方差比,Z(q*)代表了异方差假设下的统计量。如果Z(q*)统计量的值落在区间[-1.96,1.96]以外,表明在95%的置信水平下,该序列拒绝RW3。如果Z(q*)统计量的值落在区间[-1.96,1.96]以内,表明在95%的置信水平下,该序列不能拒绝RW3,表中用下划线标出。

从表6国债期货序列方差比检验结果可以看出,在异方差假设下,国债期货310303收益序列满足第三类随机行走假设,其他序列拒绝第三类随机行走假设。

四、研究结论

在所研究的11个国债期货收益序列中,国债期货收益序列都不含单位根,为平稳性序列;9个国债期货收益序列存在自回归条件异方差,6个国债期货收益序列存在自相关。5个序列国债期货收益序列不存在线性相关,也不存在非线性相关,符合第一类随机行走假设;方差比检验表明,只有1个国债期货收益序列满足第三类随机行走假设。我国国债期货市场试点期间,国债期货市场还没有达到弱式有效。中国国债期货市场本身的试点性质及其外部环境的不成熟性,决定了中国国债期货市场中信息的规范性、真实性、充分性和分布的均匀性等都与成熟市场有较大差异。这加剧了投资者行为的非理性,导致反应和反映信息的价格很难是“有效”的。

本篇文章系本人博士论文中国国债期货试点的市场运行效率研究部分内容的改写。

注释:

①根据美约翰.Y.坎贝尔等《金融市场计量经济学》,不同的随机行走模型选择不同的检验方法,通过了第一类随机假设检验的序列不一定能够通过第三类随机行走假设检验,这个区分指标就是是否含有异方差。因为,第一类随机行走假设限定条件比第三类随机行走假设更严格,而不是非此即彼的划分方式。为此,本节对构造的11个国债期货序列都进行了自相关检验,这样利于同方差比检验结果对比,也利于与非线性的BDS检验对比。

参考文献

[1]Fama, Efficient Capital.Markets: A Review of Theory and Empirical Work[J].Journal of Finance,1970.

[2]【美】约翰.Y.坎贝尔,安德鲁.W.罗,艾.C.麦金雷.朱平芳等译.金融市场计量经济学[M].上海财经大学出版社,2003.

[3]Engle.R,Autoregressive Conditional Heteroscedasticity with Estimates of The Variance of United Kingdom Inflation[J].Economertica,1982.

[4]A.Lo & C.MacKinlay,Stock Market Prices do not Follow Random Walkst[J].The Review of Financial Studies,1988.

[5]Brock, W.A., W.D. Dechert and J.A. Scheinkman.A Test for Independence Based on the Correlation Dimension[R].SSRI Working Paper ,No.8702,Department of Economics,University of Wisconsin,Madison, Wisconsin.1987.

[6]Ruey S.Tsay. Analysis of Financial Time Series[M].John Wiley & Sons Inc,2005.

[7]Mood A. The distribution theory of runs[C].Annals of Mathmatics Statistics,1940.

[8]张晓峒著.Eviews使用指南与案例[M].机械工业出版社,2007.

[9]张小艳,张宗成.期货市场有效性理论与实证检验[J].中国管理科学,2005.

[10]张小艳,张宗成.关于我国期货市场弱式有效性的研究[J].管理工程学报,2007.

[11]高铁梅主编.计量经济分析方法与建模:EViews 应用及实例[M].清华大学出版社,2006.

[12]赵勇,马瑾,曹廷贵.中国股指期货标的资产的实证研究[J].浙江金融,2008.

[13]牛玉锐.中国国债市场弱有效性检验[J].湖南财经高等专科学校学报,2007.

[14]王玉芳,刘志新.我国股市收益率非线性下的随机游走检验[J].预测,1999.

非参数检验篇8

关键词:上证综合数据;风险测量;VaR;GARCH族模型

中图分类号:F830.91文献标志码:A文章编号:1673-291X(2008)16-0049-02

近年来,伴随着金融一体化趋势,全球金融市场在迅速发展,同时,金融市场风险也在不断增大,金融机构所面临的风险日趋复杂,主要风险已从信用风险转向了市场风险,表现为利率风险、股价风险和汇率风险的综合。针对这种情况,金融监管当局、金融机构近年来一直在不断强化市场风险的管理与监管。在险价值(Value at risk , VaR) 作为重要的金融风险管理工具之一, 在国际上已获得广泛认可。

国内学者在20世纪90年代引入了VaR分析方法,对某些理论和实际问题进行了深入的分析和探讨,其中,比较有代表性的有:郑文通(1997)、姚刚(1998)等介绍了VaR的内涵和度量方法;杜海涛(2000)在沪深股市的指数都服从正态分布的前提下计算了95%置信度下资产的VaR值,并进行了模型检验,其结论是VAR模型对风险的拟合结果较好;陈守东等(2002)认为中国股市并不服从正态分布,存在明显的尖峰厚尾现象和非对称性,所以建立了t-分布、GED分布假设下的GARCH模型用以计算VaR值,并和正态分布假设下得到的值作比较,认为更好反映了收益的风险特征,但该文没有用返回检验法来检验VaR值。本文在对收益率序列分布作三种不同假设的基础上,分别用GARCH、EGARCH方程来分析和度量沪市的潜在风险和波动性特征,并用返回检验法检验,从而得出了符合沪市波动特征的VaR估值模型。

一、VaR定义及计算方法

1.VaR的概念

VaR的字面含义是“处于风险中的价值”,具体来说,VaR是指在一定的持有期及置信度内,某一证券组合所面临的最大潜在损失,用数学公式来表示:

Prob(P>VaR)=1-?琢

其中,P为证券组合在持有期t内的收益,VaR为在置信度?琢下的在险价值。我们用参数法来计算上证指数的VaR值。若r为证券组合持有期内的连续复利回报,则:

2.VaR计算的参数方法

(1)一般自回归条件异方差(GARCH)

GRACH(p,q)能够很好地刻画收益的丛集效应、非对称性等特征。但此模型对参数系数的非负性约束太强,过度限制了条件方差的动态性,且不能对证券价格的上升和下降带来的非对称性冲击作出非对称的反映。指数GRACH模型可以捕捉这种正负干扰反映的不对称性,从而更准确刻画股票的波动性。

EGARCH模型中条件方差采用了自然对数,且引入参数?酌,若?酌≠0,说明信息作用非对称。当?酌

本文采用Kupiec于1995年提出的似然比检验统计量LR来验证模型的有效性。

二、实证分析

本文使用了1997年1月2日至2007年9月28日期间上证指数每个交易日的收盘价,共2 593个样本数据(数据来源于“大智慧”)。

1.数据基本分析

由沪市股指对数收益的偏度、峰度以及检测值可知,上证综指不符合正态分布,存在明显的尖峰厚尾特征。而由上证综指的对数日收益率可看出,沪市股指收益率存在丛集效应。由于GARCH类模型能够很好地刻画收益的丛集效应、非对称性等特征,所以,本文将应用GARCH模型在正态分布、t-分布和GED分布假设下计算上证综指的VaR值。接下来用单位根方法检验时间序列的平稳性,可知上证综指对数日收益率在5%标准下是显著平稳的。

2.上证综指实证结果

从上面分析可知,日收益率序列平稳,且有尖峰厚尾等特征,因此,选用GARCH族模型来计算VaR值。根据对数似然准则、AIC准则与SIC准则,可以判断用GARCH(1,1)比较合适。

(1)GARCH-正态分布假设

从以上估计结果可知,各模型参数均在5%置信水平下显著。EGARCH模型的参数显著为负,反映了上海股票市场的杠杆效应似乎是显著的,即利空消息引起的波动比同等大小的利多消息引起的波动要大。对两模型残差作ARCH-LM检验,发现不存在显著的异方差现象,以上模型较好地刻画了上证指数对数收益率异方差现象。表格右边三列是各模型在5%显著性水平下估计的VaR值的统计结果。可以看出,两模型计算得到的VaR均值无显著差别,EGARCH模型估计的标准差要小于一般GARCH模型。估计天数相差不大,失败率均接近5%。利用LR统计量检验,在5%显著性水平下均不能拒绝原假设,所以这两个模型计算的VaR值比较准确。

(2)GARCH-t分布假设

从以上估计结果可知,各模型的参数均在5%置信水平下显著。EGARCH模型的参数显著为负。对两模型残差作ARCH-LM检验,发现不存在显著的异方差现象,所以,以上模型能较好地刻画上证指数对数收益率异方差现象。上证综指日VaR值的统计结果见表格右边三列。可以看出,在t-分布下这两个模型得到的结果无显著差别,EGARCH模型估计的标准差要小于一般GARCH模型。从返回检验结果看,t-分布下估计的VaR比较保守。利用LR统计检验,拒绝了原假设,所以,在t-分布假设下的VaR高估了风险。

(3)GARCH-GED分布假设

在GED分布下模型估计的尾部参数为1.19左右,说明收益率不服从正态分布,GED模型很好地捕捉了厚尾现象。对两模型残差作ARCH-LM检验,发现不存在显著的异方差现象,所以,以上模型能较好地刻画上证指数对数收益率异方差现象。上证综指日VaR值的统计结果显示,从失败天数与失败率来看,在GED分布假设下的GARCH模型能比较好地刻画股市波动。这三种模型计算得到的VaR均值无明显差别,估计标准差EGARCH小于一般GARCH模型。估计失败天数相差不明显,失败率接近5%。利用LR统计量检验,在5%显著性水平下均不能拒绝原假设,所以这两个模型计算的VaR值比较准确。

本文在对上证综指的日对数回报率分别作正态分布、t-分布和广义误差分布的假设基础上,采用了GARCH和EGARCH模型来度量沪市的风险和波动性,寻找出了拟合最优的EGARCH模型,得出了以下结论:(1)EGARCH模型在正态分布和GED分布假设下都很好地描述了各指数收益的丛集效应、非对称性和杠杆效应等特征,计算的VaR值都是有效的,VaR计算值基本涵盖了绝大部分交易日的损失;而在t-分布假设下计算得到的VaR值过于保守,除非在一些对风险值要求特别严格的场合以外,不适合用来计算值。正态分布在样本数据较多的情况下,因为其性质良好,计算简单,不失为计算VaR的好方法。(2)通过对VaR估计值序列的分析,得出我国的证券市场风险很大部分来源于政策变动的结论,管理层监管力度的加强也促使了股市风险呈下降趋势。今年,我国金融市场全面放开以及资金的流动性过剩等问题,导致资金涌入股票市场,直接导致沪深两市的风险有了较大提高。

参考文献:

[1]Bollersley,T.,Generalised Autoregressive Conditional Heteroskedasticity[J].JournalofEconometrics,1986,(311):307-27.

[2]陈守东,俞世典.基于GARCH模型的VaR方法对中国股市的分析[J].吉林大学社会科学学报,2002,(4):11-17.

[3]王春峰.金融市场风险管理[M].天津:天津大学出版社,2001.

[4]龚锐,陈仲常,杨栋锐.GARCH族模型计算中国股市在险价值分析的比较研究与评述[J].数量经济技术经济研究,2005,(7).

[5]戴国强,徐龙炳,陆蓉.VaR方法对我国金融风险管理的借鉴及应用[J].金融研究,2000,(7).

非参数检验篇9

【摘要】 随着新药临床试验的开展越来越多,也越来越规范,等效性检验、非劣效性检验和优效性检验被广泛地提出,但也常遇到以传统显著性检验代替非劣效、等效和优效性检验的错误。因此,本文从样本均数的抽样分布出发,就它们的适用条件、检验目的、假设形式、公式的区别和联系进行了阐释。

【关键词】 非劣效检验; 等效性检验; 优效性检验; 显著性检验; t检验

【Abstract】 Along with more and more development and standard of clinical trials of new drugs,equivalence,noninferiority test and superiority test are widely introduced.However,wrong replacements of non  inferiority,equivalence and superiority tests with traditional significance test are often encountered.Therefore,based on theoretical derivation of the sampling distribution of twosample mean difference,this article explained the applicable conditions,test purposes,hypothesis,and difference and association among the formulas of these three tests.【Key words】 equivalence test; noninferiority test; superiority test; difference test; t test

随着新药临床试验的开展越来越多,试验的设计和统计分析也越来越规范。根据目的不同,临床试验设计可以分为常见的差异性设计、标准阳性对照试验中的等效性和非劣效性设计,以及安慰剂对照试验中的优效性设计,其假设检验方法也随之被广泛地提出。t检验在差异性检验、等效性检验、非劣效性检验和优效性检验中都有应用,虽然其形式不尽相同,但都是t分布在假设检验检验中的应用,因此它们之间既有区别,又有密切的联系。本文将从样本均数的抽样分布出发,讨论差异性检验、等效性检验、非劣效性检验和优效性检验中t检验的区别和联系。

1 样本

均数差的抽样分布[1]设X11、X12、…、X1i、…、X1n1和X21、X22、…、X2j、…、X2n2分别是取自方差相等的总体N(μ1,σ2)和N(μ2,σ2),且相互独立,可分别记作:X1i ~ N(μ1,σ2),i=1,2,…,n1;X2j ~ N(μ2,σ2),j=1,2,…,n2。则其样本均数的抽样分布分别为:

X1~N(μ1,σ2n1),X2~N(μ2,σ2n2)(1)同时根据χ2分布的定义有:

(n1-1)s21σ2~χ2(n1-1),(n2-1)s22σ2~χ2(n2-1)(2) 根据随机变量和的分布定理,样本均数差的分布可记为:

X1-X2~N(μ1-μ2,(1n1+1n2)σ2)(3)对(3)式标准化后有:

u=(X1-X2)-(μ1-μ2)σ1n1+1n2~N(0,1)(4)目前,如果用u作为枢轴量,以样本的信息推断总体均数之间的关系,即总体均数的情况未知时,按照枢轴量只能有一个未知参数的要求,σ就必须已知,此时便是两样本均数的u检验。但一般情况下σ是未知的,故需进一步推导。由式(2),根据χ2分布的可相加性有:

(n1-1)s21+(n2-1)s22σ2~χ2(n1+n2-2)(5)依据t分布的定义:设X~N(0,1),Y~χ2(n),且相互独立,则t=XYn~t(n),带入式(4) (5)可得:

t=(X1-X2)-(μ1-μ2)σ1n1+1n2(n1-1)s21+(n2-1)s22σ2(n1+n2-2)

=(X1-X2)-(μ1-μ2)(n1-1)s21+(n2-1)s22(n1+n2-2)·(1n1+1n2)~t(n1+n2-2)(6)

式中(n1-1)s21+(n2-1)s22(n1+n2-2)为两样本合并方差,常用S2c表示;

(n1-1)s21+(n2-1)s22(n1+n2-2)·(1n1+1n2)为两样本均数差值的标准误,记为SX1-X2。由推导过程不难发现,样本均数差的分布要转换到t分布必须满足3个条件:①样本必须来自正态总体,这里要补充说明一下的是:虽然中心极限定理能保证在样本例数足够大的情况下,不管其是否服从正态,只要是从相同分布的总体中进行的抽样,其样本均数的分布服从如式(1)的正态分布,但不能得到式 (2),故也不能推导出式(6)的结论;②样本之间相互独立;③两组样本对应的总体方差必须相同。

2 t检验

假设检验的实质就是,直接或间接的(基于一定的分布形式)在概率的基础上,依据小概率反证法的原理,完成利用样本信息进行总体之间比较的目的。小概率反证法原理也就意味着在假设检验中,推翻假设(P≤α)更有利于做出正确的结论,因为这时犯错误的可能性是“小概率”,而且这个标准是人为事先设定的,是已知的,而且是可以控制的[2]。因此所检验的目的不同,所提出假设的形式也就不一样。t检验是t分布在假设检验中的应用,就本次讨论的问题而言,就是用成组设计得到的样本信息完成两总体均数之间的比较,根据其分析的目的和设计方法不同,也就出现了常见的差异性检验,标准阳性对照试验中的等效性检验和非劣效性检验,以及安慰剂对照试验中的优效性检验[3,4]。其目的、假设形式和检验统计量如表1所示。表1 各种t检验的目的、假设形式和检验统计量

3 讨论

假设检验的实质就是,直接或间接的(基于一定的分布形式)在概率的基础上,依据小概率反证法的原理,完成利用样本信息进行总体之间比较的目的。t检验也不例外,它是在t分布的基础上进行的一种假设检验,因此无论何种形式的t检验,其应用条件就必须和t分布由来的3个条件一致,即在σ未知的情况下要求资料正态、独立、方差齐[2]。差异性检验和等效性检验、非劣效性检验和优效性检验根本区别在于差异性检验是和0做比较,即两总体均数是否完全不等,而不管这种差别是否有专业意义;等效性检验、非劣效性检验和优效性检验是和Δ做比较,即检验在一定允许范围内的是否相等或不等,不仅要检验差别是否存在,而且更关注这种差别是否具有专业意义。在等效性检验、非劣效性检验和优效性检验中的Δ,即认为在一定范围内相等/等效的允许值,也叫等效临界值,一般认为应从专业角度反复论证并结合成本效益加以估计[2]。根据以往经验[5],较为公认的Δ值如血压可取为0.67 kPa(5 mmHg),胆固醇可取为0.52 mmol/L(20 mg/dl),白细胞可取为0.5×109/(500个/mm3) 等;当Δ难以确定时,可酌取1/5~1/2个标准差,或对照组均数的1/10~1/5等,在生物利用度的等效性评价中,Δ一般取标准参照品均数的1/5,两组率的等效性检验取对照组样本的1/ 10 左右。对于等效检验来说,多采用Schuirmann[6]提出的双向单侧检验的方法(two onesided tests),即分别对下限和上限做两次单侧的t检验。因此,为了保证总体I型错误的发生概率控制在一定水平(常用0.05)以内,是否需要利用Bonferroni方法[7]进行调整还有待进一步的考察和讨论。若需调整,两次单侧检验所得出的P1和P2则需与调整后的α水准进行比较。

参考文献

[1] 刘定远.医药数理统计方法[M].第3版.北京:人民卫生出版社,1999:6267.

[2] 倪宗瓒.医学统计学[M].北京:高等教育出版社,2003:8.

[3] 黄圣凯,韩可勤.生物等效性评价的几种统计方法[J].中国临床药理学杂志,1993,9(1):4346.

[4] 黄钦,赵明.对临床试验统计学假设检验中非劣效、等效和优效性设计的认识[J].药政管理,2007,23(1):6367.

[5] 刘玉秀,杨友春.临床试验疗效的等效性评价[J].中国临床药理学与治疗学杂志,1999,4(3):220223.

非参数检验篇10

【关键词】 VAR模型;协整检验;VEC模型;Granger因果检验

一、数据来源和模型

本文搜集了从1984年到2009年度的国内生产总值(单位为亿元)、外商直接投资实际使用金额(单位亿美元,按当年汇率的平均值转化为人民币)、和各项税收(单位为亿元),建立VAR模型分析他们之间的关系。数据来源清华金融研究数据库,使用的软件是eviews6.0。向量自回归(VAR)模型是根据数据统计的性质来建模的,其思想是把每一个外生变量作为所有内生变量的滞后值的函数来构造模型。由于VAR模型中的各个方程的右边都是滞后的内生变量,能用OLS估计可以得到一致且有效的参数估计量。VAR模型是一种非结构化的模型,即变量之间的关系并不是以经济理论为基础的。其一般形式为:

Yt=A1Yt-1+A2Yt-2+…+ApYt-p+B0Xt+…+BrXt-t+?着t t=1,2,3,...,n

其中,Yt是k维内生变量向量,Yt-p的P阶滞后内生变量向量,Xt-i(t=1,2,...,r)是d维外生变量或滞后外生向量,p,r分别为内生变量、外生变量滞后的阶数,Ai是k×k维的系数矩阵,Bi是k×d维的系数矩阵,系数矩阵为呆估计的参数矩阵。?着t是k维随即误差扰动项向量,其元素之间可以同期相关,但不能与各自滞后项相关,也不能与模型的变量相关。

不含外生变量的VAR模型可以写成:

Yt=A1Yt-1+A2Yt-2+…+ApYt-p+?着tt=1,2,...,n

对于多个变量非平稳的时间序列,假如他们之间存在协整关系,即一种长期的均衡关系,则可以对他们建立向量误差修正模型。VEC可以看成是包含协整关系的VAR。如果不含外生变量的Yt,若所含的k个I(1)内生变量存在协整关系,则VEC模型可以写成:

Yt=?琢ECMt-1+■?酌iYt-i+?着t

其中,ECMt-1=?茁'Yt,称为误差修正项,所以上式中的每个方程都是一个误差修正模型。误差修正模型反应了变量之间长期均衡关系即协整关系,也就是对长期均衡的偏离可以通过一系列的短期调整而得到修正。?酌i是滞后差分项的系数,Yt-i反应各短期波动对Yt的影响。

二、实证结果及其分析

为防止时间序列数据异方差现象,在此把所有的数据取自然对数。用LGDP表示取对数后的国内生产总值,用LFDI表示外商直接投资的对数值,用LTAX表示税收的对数值。

1.ADF检验。一般的时间序列数据都存在趋势,即是非平稳的,对于非平稳的数据进行计量模型统计推断时,参数指标的统计分布将不再服从标准的正态分布,所做的回归是一种伪回归。很明显,GDP,FDI,TAX都有增长的趋势,都是非平稳的,在建立模型之前对这三个时间序列数组进行ADF检验,ADF检验的结果如下所示:

表1ADF检验的结果

(注:D(LFDI)表示LFDI一阶差分后的统计量)

从ADF检验的结果可以看出LFDI,LGDP,LTAX均存在单位根,但是LFDI和LTAX的一阶差分在1%的显著水平下是平稳的,LGDP的一阶差分值小于10%检验水平下的临界值,这三个时间序列都是一阶差分平稳。

表2VAR模型最佳滞后阶数检验结果

2.建立VAR模型。由于VAR模型的滞后阶数是未知的,因此要首先确定最佳滞后阶数。根据Sims和Toda等的研究,确定VAR模型滞后阶数的方法是由一般到特殊,即从较大的滞后阶数开始,通过对应LogL,AIC,SC等参数值则由确定。由表2的评价指标可知,VAR的最佳滞后阶数为2,故在此建立VAR(2)模型。

对LFDI、LTAX、LGDP序列建立一个2阶VAR模型,其结果为:

对此VAR模型的平稳性检验,其AR特征多项式的根中有一个大于1,说明在单位圆外,此模型是非平稳。对于平稳的VAR模型可以利用脉冲响应函数来进行分析,不平稳的VAR模型进行协整检验,若存在协整关系,可以利用误差修正模型对VAR进行误差修正。

3.协整检验。ADF检验的结果表明这三个序列都是I(1)过程,满足协整检验的条件。在此使用的协整检验方法是Johansen和Juselius提出的基于VAR模型的协整系统检验。假设协整方程含有截距项不含有时间趋势项。协整检验的结果如图所示:

协整检验是按照协整关系的个数r=0到r=k-1顺序进行,直到拒绝相应的原假设。“不存在协整关系”假设的迹统计量为41.6953大于5%下的临界值,因此拒绝原假设,表明至少存在一个协整关系。再看假设“至多存在一个协整关系”,此假设的迹统计量为10.0842,小于5%的临界值15.4947,从而不能拒绝原假设,即迹统计量在5%的水平下存在一个协整关系。

协整方程为:

LFDI=0.9313LGDP+0.0308LTAX+^ut

在此所写的协整方程为长期均衡方程,ut为误差扰动项。

4.建立VEC模型。协整检验的结果表明序列FDI、GDP、TAX存在一个协整关系,建立VEC模型对施加了协整关系约束条件的向量自回归模型进行估计。VEC模型估计的结果为:

其中:

5.Granger因果检验。由于这三个变量存在协整关系,需要对建立的VEC模型进行因果关系检验,以判断这几个变量之间的因果关系。其Granger因果检验的结果如下所示:

EVC 模型与VAR模型Granger检验的结果相似,都是给出了每一个内生变量相对于模型中的其他内生变量Granger因果关系检验统计量和相应的概率值。表3给出了模型中的3个内生变量的检验结果,在此以变量FDI为例稍作分析,FDI相对于内生变量GDP的统计量为12.3947,相对应的概率为0.0023,变量FDI相对应的方程中GDP的因素不能排除,即GDP是FDI的Granger原因。TAX相对于变量GDP的的统计量为4.0708,相对应的概率为0.1306,TAX在FDI对应方程中的因素可以忽略,故TAX不是FDI的Granger原因。由表3的结果发现,内生变量GDP和FDI互为因果关系,GDP和TAX互为因果关系,TAX不是引起FDI的Granger原因,但FDI是引起TAX的Granger原因。

表3Granger因果关系检验的结果

三、结论

本文根据向量自回归的原理利用统计分析软件分析了外商直接投资、国内生产总值、税收之间的关系,协整检验的结果表明外商投资、国内生产总值和税收之间存在长期均衡关系,即存在协整关系。结合Granger因果检验的结果,我们发现外商投资和国内生产总值的关系为正相关的,且互为因果关系,境外投资者为我国经济的发展提供了大量的资本,在互利双赢的情况下促进了我国的经济发展;另一方面我国经济的迅速发展,为外商提供了投资环境,加上良好的招商引资政策,吸引了更多的海外投资商。结果还表明外商直接投资和税收的单向的因果关系,外商直接投资是税收增加的Granger原因,税收不是外商直接投资增加的原因。外商投资能促进外商独资企业、中外合资企业和股份制公司的发展,由于企业规模的扩大,利润增加,将为我国税收做出更多的贡献。

参考文献

[1]王川,任宏,余菊.建筑业与经济增长_基于VEC模型的经验证据[J].重庆大学学报(社会科学版).2010(2)

[2]樊欢欢,张凌云.EViews统计分析与应用:赢在职场第一步[M].北京:机械工业出版社,2009:352~353

[3]扬得前.基于VEC模型的我国税收收入与GDP动态关系的实证研究:1990~2007[J].税务与经济.2009(4)