社会统计悖论与转变问题

时间:2022-09-09 05:20:40

社会统计悖论与转变问题

0引言

社会统计分析的数据绝大数是分类意义上的。它们要么是定性的定类、定序数据,要么是定量的离散数据[1],并不具备严格意义上的“+、-、×、÷”等数学运算特性[2]。社会研究对象的这一“分类”特征,使得列联表成为社会统计分析中应用最为广泛的首选统计工具之一。因为列联表是非参数的或仅要求很弱的参数(分布)假定。但在列联表分析中,如何解释隐现其中的辛普森悖论一直是一个重要问题。此外,由于分类数据的非线性特征,回归函数不可能是线性的,需要寻找一个链接函数,将分类变量的期望值变换成自变量的一个线性函数。然而,在实际应用中,logit变换与probit变换的内在差异与背后假定问题常为人们所忽视,进而影响了参数解释。

1辛普森悖论问题

辛普森悖论最早于1899年由卡尔•皮尔森(KarlPear-son)提出,但一直到1951年E.H.辛普森才正式描述并解释这一现象,后来就以他的名字命名该悖论。关于辛普森悖论,国内学者关注不多,只有李思一(1984)、王轶豪(1986)、倪加勋(1992)、吴素萍(2000)、耿直(2000)、史希来(2006)、王健(2008)等人作过介绍性研究。辛普森悖论是指,在分组比较中都占优势的一方,在总体评价中却并不占优势。我们先来看一个源自真实生活的案例。1979年初,《美国历史画报》杂志对读者类型和获得期刊的方式进行了统计[3]。见表1。

从表1可以看出,五种订阅方式中,老订户1月份的续订率要高于2月份,但合计后总的续订率却要低于2月份。除了上述案例外,还有其他很多真实的数据表现出了辛普森悖论现象,如Bickel等(1975),Wagner(1982),Neufeld(1995)。总之,辛普森悖论不是虚幻的,而是客观存在的。问题是如何解释辛普森悖论的产生原因。由于统计的基础在于概率,于是人们就从概率论加以解释。辛普森悖论可定义为以下三种情况同时发生:(1)P(I|A,B)>P(I|A,B'''');(2)P(I|A'''',B)>P(I|A''''B'''');(3)P(I|B)<P(I|B'''')式(1)表示A在B下发生的概率大于A在B’下发生的概率。式(2)表示A’在B下发生的概率大于A在B’下发生的概率。式(3)表示B发生的概率小于B’发生的概率。可以证明,如果保持试验的结构相同,即P(A|B)=P(A|B'''')成立时,就可以避免辛普森悖论的出现(证明参见倪加勋,1992)。

虽然从概率角度可以诠释辛普森悖论问题,但在笔者看来,这种诠释具有柏拉图“理念论”的色彩。因为这里遵从的是概率的频率定义(列联表中表征的是频率),即P(E)=limN→∞f(E)=limN→∞nN事实上,由于试验或观测次数N为∞是做不到的,因此,列联表中的相对频率只能说是对概率的一种柏拉图意义上的“理念”摹本,近似到何种程度仍然是有疑问的。如果从“现象”出发,就会发现:辛普森悖论与其说是悖论,不如说反映了社会统计分析对象的独特特征,即分类数据的非线性特征。正是因为非线性,使得列联表在不同的结构维度,表征了不可还原的不同统计信息。在上例中,由于将原始数据从三维结构压缩成二维结构,自然就失去了另一维的信息,分析结构的不一致恰恰是不同维度统计信息的反映。因此,列联表中的辛普森悖论实质上是一个将高维空间降到低维空间的产物[4]。

事实上,这种由于降维而丢失信息在其他统计分析方法中也会发生。例如,因子分析,虽然在理论上可以有无数个因子载荷矩阵,且每一个因子载荷矩阵对于一组潜在因子。但只有通过变换得出或组合出更合理、更便于解释的潜在因子时,因子分析才可以说是成功的。整个分析过程实际上是一个欧氏空间降维和坐标变换(相当于坐标轴的刚性旋转)的过程;又如,聚类分析,实际上是将分布在欧氏空间的观测数据,投影到超椭球的方差最大方向和方差次大方向所形成的二维空间的平面上,然后按该平面上投影点之间的距离来直观地划分类别(相当于对应分析)。这也是一个欧氏空间的坐标变换和降维过程。总之,列联表在“高保真”地表征分类数据信息的同时,由于分类数据的非线性特征,在降维的过程中自然而然会带来“辛普森悖论”问题。“辛普森悖论”的实质是“结构性”的,是不同列联表结构维度的统计信息差异。

2变换问题

列联表在本质上是对称的。当社会统计分析的范围拓展到不对称的回归分析时,考虑到因变量的分类属性(categori-calnature),回归函数不可能是线性的,为此需要寻找一个链接函数(linkfunctions),将分类变量的期望值变换成自变量的一个线性函数。在这里,有个常见的问题,即人们常常对链接函数logit与probit的内在差异与背后假定不做辨析,进而忽视这些差异与假定对于社会统计分析的参数解释所具有的重要意义。在回归模型中纳入分类变量作为自变量并不存在任何特别的难处,因为它主要涉及建立与自变量不同类别相对应的虚拟变量,所有已知回归模型的性质都可以直接推广到方差和协方差分析模型。但对于因变量是分类变量时,情况就彻底改变了,线性回归的许多知识都无法简单地加以运用。

例如,对一个一二分因变量y,它的取值在[0,1]之间,一个自变量x,可以任意取值。我们知道,一个y对x的线性回归意味着,x取任何值,预测线(predictedline)将不可避免地落在[0,1]之外,显然这是不合理的。为此,我们需要寻找一个链接函数(linkfunctions),将分类变量的期望值变换成自变量的一个线性函数。logit变换和probit变换就是其中最为典型的两种变换。logit和probit变换能够在不对参数加以限定的情况下,其预测值被限定在[0,1]范围内。其模型的起源可追溯到心理物理学[5],但logit和probit模型的现展主要是生物鉴定领域的贡献[6]。先说logit变换。一般来说,logit变换可以解释为成功对失败之发生比率的对数。成功概率P的logit变换可以表示为:logit(pi)=log(pi1-pi)Probit变换是logit变换的一个替代选择。用数学公式表示为:probit(pi)=Φ-1(pi)=Φ-1(z-∞乙1姨2πe-t22dt)从上式可以看出,logit和probit两种分布函数的公式很相似,实际上,函数值相差也并不大,且都绕着p=0.5对称(图1)。无论是probit变换,还是logit变换,在社会统计分析中并没有实质上的理由确认哪一种更优。一些研究者基于中心极限定理往往倾向于probit变换,但在实际操作中,logit分布因概率分布和密度函数的简单性而更受欢迎。

需要进一步指出的是,区分两种变换的内在差异与背后假定是相当重要的:首先,就分布来说,logit函数假设随机变量服从逻辑概率分布,而probit函数则假设随机变量服从正态分布。标准逻辑概率分布和标准正态分布的均值都为0,但方差不同,前者的方差为π2/3,后者的方差为0。这一差别进一步体现为logit模型的系数比可比的probit系数年要大。从理论上来讲,一个probit模型系数大约乘以1.81就应当得到一个接近于logit系数的值。同理,logit估计值乘上大约0.55就可以得到一个近似的probit估计值。在实际操作中,有研究者建议以1.61和0.625作为乘数以得到更接近的近似值[7]。其次,无论logit变换还是probit变换在0.2~0.8之间基本呈现线性。在这个范围之外,两个函数都是高度非线性的。这意味着,如果P被作为一个连续解释变量(x)的函数进行统计建模,x对p的影响就不是常数,而会随x的变化而变化。例如,我们发现当probit(pi)=logit(pi)=β0+β1xi=0时,x变化所带来的变化比probit(pi)<0,logit(pi)<0或probit(pi)>0,logit(pi)>0时要更大。这一点在对logit和probit系数进行解释时要特别注意其特定的含义。

3结语

社会统计分析就其对象的数学形式来说与其他统计分析并无差异,都可用统一的矩阵表示:但由于社会统计分析的数据绝大数是分类意义上的,使得列联表分析、寻找链接函数成为突出的两大应用性问题。本文探讨了隐现于列联表分析中辛普森悖论问题,分析了回归分析中logit变换与probit变换的内在差异与相关假定。认为,辛普森悖论诚然可以通过全概公式加以解释,但实质上是欧氏空间的降维问题,是列联表不同维度数据结构的统计信息差异性反映;无论logit与probit函数只有在0.2~0.8之间才基本呈现线性,在这个范围之外,两个函数都是高度非线性的。上述两个应用性问题无疑对于社会统计分析的参数解释有着特殊的意义。