社会统计数据均匀指数分析

时间:2022-09-09 05:26:51

社会统计数据均匀指数分析

影响经济社会统计数据空间真实性的要素包括算法、区域内部差异、统计单元规模大小、统计指标的空间展布规律、统计指标的空间规模、统计指标的时间存在特征、统计指标在经济社会构成中的重要程度等多个方面。经济社会统计数据表达对象的各种特征对于数据表达的区域内部真实性有一定的影响。显然地,以省级行政区域为统计单元,我国东部省区和西部省区区域内部差异程度有很大不同,在软件工具的支持下计算现有以行政单元为对象的统计数据所表现的区域平均状况,为相应的应用提供数据空间均匀程度支持。

1经济社会统计数据的空间化

以空间分析为手段,将总量数据离散到空间区域上已有很多应用[1-3],以行政区域为单元的统计数据分散到更接近真实情况的自然或经济区域上的做法也有一些尝试[4],特别是对于区域面积很大,且内部特征差异十分明显的区域做这样的工作更有实际意义。将社会经济信息进行空间化处理是根据经济对象空间分布特征、影响经济对象分布的自然和社会经济要素分布,将一定空间单元上的对应信息转化成1km×1km栅格数据(或其他空间大小的单元,如500m×500m等),每个栅格上的值则表示在1km2内的平均状况。

1.1经济社会统计数据空间离散化通用方法

经济社会统计数据对应的社会经济指标在空间的分布和变化受多种因素的影响,这些因素就是该经济社会统计指标的影响因素,区域经济社会统计数据在空间上分布的计算(离散化),必须考虑该指标影响因素的空间分布情况,及其对该指标的空间作用方式,才能将该经济社会指标总量数据“分配”到区域内不同的空间上[5]。经济社会统计空间离散化处理的基本方法是,对于某个经济社会统计指标,首先计算其每一种影响因子对该经济社会指标的影响数值,该计算需要依赖地理信息系统软件工具实现,以ARCGIS软件为例,其计算方法是利用GRID下的ZONALSTATS函数进行SUM统计,对于增长百分比性质的参数计算,采用平均值统计方法,公式(1)有:TEMPINFO1=ZONALSTATS(ADMGRD,ELEGRD)。其中:ADMGRD为ZONALGRID;ELEGRD为影响要素。公式(2)有:TEMPINFO2=ZONALSTATS(ADMGRD,STATGRD)。其中:ADMGRD为ZONAL-GRID;STATGRD为被统计对象。这样可以逐个计算得到影响要素在每个行政单元内的总分值、社会经济要素的总量。将TEMPINFO1,TEMPINFO2合并到一起,并用经济要素总量除以总分值,即可得到每个分值所代表的经济总量,并将该值添加到TEMPINFO1的一个属性项SCORE中;将TEMPIN-FO1与行政区划ADM属性表连接,将SCORE项转换成GRID数据,结果为SCOREGRD;用SCOREGRD乘以要处理的社会经济要素数据STATGRD,即可得到处理离散过社会经济指标数据STATGRD。实际计算中没有必要就每一种区域自然及社会经济条件对社会经济要素空间展布的影响分析,可以建立一种模型对某一种社会经济要素的所有影响因子及基础条件进行统计计算其影响力,模型为公式(3):AGRD=Vi×EiGRD。其中:Vi为第i种影响因子的权重值,其所有值的和为1;EiGRD为第i种影响因子对该社会经济要素的影响分值GRID。

1.2人口数据空间离散化

我国人口的空间分布是若干年来经济社会与自然相互作用的结果,其基本格局是西疏东密,但东南部地区密中有疏,西北部地区疏中有密[6]。根据全国人口统计实际状况,人口空间分布数据的计算以县级行政单元人口数据为基础,考虑人口空间分布的各种影响因素,特别是与产业结构的空间分布有很大关联度[7]。在人口离散化计算中,首先计算城镇人口空间分布,然后计算农村人口空间分布,两之合即总人口的空间分布。

1.2.1城镇人口的空间离散模型。虽然在城镇内部人口的分布存在一定差异,全国范围内城镇分布在空间上有很大的差别[8],但在全国尺度上,城镇人口在城镇斑块上的分布可以视作是均匀的,因此城镇人口的空间离散化可以将城镇人口按照城镇斑块面积平摊,在全国尺度上具有一定可信任性。全国城镇人口的离散化处理是以每个县级行政区为单元计算的,然后进行汇总,形成全国的城镇人口分布数据,对于任意一县级行政单元来说,该县级行政单元城镇用地地块中的任意栅格i,其上分布的人口(即城镇人口,以2000年为例)可以表示CTPOP_2000i=CTPOP_2000×Si∑ni=1Si。(4)式中:CTPOP_2000i是2000年该县级行政单元城镇用地地块栅格i上的人口;CTPOP_2000i为该县的城镇人口总量;Si为栅格i的面积,该县级行政单元共有n个城镇用地地块栅格;∑ni=1Si即为该县城镇用地面积。

1.2.2农村人口的空间离散模型。由于自然及社会经济条件的差异,在全国尺度上,农村人口空间分布具有极大的不均匀性;农村人口的分布依赖于土地利用类型、居民点分布、距交通线远近、自然资源的分布情况等多种自然地理要素和人文地理要素的空间分布;为此,在县级行政单元尺度上,为实现尽可能接近农村人口分布的实际需要,采用加权多因子影响力距离衰减模型。加权多因子影响力距离衰减模型中,首先单独考虑模拟各种影响因子对人口的影响,而后对各种因子影响力的相对大小进行模拟,并以线性叠加的方式将各种影响因子的影响力综合起来。由于数据的限制,这里主要考虑了城镇居民点和农村居民点中心的吸引作用、农村居民点斑块的限制作用,土地利用/覆盖类型的影响作用。对于任意一县级行政单元来说,该县级行政单元农村用地地块中的任意栅格i(以2000年为例),加权多因子综合影响力可以表示为W_2000i=∑mj=1∑ni=1K_2000j×Dij。(5)式中:W_2000i为2000年栅格i上加权多因子综合影响力;i为栅格序号,该县级行政单元内共有n个农村用地地块栅格;j为因子编号,该模型中共考虑m个因子;K_2000j为第j个因子在整个模型影响力的权重值;Dij为j因子在栅格i上的影响力。在得到各栅格点的影响力的总和值W_2000i之后,可以将W_2000i视作面积调整系数,与城镇人口空间离散模型相仿,可建立下面的数学模型进行农村人口的空间离散。得:COPOP_2000i=COPOP_2000×W_2000i×Si∑ni=1W_2000i×Si。(6)式中:COPOP_2000i是2000年某县级行政单元农村用地地块栅格i上的人口;COPOP_2000是该县级行政单元的农村人口总量;Si为栅格面积,W_2000i为2000年的加权多因子综合影响力,也即栅格i上的人口(农村人口)调整系数。

1.2.3总人口的空间分布模型。将城镇人口空间分布数据和农村人口空间分布数据进行叠加,即可形成表征总人口空间分布数据。数学模型表示为TPOP_2000i=CTPOP_2000i+COPOP_2000i。(7)式(7)中:TPOP_2000i为任意栅格i处的人口;CTPOP_2000i为栅格i处的城镇人口;COPOP_2000i为栅格i处的农村人口数;i为栅格序号。

2经济社会统计数据空间均匀度计算

行政区域有若干级别,考虑到在诸多研究中大量使用以省级行政单元为对象的经济社会统计数据,为便于研究,这里以省级行政区域单元为对象计算区域GDP、人口、产业增加值等空间均衡性,各指标值的空间均衡性以均匀指数表达。表达均匀程度有很多种方法,这里用自相关指数(ARCGIS中的MORAN指数)来表示。MORAN指数是一种空间自相关描述方式,可以用于描述地理实体在空间的分布关系,可以用于发现和解释物体在空间分布的原因,在模拟空间现象时可以确定空间临近程度,该指数的使用有助于提高传统统计方法分析能力。MORAN指数的计算为公式(8)C=∑∑WijCij/(∑∑Wij)[∑∑(Zi-Zm)2/n]。其中:C表示MORAN指数;∑∑Wij=4×n;n表示GRID中格网的总数,NROW×NCOLS;i,j指任意两个相临的格网;Zi格网i的属性值;Cij是格网i,j属性的相似性(Zi-Zm)×(Zj-Zm);Wij是格网i,j位置的相似性,如果格网i,j直接相临(4个方向上),则Wij=1,否则Wij=0。该模型算法中采样变量σ2采用(∑Zi-Zm)2/n公式计算,其中Zm是GRID数据的格网平均值,其计算是根据空间位置及属性的相似性进行的。对于计算结果,有3种值可能出现:C>0,表示空间上属性相似,具有一定的区域性,属性值在空间具有一定的平滑性;C=0,表示空间上相对独立,空间上没有关联性,基本上是随机出现;C<0,表示完全不相同,具有相邻空间区域上的属性反差很大。借助于软件工具,基于已空间化的经济社会各指标数据,可以计算每一省级行政单元上任何指标的MO-RAN指数。社会经济统计各指标空间均匀指数计算过程:首先,对于某一社会经济要素及每一个省级行政单元,从对应社会经济要素的全国1km×1km栅格数据中将各省级行政单元数据提取出来;第二,在软件工具支持下,计算每个省级行政单元的空间自相关指数MORAN指数;第三,均匀指数计算,将MORAN指数值最小的省级行政单元的值设为1,MORAN指数值最大的省级行政单元的值设为100,其他省级行政单元的均匀指数利用公式(9)进行计算:EQi=(MORANi-MORANmin)/MORANz×99+1。其中:EQ为均匀指数;i为第i个省级行政单元;MORANi为第i个省级行政单元的MORAN指数;MORANmin为所有省级行政单元中MORAN指数最小值;MORANz为所有省级行政单元中MORAN指数最大值与最小值的差值。

3经济社会统计数据空间均匀度分析

基于上述算法,分别计算2000年以省区为统计单元的社会经济指标GDP,第一产业、第二产业、第三产业增加值及其他指标空间均衡情况,发现不同的经济社会指标在相同区域的均衡性有很大的差异。三次产业结构的空间上的差异受市场空间分布、区域经济发展阶段和发展水平等多种因素影响[9]。在三次产业增加值计算的过程中,发现在省级行政区交接地带,既有产业结构明显差异的一面,也有经济合作的烙印[10]。表1是我国2000年度GDP各指标在省级行政单元上的均匀程度。对于GDP总量,就全国而言,其均匀指数为60.8;就各省区而言,均匀性最好的是北京市,其次是天津和上海;均匀指数最低的是西藏,其次是青海、贵州,这说明在各直辖市内区域内部的差异相对较小,而在经济欠发达的西部地区,GDP总量在空间分布极不均匀。对于第一产业,均匀指数最高的是西藏,其次是青海,其主要原因是这些地区农业相对较为落后,以畜牧业为主,由于普遍增加值较低,相对比较均匀;均匀指数较低的是上海、天津,这些区域农业增加值比重相对较低,且主要分布在城市边缘地区,整体的空间均匀性较差。对于第二产业,均匀指数最高的是北京,其次是黑龙江、上海、天津,由于第二产业主要集中在城市和城镇区域,所以在直辖市及工业基础较好的区域,均匀性较好;均匀性比较差的区域是西藏、青海。对于第三产业,均匀性较好的是北京、天津、上海,这些区域的第三产业基础较好,分布较为均匀,均匀性比较差的区域是广东、西藏、云南等;广东不均匀的原因主要是珠江三角洲地区与北部、西部山区地区的差异过大造成的,而西藏、云南等地则是人口、城镇相对集中造成的。

4结论与讨论

从我国以省级行政单元为对象的经济社会指标分析数据表达的平均程度发现,我国目前使用的经济社会统计最主要的问题是以大行政区域为空间单元的统计数据掩盖了区域内部的差异和不均衡[11]。本研究方法本身有一定的不完整性,但定量化、空间化的尝试本身则是值得肯定的。这种方法主要基于以下几个方面的考虑:经济社会统计对象的空间分布越是不均匀,统计数据的区域平均的真实性越差;统计对象的空间分布规律可以在一定程度上被模拟;统计对象的区域内部不均衡性可以量测,可以用统计区域内部所有空间样本中不同值域段样本数占总样本的比例表示;该方法通过分析统计数据隐含的不确定性,使政策措施决策者在以经济社会统计数据为依据制定相应的政策措施时,充分考虑统计数据所掩盖下的区域差异和区域内部差异。