数据挖掘技术提高民营经济质量研究

时间:2022-08-10 10:30:14

数据挖掘技术提高民营经济质量研究

随着大数据概念的出现,数据的价值越来越受重视。数据挖掘就是从大量的数据中挖掘出有用的信息,所以数据自身的质量对挖掘出来的信息有重要的决定作用。统计数据的质量是政府统计工作的生命线,关系着政府统计部门的形象和公信力。随着经济的发展,政府经济统计数据被使用的频率越来越高,人们也越来越关注统计数据自身的质量问题。然而,我国的一些官方统计数据常常受到诸多媒体和社会公众的质疑,认为数据中水分太高,失真现象很严重。事实上,我国政府统计部门在提高我国统计数据质量方面已经做了很多努力,由于其面对的统计对象广泛且复杂,导致数据质量提高的难度不断增大。要提高政府统计数据质量仅仅依靠目前已有的方法和技术是不够的,必须要引进新的技术手段,所以本文尝试将数据挖掘技术引入到提高民营经济统计数据质量研究中,以期能够改善政府统计数据不能满足使用者需求的现状。

一、民营经济和统计数据质量的内涵

(一)民营经济的内涵

关于民营经济的定义,尚未形成一致的观点。一种较为认可的定义是,民营经济是指除了国有及国有控股、集体经济、外商和港澳台商独资及其控股的经济组织,其主要成分是私营企业、个体工商户和农民专业合作社。其中,私营企业和个体工商户在民营经济中占据了绝大部分。在当前有关民营经济的统计资料和研究文献中,基本上也是按照如上的构成成分加以统计和分析研究的。

(二)统计数据质量的内涵

关于统计数据质量的涵义,不同统计机构和学者对此有不同的定义。例如,加拿大统计局确定了衡量数据质量的6个方面标准:即实用性、准确性、及时性、可取得性、衔接性、可解释性;英国统计局提出的数据质量的标准是准确性、及时性、有效性和客观性。厦门大学博导曾五一教授在他的研究中认为,统计数据的质量并不限于通常人们理解的准确性,它的完整内涵应当包括:准确性、适用性、时效性、可比性与可获得性等五个方面的要求。本文就借用曾教授的观点,依照这五个标准来提高统计数据的质量。

二、民营经济统计数据质量的现状

政府对外公布的民营经济相关数据颇多,比如民营经济增加值、民营经济的营业收入、民营经济规模以上企业数、民营经济对GDP的贡献率等。民营经济数据的质量高低对以其为依据所做的有关决策和结论的科学性有重大影响,所以提高民营经济统计数据的质量具有重要意义。从总体上看,目前的统计数据可以反映我国经济发展的大体趋势。由于民营经济统计的对象复杂多变且分布广泛,使得民营经济统计数据的质量还存在诸多问题,不能满足使用者的需求。

(一)民营经济统计数据失真的现象很严重

统计数据失真的现象早已被社会公众所熟知,例如东北多个GDP造假县域经济规模超香港,地方GDP“增速高于全国、总量大于全国”等。统计数据失真主要是由统计制度不够完善造成的。通过对福建省某市统计局的走访,了解到目前民营经济统计没有专门的部门负责,而是将民营经济中的不同行业分给不同的部门负责统计,在统计人员中也分出了调查队和统计组两个队伍,数据的收集主要是由各级政府层层上报。有的政府上报的数据完全是虚假数据,这样的统计制度难免会出现数据失真的现象。统计数据虚假是最常见的统计数据质量问题,也是危害最为严重的统计数据质量问题。这些统计数据完全是虚构杜撰的,根本就没有事实依据。

(二)民营经济统计指标不统一造成各地统计数据难以衔接

目前,从国家层面看,全国没有统一的民营经济定义,也没有统一的民营经济统计口径和统计指标,也没有明确一个部门牵头负责民营经济工作。各省对民营经济统计工作没有参照的标准,只能自成一体。各级政府部门都是根据自身的统计需要来制定各自的统计指标和统计口径,这使得不同省份的民营经济统计数据不具有可比性,相互间难以衔接。以山东省为例,工商联、工商局、中小企业局三个部门都在抓民营经济,而市一级多数由中小企业主管部门负责。从统计口径上看,省工商局所统计的民营经济指标实际上只是个体工商户和私营企业,省中小企业局执行的是以前乡镇企业的指标体系,基本不用民营经济这个概念,但到了市一级,中小企业、民营经济用的都是这个数据,而概念和标准都十分清楚的中小企业从上到下都没有专门的统计。概念界定不清、统计口径不统一、统计体系不健全,给基层工作带来很大不便。对此,山东省宏观经济研究院经济研究所所长高福一认为,面对大数据时代,统计体系不完备,会对政府的科学决策造成一定影响。

(三)民营经济配合统计工作的积极性不高,申报的数据较随意

民营经济的统计工作,仅仅依靠统计部门及其他政府部门远远不够,需要各民营经济实体的积极配合。从当前情况来看,由于缺乏相应的法律约束,民营经济实体在这种“纯义务”的统计工作上,很少采取主动配合的态度,对统计部门需要的统计资料也是敷衍了事,甚至有时要统计人员再三催促,才随意地报上一组数据应付。这种不准确的数据严重影响统计报表的准确性,不利于我国民营经济的统计工作。同时,民营经济体对于涉及企业销售总额与营业利润等企业的敏感性数据,抵触心理严重,这主要是其“怕征税、怕露富、怕泄密”的心理造成的,如此一来,在对待民营经济统计工作的态度上,民营经济体本身就不愿意参与,也不会主动配合,大大降低了民营经济统计工作的效率。由此可见,缺乏相应的法律约束,使民营经济提供的数据与报表资料随意性很大,给我国民营经济的统计工作带来非常大的困扰,这也是我国民营经济统计数据质量不高的重要原因。

三、数据挖掘技术在提高民营经济统计数据质量中的应用

数据挖掘的正式研究开始于1989年举行的第十一届国际联合人工智能学术会议,从数据库中发现知识(KDD)一词首次在该会议中被提出。数据挖掘技术从一开始就是面向应用的,在国外很多领域,如金融、生物、电信、保险、交通、零售等领域,数据挖掘的应用都起到了明显的效果。世界上研究数据挖掘的组织、机构和大学有很多,比如卡内基梅隆大学、斯坦福大学和麻省理工学院等。与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量,直到1993年国家自然科学基金才首次支持该领域的研究项目,到上世纪90年代中后期,初步形成了知识发现和数据挖掘的基本框架。此后一批研究学术论文逐渐发表,但是基本上还是以学术研究为主,实际应用上处于起步阶段。在大数据时代,利用数据挖掘提升竞争力已成为各行各业都在追逐和挑战的目标,数据挖掘被认为是大数据中最关键和最有价值的工作。目前有研究者提出将数据挖掘技术应用于统计中,为相应的部门提供服务。比如,将数据挖掘应用在政府统计、人口普查、经济普查中。民营经济作为我国的一大经济支柱,其中包含了大量复杂的信息,数据质量高低不容忽视。因此,有必要对数据挖掘技术在民营经济统计数据质量控制方面进行研究。

(一)微观层面

我国民营经济包含的对象复杂多样,各单位的规模大小不一,其分布又十分广泛。面对如此庞大的群体,民营经济统计工作的难度可想而知。我国没有统一的民营经济统计,都是各省各部门根据自身的需要进行相关统计。据某统计局工作人员介绍,在收集民营经济统计数据时,按照企业规模的大小分为两种渠道,规模以上的企业通过网络直报提交数据,规模以下的通过调查队或者当地基层政府提交相关数据。在收集数据时,根据行业不同又分工为不同科室负责,比如有的科室负责钢铁行业,有点科室负责文化产业行业等,这样容易导致重复统计或者遗漏统计。目前我国对于民营经济申报的统计数据没有任何法律约束,导致上报的数据很随意,常常与实际值偏离巨大。在初始环节严把数据的质量,对后期的数据加工具有重要的意义。1.孤立点的识别。孤立点指的是在数据集合中与大多数数据的特征不一致的数据。孤立点挖掘可以描述为,给定一个n个数据点或对象的集合,以及预期的孤立点的数目k,发现与剩余的数据相比是显著不一致的头k个对象就是孤立点。目前挖掘孤立点的算法主要包括七类:基于统计的方法、基于距离的方法、基于密度的方法、基于偏离的方法、基于聚类的方法、基于粗糙集的方法和基于人工神经网络的方法。在民营经济统计数据采集过程中,由于采集的对象庞大,政府统计工作人员无法做到对每次收集的数据一一核实,只能对采集的数据进行一次筛选,将其中可能存在显著差异的数据找出来,然后对这些数据进行核实,剔除一些无效的数据,以保证原始数据的真实性。对于民营经济各个单位上报的统计数据,无论是故意的还是无意的都会出现一些孤立点,这些孤立点的存在无疑会影响数据的质量。我们可以通过基于聚类的方法来找到这些孤立点,首先将民营经济统计数据集利用已经成熟的模型进行聚类分析,使数据集形成簇,而那些不在簇中的数据即被视为异常点,然后对这些异常点进行一一核实,这样工作量就大大缩小了。2.缺失数据的替代。缺失数据是指数据集中某些记录的属性值丢失或空缺,一般缺失的属性值代表了缺失的信息。民营经济统计指标体系涵盖的内容广泛,而民营企业大部分规模较小,数据记录的制度不健全,面对政府部门收集数据的任务,有时是提交空白数据,有时是随便填报个数据敷衍了事。统计部门收集到的空白数据,最简单的办法是直接去掉,这样势必会影响到最终统计结果的真实性。为了提高数据的质量,必须要对这些缺失值找到一个合理的替代值。缺失数据的替代方法有单值替代、类均值替代和回归替代,这些方法都可以解决缺失数据的替代问题。单值替代是使用一个常量代替所有的缺失值,常量的选择由应用的目的而定,可选择平均值、最大值、最小值等统计指标。类均值替代是用缺失数据记录所在类别的属性平均值代替缺失数据。回归替代是应用回归分析技术,对包含有缺失属性值的属性和相关的其他属性建立预测模型,并用相应的预测值代替缺失属性值。3.虚假数据的修正。在民营经济统计中,会收集很多不可避免的虚假数据。造成统计数据虚假的因素多种多样,如一些经济主体受经济利益驱使,捏造虚假数据,在财务报表上大做文章。比如,一些效益好的企业为了偷税漏税故意少报利润和销售收入,而一些效益不好的企业少报亏损或者高账面盈利,以骗取银行贷款并树立企业形象。还有一些企业长期搞多本账,报给财税部门的是“苦账”,报给银行获得贷款的是“喜账”,报给上级主管部门的是应付账,留给自己的才是真实账。虚假数据俗称为含水分的数据,如果这些数据水分不大,可以不去理会,因为统计数据是反映一个大体概况和趋势的,不需要毫厘不差。如果这些数据水分较大,汇总在一起的高水分的数据容易放大或者缩小实际经济状况,这时就必须在初始数据采集时严控数据中的水分。这些数据一般不会像孤立点那样容易被发现,具有一定的隐蔽性,必须要借助于数据挖掘方法才能识别其中的水分,比如数据挖掘中的聚类分析。聚类分析是将一个数据集划分为若干聚类,并使得同一个聚类内的数据对象具有较高的相似度,而不同聚类中的数据对象的相似度尽可能低。在民营经济统计数据库中将具有相似属性的企业归为同一个聚类,对于同一个聚类中某个企业的某项属性明显存在巨大差异,则可以判断此属性数据可能存在严重虚假,然后再进一步调查核实和修正。

(二)宏观层面

大部分地方统计部门在处理和分析统计数据时还处于手工操作或半手工操作,计算机的使用仅限于做一些简单的汇总和指标计算,统计分析也主要是事后分析,没能利用发达的计算机技术通过信息共享等方式进行事前分析和预测。1.关联规则的应用。关联规则是近几年研究较多的数据挖掘方法,具有高度的灵活性和重要性,应用也是最为广泛的。关联规则挖掘的主要对象是事务数据库,在事务数据库中,事务1中出现了属性项甲,事务2中出现了属性项乙,事务3中则同时出现属性甲和乙。那么属性甲和乙在事务中的出现互相之间是否有规律可循就是关联规则要挖掘的隐含信息,以查找容易被忽略或与人们熟知相背离的事件。经济统计中运用关联规则能够挖掘出汇总数据中联系密切的行业,这些关系密切的行业有已知的,也有未知的。尤其在民营经济的统计数据中,有些内部信息汇报人不愿如实填写数据,导致汇总后的数据与实际数据相差甚远,此时可以通过已经建立的规则关系来识别和修正一些水分较大的数据。在实际运用当中,很多属性之间所存在的关系为人们所知晓,被称为平凡规则,如提升工业总产值能够带来生产总值的增加。通过平凡规则,我们能够对数据质量的高低进行判断,以此达到消除虚假数据的目的。2.决策树的应用。决策树是一种用于分类、聚类和预测的建模方法,在民营经济统计数据中可以用决策树进行分类和预测分析。我国民营经济统计没有统一的口径,很多数据是通过统计人员根据收集部分数据推断出来的,所以需要一种有效可行的预测方法。决策树算法十分直观,这一过程的关键是有效构建决策树,主要分为建树和剪枝阶段。通过决策树对数据分类主要由两个步骤组成:其一,决策树模型的构建,即通过训练集实现一颗决策树的构建及精化;其二,将输入的数据通过决策树进行分类处理。当将数据输入决策树时,会由根节点对属性值依次进行测试并记录,然后到达叶子节点,来实现寻找记录所在类。从整体来看,决策树算法属于递归过程,一直进行到满足终止条件为止。分割停止要满足两个条件:其一为某一个节点上数据都同属一类;其二是能够进行数据分割的点已经耗尽。这一过程主要用于解决数据挖掘的预测及分类方面问题。

四、提高民营经济统计数据质量的对策

民营经济统计是一项综合的统计工作,涵盖了民营经济的各行各业,必须着眼于整个统计工作,从政府和企业相结合的角度建立一套行之有效的机制,来切实规范企业的行为,夯实企业的统计基础,并调整部门间的信息共享。

(一)政府应做的工作

1.加大统计执法检查力度,做好统计基础工作。对民营企业中存在的虚报、瞒报、拒报等统计违法行为,要鼓励执法人员勇于执法、善于执法,在保护民营企业遵纪守法正常发展的同时加大对一些典型的统计违法案件的曝光力度,以案说法,扩大教育面,促进这些企业的统计工作正常开展。同时,各级统计部门要重视对民营企业特别是新建的民营企业统计基础工作的指导工作,要组织力量搞好培训工作,督促企业依法建立健全原始记录和统计台账,夯实基础工作,严把统计数字质量关,要优选专兼职统计工作人员,切实做到业务精、责任心强,保证统计数字上报的及时性和准确性。2.将数据挖掘技术嵌入到网上直报系统,增强统计数据的自动化处理能力。在信息技术飞速发展的今天,先进的信息技术已经成为进行统计工作必不可少的工具,利用数据挖掘技术辅助网上直报系统,从而使得原始数据采集、储存加工以及信息传递实现了现代化,这不仅提高了统计数据传递的及时性,而且也提高了统计数据的准确性。同时伴随着信息技术的发展,调查技术也在不断地改善,一些新的调查方法将会逐步代替旧的调查方法,例如计算机辅助调查、计算机输入数据搜集系统等等。与此同时,还要不断推进统计信息自动化建设,提高各级统计部门的配机率和数据信息的处理能力,集中力量做好统计数据处理的软件开发和综合数据库建设,进而提高统计数据的质量。

(二)民营企业应做的工作

1.民营企业的领导层要重视配合政府统计部门的工作。要搞好统计工作必须得到企业领导的支持和其他职能部门的通力配合。统计工作涉及企业的供产销和人财物各个方面,对一个企业的生产经营活动起到监督、检查和指导作用,因此没有领导的重视和支持,没有企业中各个部门的积极配合,就无法保障统计数据的准确,资料来源渠道的畅通。2.民营企业自身要加强规范化统计基础工作。企业必须要有健全的原始记录、统计台账及财务报表,且能同时满足相关部门的需要,财务报表能满足统计需要的不再布置统计报表,并且根据会计决算的实际期效,统一上报时间。以减轻企业的劳动负担,增强企业积极配合统计的意愿,这样也避免了在财务决算之前“瞎估乱报”的现象。根据企业的实际情况,可以将会计、统计合并为一个综合部门,共同承担会计、统计任务,解决基层企业力量配置及劳务成本的问题。但无论人员如何配置,必须保证提供准确可靠的原始数据,做到不迟报、不漏报,确保源头数据的真实性,以提高民营经济统计的数据质量。

作者:柯芳 单位:福建师范大学协和学院

参考文献

[1]曾五一.国家统计数据质量研究的基本问题[J].商业经济与管理,2010,(12).

[2]高敏雪.从外部监督入手解决统计数据质量问题的努力[J].统计研究,2009,(8).

[3]罗建梅.提高中国政府统计数据质量的几点思考[J].经济研究导刊,2009,(19).

[4]金勇进,陶然.中国统计数据质量理论研究与实践历程[J].统计研究,2010,(1).