数据挖掘技术在精准扶贫的应用

时间:2022-08-06 08:17:28

数据挖掘技术在精准扶贫的应用

1数据挖掘技术助力精准扶贫的现实意义与可行性

从2013年11月提出“精准扶贫”重要思想以来,各基层工作人员深入一线开展调查,已经积累了大量的、真实准确的数据,而数据挖掘技术也在近年来愈加成熟。因此,将数据挖掘技术引入“精准扶贫”的数据分析中,其可行性的毋庸置疑的。

2精准扶贫统计数据的内容与特点

精准的扶贫离不开精准的数据,4年来,在广大基层干部的不断摸索下,对于如何收集数据,收集什么数据等问题已经有了较为成熟的体系。以贵州遵义地区某乡镇为例,所采集的数据包括了户编号、人员编号、姓名、证件号码、人数、与户主关系、民族、文化程度、是否在校生、劳动能力、务工状况、务工时间、是否参加大病医疗、贫困属性、主要致贫原因、是否危房户、饮水安全情况、人均纯收入等18项数据。目前在采集数据环节尚存在的问题有:一是主要采用人工采集,效率低、数据少。二是所填写的数据表各地不一致,内容差异性较大。三是各地区基层干部对数据采集的口径理解不一致。基于以上问题,目前所采集到数据仍存在一些混乱的情况,这给下一步的数据挖掘带来了不小困难,需要进行大量的数据清理工作。

3可用于精准扶贫的数据挖掘技术分析

一般来说,数据挖掘过程有以下几个步骤:一是明确要解决的问题和搜集正确的数据,二是进行数据预处理,三是决定采用哪一种挖掘算法,四是进行结果解释和评估。本文所采用的数据已进行了预处理,下面着重讨论一下数据挖掘可用于精准扶贫数据分析的技术:关联规则与聚类分析。3.1关联规则。数据关联是数据库中存在可被发现的知识。若两个或多个变量的取值存在某种规律性,就称为关联。关联分析是数据挖掘的本质,既然数据挖掘的目的是发现潜藏在数据背后的知识,那么这种知识一定是反映不同对象之间的关联[2]。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。通过关联规则分析,我们首先从原始资料中找出高频项目组,例如,对于数据库D=5951人,找出健康状况为“健康”,文化程度为“小学”,建立频繁二项集I={健康,小学},D中有X=4878人包含“健康”,有X^Y=1710人同时包含“健康”和“小学”,则其支持度(X^Y)/D=0.29,置信度(X^Y)/X=0.35。若给定最小支持度为0.2,最小置信度为0.3,则“健康”和“小学”这两项属性可认为存在关联。然后再取某一属性,重复上述步骤,若支持度与置信度仍然分别高于最小支持度与最小置信度,那么将该属性添加到项集I中,直到上述条件不再满足为止。通过关联规则,我们可以找出对于某一地区贫困户来说,致贫的主要原因与贫困户的哪些属性有关,查缺补漏,指导扶贫政策的落实。3.2聚类分析。数据挖掘的目标之一是进行聚类分析。聚类分析是一组将研究对象分为相对同质的群组的统计分析技术。聚类分析又分为划分层次、基于密度的方法、基于网格的方法等三类,这里主要讨论划分层次法和基于密度的方法。划分层次法:将整个数据集中的数据凝聚为以候选代表点为中心的一个个集合,并通过密度阈值筛选,去掉一些过稀疏的候选代表点,留下的代表点即为排除孤立点的中间层聚类结果[3]。例如,根据对贫困户人均年纯收入作为数据对象进行层次划分,我们发现,对于贫困人口为5951人的乡镇,其人均年纯收入主要集中在了2000—5000元档次。基于密度法:例如我们选取了“年龄”和“人均年收入”作为关联对象,通过基于密度的方法绘制出下图。上图中每个圆点为一个数据对象,所谓基于密度的方法即通过划分各个数据对象之间的距离来划分簇,然后通过研究簇之间的关系来分析数据结果[4]。设D为数据对象集合,且|D|=n,设数据对象的圆心为O,以ξ为半径,半径ξ内的区域称为数据对象O的邻域,数据对象之间的距离为l。若存在一个对象链p1,p2,……,pn,且pn从p1出发,使得该对象链各对象之间的距离l<半径ξ,则称该对象链为基于密度的簇,记为Ci。若某数据对象不存在于任何一个簇中,则称该对象为噪声。通过观察各簇所在的区域可以区分出不同的贫困人群以及贫困人群的主要集中区域,并可针对某一类簇中的人群制定与之适应的扶贫政策。聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,一般来说,几何性质,包括类间的分离和类内部的耦合,都可以用来评价聚类结果的质量[5]。

4结语

随着精准扶贫工作的深入开展,所采集的数据日益庞大,借助数据挖掘技术进行有目的的分析研究势在必行,通过数据挖掘和精准扶贫的有机结合,将为扶贫工作提供科学的建议与方向,极大地提高了工作与资金利用的效率。

【参考文献】

[1]贠艳冰.大数据背景下精准扶贫的机遇和挑战[J].科技经济导刊,2017(15):256.

[2]何月顺.关联规则挖掘技术的研究及应用[D].南京:南京航空航天大学,2010.

[3]张艳.基于密度和层次的快速聚类算法在数据挖掘中的设计及实现[J].信息安全与技术,2013(08):59-61.

[4]洪龙,陈燕俐,王建东,等.数据挖掘中基于密度的聚类结构及算法设计[J].南京邮电学院学报,2003(04):6-11.

[5]王茜,刘书志.基于密度的局部离群数据挖掘方法的改进[J].计算机应用研究,2014(06):1693-1701.

作者:赵智云 罗雅方 单位:1.遵义医学院 2.贵州省遵义市汇川区芝麻镇人民政府