生态农业数据挖掘技术应用

时间:2022-04-01 10:01:02

生态农业数据挖掘技术应用

1数据挖掘的定义和方法

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、新颖的、未知的、但又有潜在有用的高质量的信息。数据挖掘是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观和宏观的统计、分析、综合和推理,发现事件间的相互关联关系,利用已有的数据对未来的活动进行预测[4]。数据挖掘常用的技术有:统计分析技术,包括线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术[5];知识发现类技术,包括人工神经网络、决策树、遗传算法、粗糙集、规则发现和关联顺序等。应用这些技术可完成对数据特征化区分,关联分析,分类和预测,聚类分析、演变分析等挖掘功能。在实际应用中,应结合具体应用领域将多种技术相结合,以期获得最佳的挖掘质量和效果。

2数据挖掘实施过程

数据挖掘实施过程分为以下4个步骤[6]。

2.1数据定义和数据清洗

创建元数据,定义相关领域,填写空缺值、平滑数据噪声、识别删除孤立点以及处理不一致数据。

2.2数据聚集和数据挖掘模型开发

集成多个数据库、立方体和文件的数据。对数据进行概化(用高层次的概念代替低层次的原始数据)、规范化(将属性数据按一定的比例缩放到特定区间)、属性构造、数据归约(删除弱相关的属性、数据浓缩)。选择知识发现的方法,确定模型。

2.3数据挖掘

运用确定的数据挖掘模型,从数据中提取出用户需要的知识,用某种特定的方式表示或使用常用的表示方式,以满足用户的需求,使数据挖掘工作效用最大化。

2.4知识评估

知识评估包括解释、推演及模型调整。可将发现的知识以用户需求的方式进行表现,根据用户需求对过程中的某些处理阶段进行优化,直至最大限度地满足用户的需求。

3生态农业

“生态农业”(EcologicalAgriculture)一词最初是由美国土壤学家W.Albreche于1970年提出的。1981年英国农学家MWorhtington将生态农业明确定义为“生态上能自我维持、低投入,经济上有活力,在环境、伦理和审美方面可接受的小型农业”[7]。中国生态农业(ChineseEcologicalAgriculture)具有深厚、古老的农业传统背景和基础,有其本身一定的发生发展过程,具有独特的个性,即不否定化肥、农药、激素等的适当投入,追求技术和能量的高效,并具有劳力密集和技术密集相结合的特征。中国生态农业是在传统农业的基础上发展起来的,精耕细作、培肥地力、间套轮作、林粮间作、基塘种养、农牧结合等传统农业精华与现代化技术相结合,逐步发展成为具有中国特色的农业综合生产体系[8]。我国生态农业是综合运用了人与自然的关系原理,以生态学、生态经济学、生物学、社会学等理论为基础,采用系统工程方法和先进科学技术成就,以研究生态经济协调发展,合理利用自然资源、保护生态环境为主题,以实现农业和农村经济持续协调发展为目的,强调生态效益,兼顾经济效益和社会效益的新型农业发展模式[9]。现代高新技术会更加广泛地渗透于生态农业中由于生态农业所追求的目标是高效益和无污染,而要实现这个目标就必须更多地依靠现代高新技术[10]。

4数据挖掘技术在生态农业上的应用

农业是一巨型复杂系统。我国土地辽阔,土壤类型众多,作物品种复杂,病虫害发生频繁且症象不断变化,肥水、密度以及气候相互之间的关系和影响,许多还未被人们去认识,然而所积累的数据之多是任何一个领域所没有的,它具有大量、多维、动态、不完整、不确定等特性。由于农业自身的一些特点,如:土壤类型众多,作物品种复杂,病虫害发生频繁且症象不断变化,肥水、密度以及气候相互之间的关系和影响,就使得关于它们的数据库与知识库具有大型、多维、动态、不完全(缺值)、不确定(数据中的系统或随机噪声)、稀疏性(很少甚至没有有用的记录)等特征[11]。因此,数据挖掘工具应能处理农业数据的这些特征。另外,农业数据还有另外一个特征,它的测量与时间有关,在数据分析过程中要求考虑时间因素,以便进行预测。目前及今后数据挖掘技术在生态农业中的应用主要集中在以下几个方面。

4.1生态农业类型研究的应用

通过长期生态定点观测站,包括农田生态系统、草地与荒漠生态系统、森林生态系统以及湖泊湿地海湾生态系统各野外观测站的长期监测数据(包括生物、土壤、水分和气象四个部分)信息、观测样地信息与水分、土壤、大气和生物监测信息以及相关研究成果的数据。构建相关数据库,利用数据仓库技术和数据挖掘技术对大量积累的数据进行挖掘,运用序列分析、聚类分析和关联分析对生态农业类型相关因子进行综合分析,开展不同生态农业类型结构与功能的研究。

4.2生态农业分类体系研究的应用

生态农业的分类体现出区域特点,生态农业建设区域类型是结合本地自然条件建设的具有地区特色、符合生态规律和经济规律的区域生态经济系统。具体可分为以下九类:水田生态农业、旱地生态农业、山地生态农业、水域生态农业、低地生态农业、草地生态农业、园地生态农业、庭院生态农业、村镇生态农业。在每一生态农业建设区域类型中、根据生态农业系统的结构和功能分为4个生态农业系统结构类型、即平面结构型、立体结构型、时序结构型、链式结构型。开展对现有生态农业类型进行全面调查,采集各类生态农业类型的地貌、土壤、水文、气候等环境因子数据,利用数据挖掘技术的关联规则和粗糙集技术,可以确定生态农业类型的关键因子,排除干扰因子。通过相关统计模型,可以确定各区域生态农业类型的相似拐点,从而得到适应不同地区特点的生态农业类型优化方案。

4.3生态农业布局研究的应用

地理信息系统(GIS)技术用于国家和地区范围内农业相关的评估已有多年[12]。很多特定的农场系统利用GIS和一些相关技术来收集空间参考数据,进行空间分析和制定决策,作物状况和收成、土地能力、土壤侵蚀、土壤密度、地表和地下水污染、虫害袭击、杂草清除和气候变化影响的评估,空间数据挖掘技术是DM技术的分支,是数据挖掘的主要研究方向之一,是KDD(KnowledgeDiscoveryinDatabase)技术在空间数据库方面应用的延伸。空间数据挖掘技术的应用一般可使GIS查询和分析技术提高到发现知识的新阶段,另一方面,从中发现的知识可构成知识库用于建立智能化的GIS系统,地理信息系统技术与空间数据挖掘技术的集成能够更好开展生态农业布局研究,挖掘影响生态农业合理布局的关键因子,逐步实现生态农业的合理布局。

4.4生态农业评价方法的应用

参照现阶段我国生态农业建设的规模和发展方向,运用层次分析法(简称AHP)和模糊数学等系统分析方法进行研究,给出了一套以定量为主、定性与定量相结合的简便易行的生态农业综合效益评价指标体系与评价方法,将生态农业的综合效益分为生态效益、经济效益和社会效益三个方面(也即三个准则),并将诸方面分解为若干具体指标[13]。形成具有一个总目标、三项准则(子目标)和18个具体指标的三层次生态农业综合效益评价指标体系。通过对指标体系的数据进行量化,构建数据库,利用数据挖掘工具和统计模型以及神经网络技术,对数据库的数据仔细研究,可以挖掘出评价指标之间的相关性,设置合理的指标权重,根据评价年效益指数和相对指数的高低作出对生态农业系统综合效益的分析判断。进一步探讨生态农业评价方法

5结束语

从农业现代化走向农业信息化是农业发展的必然规律。数据挖掘是一个新兴的、潜力巨大的研究领域。生态农业领域的数据挖掘是计算机技术人工智能和统计学等与现代农业相结合的产物。数据挖掘技术在生态农业领域的应用还处于起步阶段,对它的理解和认识还需要一个过程,具体应用方案和技术还需要不断探索和研究。数据挖掘只是根据纯数据之间的关系挖掘出一定的决策模型,但它无法完成实现对结果的解析,只是给研究和应用人员提供一个强大的工具,因此必须将它和现有的工具结合起来,才能够使模型更完备和成熟。数据挖掘技术作为具有潜力巨大的研究领域,通过与现代农业相结合,将在农业科研、生产、管理等方面发挥巨大的作用,这对推动我国农业现代化的发展具有重要的作用。

作者:刘晖林永辉林怡工作单位:福建省农业科学院农业生态研究所福建省山地草业工程技术研究中心