数学建模聚类分析十篇

时间:2024-01-04 17:44:58

数学建模聚类分析

数学建模聚类分析篇1

关键词:模糊聚类;应用

中图分类号:TP311 文献标识码:A

随着互联网技术的发展和计算机处理能力的不断提升,处理海量数据成了目前计算机的主要任务之一。如何把海量数据很好地进行归类以发现知识也成了很多学科领域的研究重点。

聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。在这个过程中,事先并不清楚每个数据的类别,是一种无监督的分类过程。其目的是要获得一个划分,这些划分将一组数据集合分成几个子集,每个子集为一类,划分的标准是同类的数据在某种意义下相似性较高,不同类的数据在相同意义下相似性较低。

而现实世界中数据的归类有时并没有如此严格的界限,数据在性态和类属方面存在着过渡态,单一的类别并不能全面反映数据属性,需要做一种软划分以表达数据的类别性质。Zadeh提出的模糊集理论为解决这一问题提供了有力的分析工具,用模糊理论的思想来处理聚类问题,可以建立起样本对于类别的不确定性的描述,能更客观地反映现实世界。模糊聚类方法就是在此基础上发展起来的。这种类型的聚类方法,是从模糊集的观点来探讨事物的数量分类的一类方法

1 模糊集定义

模糊集理论最早是1965年美国计算机和控制论专家Zadeh提出的。他提出了用隶属程度来描述事物差异的中间过度,是一种用精确的数学语言对模糊性进行描述的方法。这种隶属程度,称谓隶属函数。

定义:论域U上的模糊集合A通过一个隶属函数刻画

μA (x):U[0,1],x∈U

记住A={(x,μA (x))|x∈U}

对任意x∈U,都指定一个数μA (x) ∈[0,1]与之对应,称为x对A的隶属度,μA(x)称为A的隶属函数。

若μA (x)=0,则x完全不属于A;若μA (x)=1,则x完全属于A;若0

隶属函数是模糊集理论的基本概念,它以0~1区间的一个实数反映一个元素隶属于集合的程度来描述模糊现象。常用的隶属函数有三角形隶属函数,S隶属函数,正态隶属函数,梯形隶属函数等。而隶属函数的正确选择在模糊集的研究与应用中起着十分关键的作用。当然,也可以个人偏好主观设定隶属函数。

2 模糊聚类算法描述

类的类别界限是分明的。然而,客观事物之间的界限往往是不分明的,这就提出了模糊划分的概念。模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事物进行分类的一门多元技术。

设X=(x1,x2,…,xn)为被分类对象全体,每一对象xi由一组数据(xi1,xi2,…,xim)表征,建立X上的模糊关系(模糊相似矩阵)R=(rij)n×m,这里表示xi与xj的相似度。其模糊关系的确定方法具体有距离法,如切比雪夫距离、海明距离、欧氏距离,以及相似系数法、贴近度法等。

基于模糊划分概念的模糊聚类方法主要有传递闭包法、最大树法,模糊C2均值方法等。模糊聚类反映了对象属于不同类别的不确定程度,可以更客观地反映现实世界。目前,模糊聚类分析已经广泛地应用于经济学,生物学,气象学,信息科学,工程技术科学等许多领域。

2.1 传递闭包法

传递闭包法聚类首先需要通过标定的模糊相似矩阵R,然后求出包含矩阵R的最小模糊传递矩阵,即R的传递闭包t(R),最后依据t(R)进行聚类。

(1)根据建立的相似矩阵求其传递闭包,即利用平方法,依次计算RR2R4。...。 R2k...,直至首次出现R2k=R2k+1,此时的R2k=t(R)为模糊等价矩阵。

模糊相似关系的建立关于各分类对象之间相似性统计量rij的计算,除了采用夹角余弦公式和相似系数法等方法确定相似系数,建立模糊相似矩阵,还可以采用如下几个计算公式。

①数积法:

(2)再按模糊等价矩阵t(R)里的元素数值从1到0,依次截得等价关系进行分类就能得到一个聚类图整个计算量为n3~n3log2n。

2.2 最大树法

最大树法根据模糊相似矩阵画出最大树再进行聚类,可按如下步骤进行。

第一步:建立分类对象集上的模糊相似关系,构造模糊图。这一步骤的工作可按如下作法进行:

(1)计算各个分类对象之间的相似性统计量rij(i,j=1,2,…,m),

建立分类对象U上的模糊相似关系R(rij)n×m

(2)将R表示成一个有m个结点所构成的模糊图G

第二步:构造最大模糊支撑树。构造模糊图G上的最大支撑树的算法,可按下述作法进行:

(1)找出G中最大权值的边rij;

(2)将rij存放在集合C中,将rij边上的新结点放入集合T中,若T中已含有所有m个结点时,转(4);

(3)检查T中每一个结点与T外的结点组成的边的权值,找出其中最大者rij,转至(2);

(4)结束,此时G中的边就构成了G的最大模糊支撑树Tmax。

第三步:由最大模糊支撑树进行聚类分析。其具体作法是:选择某一个λ值作截集,将Tmax中小于λ的边断开,使相连的各结点构成一类,当λ由1下降到0时,所得的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系图。

最大树的画法有Prim法和Kruskal法,用Prim法至多进行n3次运算,用Kruskal法至多进行n3~n3log2n次运算。

2.3模糊C均值聚类算法(FuzzyC-means,FCM)

该算法是由Bezdek和Dunn提出的,用隶属度确定每个样本属于某个聚类程度的聚类算法。FCM算法如下:将特征空间X={x1,x2,...,xn}划分为c个模糊组,可用模糊隶属矩阵U=(uij)∈Rcn表示,U中的数据uij表示第j(j=1,2,。。。,n)个样本属于第i(i=1,2,...,c)个类的隶属度,uij应满足式(7):

(7)

Bezdek将Dunn定义的目标函数J(U,C1,…,Ce)算法推广到更一般的情况:

(8)

式(8)中ci∈Rn为模糊组的聚类中心,dij=xj-ci为第个聚类中心与第个样本的欧几里德距离,dij2(xj,ci)=(xj-ci)TA(xj-ci),目标函数Jm(U,c1,...,ci)为某个样本到相应的聚类中心的加权距离平均和;m∈[1,∞]是一个模糊加权指数,用来控制隶属矩阵的模糊程度。

3 模糊聚类分析的应用研究

3.1 模糊聚类分析在数据挖掘中的应用

随着近年来数据挖掘技术的发展,聚类分析越来越多地用于大量的未知类别数据的分类,通过聚类可以从客户基本数据库中发现不同的客户群,刻画不同客户群的特征;作为数据挖掘的功能,聚类分析不仅可以作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析研究,而且聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,能够发现具有相似记录的数据空间领域,往往可以获得较好的样本数据。由于现实的分类过程往往伴随着模糊性所以用模糊数学的方法来进行聚类分析会显得更自然、更符合客观实际。模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法。 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

模糊集理论是一种处理不确定性问题的数学工具,是数据挖掘技术的重要方面。它正与粗糙集理论相集合,成为数据挖掘技术中一个新型领域,其发展空间极为广阔。

3.2 模糊聚类分析在金融业中的应用

数据挖掘在金融领域应用广泛,包括金融市场分析和预测、客户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件就能进行分析预测,而数据挖掘则可以通过对已有数据的处理,找到数据对象的特征及彼此之间的关系,利用模糊聚类分析法对客户进行分类,阻止产生坏账,防范金融欺诈,挖掘优质客户,让金融业更了解客户,为各种客户量身定做,设计更好的金融品种来满足客户需要,运用估计和预测的方法进行市场动向分析,可以从历史数据中分析市场走向,并预测观察到金融市场的变化趋势。

3.3 模糊聚类分析在模式识别中的应用

特征提取是模式识别中的一个重要问题,模糊聚类能从原始数据中直接提取特征,还能对已经得到的特征进行优选和降维操作;提取完特征后就需要分类器设计,模糊聚类算法既可以提供最近邻原型分类器,还可以用来进行特征空间划分和模糊规则提取,以构造基于模糊IF-THEN规则的分类器;在线条检测或物体识别中,模糊聚类既可以直接用于原始数据上,也可以用于变换域中,比如Hough变换中峰值检测问题一直困绕着其推广应用,基于模糊聚类的峰值检测方法解决了这一问题,使得Hough变换可以自动执行。在一些模式识别的具体应用中,模糊聚类取得了较好的效果,比如语音识别中的分类和匹配;雷达目标识别中目标库的建立和新到目标的归类;汉字字符识别中的字符预分类等。

3.4 模糊聚类分析在图像处理中的应用

图像处理是计算机视觉的重要组成部分,由于人眼视觉的主观性使图像比较适合用模糊手段处理,同时训练样本图像的匮乏又需要无监督分析,而模糊聚类正好满足这两方面的要求,因此模糊聚类成为图像处理中一个重要的研究分析工具。图像分割是模糊聚类在图像处理中最为广泛的应用,图像分割本质上就是象素的无监督分类问题,Coleman和Andrews在1979年就提出用聚类算法进行图像分割,此后基于二维直方图、塔型结构和小波分析等一系列新技术,人们相继提出了多种基于模糊聚类的灰度图像分割新方法,该方法在纹理图像分割、彩色图像分割、序列图像分割、遥感图像分割等方面获得了很大的进展。基于模糊聚类的方法在图像压缩、曲线拟合、边缘检测、图像增强等方面的研究同样取得了丰硕的成果。

4 结束语

模糊聚类是一门采用模糊数学方法进行分类的多元技术,其中动态直接聚类法计算量最少,在聚类分析、模式识别等领域应用中简便、实用。在实际应用中,其步骤是先经过数据预处理,再选取合适的模糊关系建立模糊相似矩阵,最后进行分类和识别。

参考文献:

[1] 刘晋寅, 吴孟达. 模糊理论及其应用[M]. 长沙: 国防科技大学出版社, 1998.

数学建模聚类分析篇2

关键词:软件系统;数据挖掘;模型设计

中图分类号:TP31 文献标识码:A 文章编号:1007-9416(2017)02-0086-03

对于软件数据挖掘系统而言,其数据资源的挖掘是一种对数据发现模型构建及规律认知的过程,通过对数据资源信息的优化分析可以实现对数据资源系统的有效收集。在实际软件系统开发的过程中,通过对软件信息资源的有效收集,可以实现对软件基础编码及测试依据的有效分析,而在现阶段软件数据挖掘系统分析的过程中,怎样实现软件系统的有效处理,逐渐成为数据资源信息模型构建中需要解决的问题。所以,在研究中,通过对数据挖掘系统的模型构建,进行了软件挖掘系统的分析,核心目的是通过信息资源数据库的稳定优化,实现数据资源模型的稳定构建。

1 数据挖掘的过程分析

对于典型的数据挖掘系统而言,其基本的过程可以通过图1所示。

1.1 数据挖掘对商业目标的理解

在数据资源挖掘的过程中,首先应该在商业的角度对用户的真实需求进行理解及分析,其中,信息资源的收集及理解会将行业的信息作为基础,通过对行业运行现状的分析,进行问题的理解及确立。同时,在问题分析的过程中,需要对项目的实行计划、项目风险以及受益项目进行合理性的问题的有效设计,充分保证资源项目评估的稳定性及优势性,从而为项目目标的优化设计提供稳定支持。

1.2 数据挖掘对数据资源的理解

数据资源系统构建的过程中,项目设计者需要在了解数据挖掘的商业目标之后,进行相关原始数据信息资源的优化设计,并通过对数据相关特征的分析,进行数据格式、形式及数量的优化统计,从而保证数据资源信息的稳定连接。

1.3 数据资源的准备

在软件系统数据资源准备的过程中,通过数据资源的准备及数据挖掘过程的稳定分析,可以发现在数据资源准备系统设计的过程中,主要内容应该包含数据的集成、数据的清理、数据的选择以及数据的变换,通过这些步骤的确定,保证数据资源在大量、全面及丰富的状态下,实现对数据资源的准备及集成性分析。同时,在数据集成问题分析的过程中,应该通过对多种异质数据的有效整合,保证数据资源库数据处理的原始性特点。数据清理主要是通过对噪音数据、数据冲突现象的消除,实现对数据信息的有效填补,从而为数据资源系统的数据污染处理提供稳定支持。数据选择主要是通过对数据清洗后的数据进行集成化的样本筛选、维度提升,使数据样本在项目优化设计的基础上,保证数据信息挖掘的技术性及分类型特点,实现数据格式资源转化的合理性。

1.4 数据模型的算法实施

在数据资源整合及设计的过程中,通过优化的测量进行参数资源的设定,可以保证数据资源挖掘算法的稳定性执行,并在模型构建及模型规则分析的基础上,实现系统阐述的稳定设计[1]。

1.5 评估模型的设计

在数据挖掘系统结果分析的过程中,应该将数据挖掘的结果中作为分析的对象,并将数据挖掘的学习类型作为项目的指导,从而寻找并认识到设计评估的基本规则及模型。在评估系统设计的环境下,其内容不仅需要包括对数据资源的处理及检测,而且也应该发现数据结构设计系统的中心环节,保证项目的设计的稳定性及核心性,从而实现系统评估及评价模型设计的科学性。

1.6 商业实践环节优化

通过对数据挖掘过程的分析可以发现,其资源库的构建可以指导企业进行稳定性的社会实践,并在某种程度上满足商业实践的基本标准。在商业实践优化设计的中,应该注意的是,数据信息库的资源处理,应该充分展现动态化的知识活动构建体系,并在商业实践及资源挖掘的基础上,保证商业活动柜的有效拓展,从而为数据挖掘资源平台的设计提供稳定支持。

2 数据挖掘系统需要解决的问题

2.1 数据准备及处理阶段的问题

在现阶段设计挖掘系统设计的过程中,很多数据资源库的设计在数据准备及预处理的过程中,并没有形成自动化的数据库资源分析模式,而且,对于冗余、冲突以及异常的现象缺乏应急性规定处理制度,从而导致数据库的资源选择以及样本筛选都需要得到专业人群进行干预,造成了资源的严重浪费[2]。

2.2 数据挖掘对象的问题

在设计挖掘对象分析的过程中,要求数据挖掘系统需要面对大规模的数据资源模型,但是,在现阶段数据资源挖掘系统设计中,其数据异质性现象较为突出,数据的特征及维度空间也相对较高,因此,在特征及属性间关系优化分析中面临着繁杂的特点,同时,在数据系统非机构化数据处理及分析的状态下,其结果也很难得到量化的处理。

2.3 企业数据库资源不完善

数据挖掘库作为信息资源储存的重要平台,在现阶段数据挖掘系统设计的过程中,企业存在着数据仓库系统设计不完善的现象,这一问题的出现也就会为信息数据的收集及整理造成较为严重的时间浪费[3]。

2.4 数据挖掘系统知识体系不成熟

数据挖掘问题分析的过程中,由于知识的形成及表示方法的差异性,导致在实际数据资源挖掘及项目指导及分析中,存在着领导人员缺乏专业性的数据挖掘知识的现象,使指导工作面临着一定的制约。

2.5 对系统处理方式没有形成有效体系

在稻葑试赐诰蚣按理的过程中,系统项目在某种程度上会起到指导性的作用,所以,对数据系统的算法及模型的处理应该保证项目评价的客观性,这种客观性评价也是数据资源信息挖掘中较为关键的环节。但是,在现阶段数据挖掘系统设计的过程中,存在着系统不完善的设计现象,从而为系统资源的处理造成了制约[4]。

2.6 样本分布中的不均匀现象

在系统设计及样本分析的过程中,其不均衡的数据集中问题存在着一定的制约性问题,其主要的内容包括了对学习理解不深刻、算法不合理以及评价不完善等,这些不均衡的因素得到了广大学者的广泛关注。因此,在现阶段数据挖掘资源优化的过程中,应该认识到样本分布不均匀的问题,通过对数据资源挖掘系统的有效分析,保证系统运行的稳定性及科学性。

3 软件数据挖掘中的模型研究

3.1 聚类挖掘中数据模型系统的构建

在对城市发展类型化问题分析的过程中,其初始环境中的数据模型构建,应该在数据实例设计分析的基础上,进行聚合关系的有效确定,但是,在现阶段数据模型分析中,系统内容并没有形成系统化的建模方式。因此,在现阶段数据挖掘系统优化设计的状态下,应该通过对聚类问题的有效分析,进行数据挖掘技术的有效优化[5]。

第一,层次状态下的聚类分析。对于系统聚类方式而言,是一种层次化的聚类方式,其使用的范围相对较广。在系统运行的状态下,通过对各个样本类型的分析,合理规定样本之间的相互距离,然后在两类合并分析的状态下,形成一种全新的类型模式,通过对其他聚类数据资源的计算,重复两类合并化的工作内容,并将相关的工作成本合为一类,保证数据资源的合并化及顺序化处理。同时,在数据挖掘系统处理的过程中,软件系统会提供一种hclust()的函数层次聚类方式,hclust()聚类方式是hclust(d,merhod=“ward”,members=NULL),函数中的d是指距离结构的距离,而merhod是一种制定的聚类方法,在运用的过程中,可以通过最短距离、最长距离以及中间距离方式的运用,进行数据挖掘系统 的有效设计。对于聚类系统而言,是也中非监督的模式,通过对各个数据资源的合理关注,可以通过对实际状况的分析及调整,进行聚类内容的程序优化。在程序设计的过程中,其基本的程序如下所示。

subest

city

hclust

Plclust(hclust)实现系统绘制程序的聚类化谱图

result

第二,划分聚类方式分析

在聚类方式分析的过程中可以发现,k-means是一种较为经典的划分模式,其基本的设计思想是通过对聚类化指标的最小优化,进行聚类准则及聚类函数的样本分析,从而保证距离的最小化。因此,在整个聚类方法分析的过程中,第一,应该通过对制定聚类数据的分析,进行聚类项目的合理确定,并保护走E初始聚类中心设计的稳定性、合理性。第二,通过对养成集里以及样本最小距离的分析,可以对不同的聚类样本进行平均聚类中心的稳定设计,从而保证数据资源系统处理的优化设计[6]。

3.2 分类模型的设计

在社会运行及发展的状态下,人类在生产活动设计的过程中,需要对不同的信息系统做出预测,如天气变化状况以及股票指数等内容,通过预测可以对相关数据的历史指数进行综合性的分析,并在指标分析及评价的基础上,划分出综合性的预估内容,保证项目生产活动效率的稳定提升,降低数据模型构建中出现的风险因素。有效提升生a活动的整体效率。在分类技术分析的过程中,需要对控制变量的控制进行预测及取值特征的分析,因此,在预测状态下,可以将其内容分为分类及回归两种。因此,需要对预测的项目内容进行分类处理。在数据挖掘模型输出结果设计的状态下,我们会将其过程称为回归学习方式。通常情况下,在分类技术概述分析的状态下,对决策树进行分析。其中的决策树主要是一种无序性的数据记录内容,并通过对数据资源的有效分析及结构的表述,实现数据挖掘资源的有效处理。

首先,通过这种本属性值的比较及分析,可以构建分子化的系统处理模式,从而保证分类树资源结构优化的合理性,其基本的决策树分类技术可以分为以下几点:第一,ID3算法内容思考的分析中,其核心的工作内容是对样本数据进行检测,并在计算的各个活动中,实现信息增益的资源优化处理,实现不同属性值建立的稳定性。通过对ID3算法理论的科学化分析,可以保证数据资源的稳定设计及便利性分析,并在此基础上,扩大数据集成性的理想内容,保证数据资源项目核算的稳定优化及合理改进。第二,C4.5算法。对于C4.5算法而言,在计算的过程 中会在项目设计的基础上实现对数据挖掘的有效改进,并在此基础上,建立了分类树的项目过程。首先,需要构建数据决策树,这种决策方式与ID3的构建决策方式呈现出一直化的发展变化,其主要的区别是ID3在信息增益分析的状态下,可以实现对属性分子问题的有效解决,而C4.5算法需要通过对信息收益率的综合性分析,并进行属性不足的确立。其次,在对已经形成分类树剪裁及处理的状态下,应该通过对噪音数据分支问题的分析,进行离散化的项目处理,从而保证数据资源处理状态下的系统缺失值,并在最大程度上为决策树算法的运用提供良好依据[7]。

其次,在函数类分类算法分析的过程中,应该支持向量机化的合作管理模式,并在理论统计及学习的基础上,保证函数项目设计的稳定性发展。因此,在函数类分类算法分析的基础上,应该通过对样本信息模型的复杂性设计,应该寻求复杂性及学习性的分类算法,有效克服传统信息模型设计的局限性,从而保证函数分类的广泛性发展。同时,在函数分类算法分析的同时,为了支持向量机化学校模型的构建,就应该构建集样本是否为线性化的分析,对线性函数进行稳定的构造,所以,在函数类分类算法过程中,应该做到以下几点内容:第一,认识到训练集体成本的的构造分类,从而实现数据挖掘环境下非线性映射技术的空间化转化。第二,在支持向量机采用投影技术确立及使用的过程中,应该对非线性的特征进行系统化的设计,保证全局项目上合计的最优化处理,保证期望风险的有效执行[8]。

3.3 实现模型选择的不均衡性模型构建

对于不均衡分类模式而言,主要是在分类问题处理的过程中,通过对多数样本数量的分析,进行少数样本数量的合理优化。同时,在不均衡分离的理念下,可以将其分为不均衡的数据集约分类方式,通过数据的稳定研究,可以实现数据资源挖掘状态下的全新发展,例如,在软件系统检测中,当发现了软件缺陷问题,应该保证模块在98%以上,其错误的软件模块应该时刻小于2%,从而实现数据挖掘系统分类算法的合理预测及系统分析,实现模型项目设计中信息价值的稳定提升。同时,在集成学习模式构建的状态下,也需要对组合学习项目进行优化,通过对原数据训练分类模型的好送将诶,可以额保证分类模型及子分类模型的优化设计,实现模型测试项目的集中化及预测化判断,为不均衡性模型的优化设计提供稳定性的技术支持[9]。

4 结语

总而言之,在现阶段数据挖掘系统优化设计的过程中,为了保证资源项目设计的稳定性及合理性,不仅应该保证系统挖掘的完善性及功能性,而且也应该对用户界面进行综合性的设计及分析,从而保证数据挖掘系统设计条件的稳定性,实现数据挖掘系统的实用性。同时,在软件挖掘系统优化的状态下,也可以通过对不同语言程序的开发及挖掘能力的提升,充分展现出资源数据目标挖掘的基本特点,完善数据资源的挖掘功能,从而保证数据资源系统设计的稳定性及互动操作的特点。而且,在图形界面数据资源可视化效果的分析,需要通过对流程化资源挖掘状态的分析,进行功能及用户界面的有效改进,实现数据资源挖掘系统的优化提供稳支持。

参考文献

[1]王勋.基于多目标决策的数据挖掘模型选择研究[D].电子科技大学,2013.

[2]龚璞.数据挖掘在软件项目风险管理系统中应用研究[D].大连理工大学,2014.

[3]陈荣鑫.R软件的数据挖掘应用[J].重庆工商大学学报(自然科学版),2011,(06):602-607.

[4]林立,朱小冬,刚,阎旭坤.基于数据挖掘的软件故障诊断研究[J].微计算机信息,2010,(34):156-158.

[5]王辉,杜庆峰.基于软件信息库挖掘的软件缺陷预测方法[J].计算机工程与设计,2012,(08):3094-3098.

[6]崔广风.数据挖掘中的统计方法及其应用研究[D].西南石油大学,2014.

[7]张晓艳.股市数据挖掘中偏模型的检验和应用[D].西南财经大学,2014.

数学建模聚类分析篇3

1.统计分析方法

统计分析方法是利用统计学原理对数据库中的数据进行分析,从而找出它们之间的关系和规律的方法。统计分析一直是分析空间数据的常用方法,侧重空间物体和现象的非空间特性分析。统计分析方法包括线性与非线性分析、相关分析、回归分析、差异分析、判别分析、Bayes网络等。统计分析方法的缺点是难以处理字符型数据,需要具有领域知识和统计知识,一般由具有统计经验的领域专家来完成。

2.基于集合论的数据挖掘方法

集合论(简称集论)是一门研究集合(由一些抽象数学对象构成的整体)的数学理论。集论(加上逻辑和谓词演算)是数学的公理化基础之一,通过集合、元素及成员关系来形式化地表示其他数学对象。基于集合论的数据挖掘方法包括覆盖正例排斥反例方法、概念层次网络方法和基于粗糙集理论方法,其中应用最广泛的是粗糙集(RS)理论方法。这三种方法中都使用了集合理论中的一些概念和原理,并涉及到大量的集合运算。

粗糙集理论(Rough Set Theory)是波兰学者Z.Pawlak在1982年提出的,它被广泛研究并应用于不精确、不确定、不完全的信息分类分析和知识获取。粗糙集(RS)作为集合论的扩展,是一种用于研究不完全和不完整信息描述的数据挖掘技术,它能够在缺少数据先验知识的情况下,以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理。

覆盖正例排斥反例方法是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式),比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法和AE5方法。

概念层次网络(HNC)理论是关于自然语言理解处理的一个理论体系,它建立了网络式概念符号基元体系,即概念表述的数学表示式,这个表示式能够与自然语言的词语建立起语义映射关系,同时它是高度数字化的,每一个符号基元(字母或数字)都具有确定的意义,可充当概念联想的激活因子。语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任何一个节点都可以通过从最高层开始到该节点结束的一串数字唯一确定。HNC通过概念符号基元体系把自然语言映射到概念空间,数字化的概念表达式可以树形展开,这样才能充分利用概念符号化带来的优点对概念进行各种运算和操作。

3.决策树方法

决策树是通过一系列规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。首先,以信息论中的信息增益原理为基础,寻找数据库中最大信息量的字段,建立决策树的根节点;然后根据字段的不同属性值建立树的分枝,再在每个分枝子集中递归建立树的下层分枝和节点,非叶子节点表示属性,最下层的叶子节点表示数据集的子类类别,这样便生成一棵决策树;最后对决策树进行剪枝处理,通过树形结构产生一组规则,依照规则将数据集分类。它着眼于从一组无序、没有规则的数据中推理出决策树表示形式的分类规则。决策树方法的优点是决策制定的过程可见,不需要长时间构造过程,描述简单、易于理解、分类速度快;缺点是很难基于多个变量组合发现规则。决策树方法擅长处理非数值型数据,而且特别适合大规模的数据处理。常用的决策树算法有 CLS算法、ID3 算法、C4.5 算法等。

4.聚类分析方法

聚类分析方法是根据数据特征,按一定的距离或相似性系统,将数据分成一系列相互区分的类,划分的标准是类内差别最小、类间差别最大。即将实体对象或抽象对象的集合分组,这个由类似的对象组成的多个类的过程称为聚类。通过聚类以后,数据集就转化为类集,同类数据具有相似的变量值,不同类数据的变量值不具有相似性。在知识模式类型无法得知的情况下,可以运用聚类分析法进行分类、识别。按照模式间的相似程度进行自动分类的聚类分析法,能够将相似度大的模式归为一类。按聚类过程分,聚类分析法有凝聚算法、分裂算法、增量聚类和划分聚类。按相似性系统,聚类算法可以分成基于距离的方法、基于层次的方法、基于密度的方法以及基于网格的方法。例如,层次方法就是按照一定的层次分解给定的数据对象集合,可以分为分裂层次方法和凝聚层次方法。聚类分析法适用于分析样本之间的内部关系,合理的评价样本结构。此外,孤立点的检测也可以应用聚类分析。聚类是为了将某个对象从大量的数据中分离出来,而不是简单地将数据集合在一起。目前,聚类分析法已广泛应用于图像处理、模式识别、经济分析等多个研究领域。

5.人工神经网络方法

神经网络法是一种模拟生物神经系统的结构和功能,通过训练来学习的非线性预测模型,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络(Nerual Net)指由大量的神经元(PE)互连而成的网络,神经网路模型通常由输入层、中间层(亦称隐层)和输出层组成。在每个神经元求得输入值后,再汇总计算总输入值;由过滤机制比较总输入值,确定网络的输出值。可以通过连接一组神经元来模拟复杂行为,当修改连接层的“接度”或权值时,神经网络就进行了学习或“训练”。

神经网络的学习方法主要表现在上述权值的修改过程上。这种方法模拟了人脑神经元结构,通过大量神经元构成的网络来实现自适应的非线性动态系统,具有对非线性数据快速建模的能力,通过对训练集的反复学习来调节自身的网络结构和连接权值,并对未知的数据进行分类和预测。其优点是具有自学习、自组织、自适应、抗干扰、分布存储、联想记忆、非线性学习、大规模并行处理等功能,对复杂情况能得到精确的预测结果;缺点是不适合处理高维度变量,具有“黑箱”性,人们难以理解网络的学习和决策过程,输出结果也难以解释。目前,神经网络法主要用于数据挖掘的分类、聚类知识以及特征的挖掘过程。

数学建模聚类分析篇4

关键词:Moodle;数据挖掘;聚类分析;K-Means算法;weka

随着互联网技术的快速发展及其对高等教育的深入影响,基于网络的教学应用已经成为当前教学的主流模式,各大院校纷纷构建了自己的网络教学平台,同时积极出台各项教学政策激励教师开展基于网络的混合式教学、翻转课堂教学等的研究。在众多网络教学平台中,以开放源代码特性著称的基于社会构建主义教学理论的Moodle平台被国内外众多高校频繁使用,例如哈尔滨工业大学的乐学网,华东政法大学的网上课堂,台湾铭传大学的数位教学平台。截止2017年6月,Moodle官网显示,Moodle在276个国家有共51153个活动网站。Moodle已经成为世界上使用人数最多的网络在线教学平台之一。

Moodle强大的日志记录功能可以记录师生基于平台交互的所有数据,近些年有不少学者针对Moodle平台课程数据开展各类研究。2014年金杰以《开放教育学习指南课程》为例,使用SPSS软件对教师参与度,学生参与度作业完成次数,课程成绩等进行了相关性研究。2016年苏仰娜以《多媒体课件设计与制作》课程实践翻转课堂教学为例,利用Moodle平台的测试、讨论、报表与日志、互动评价与电子档案袋等功能,实现对学生在线学习活动的跟踪。2016年郭涵阳等通过对Moodle平台师生访问行为的日志进行统计与数据挖掘研究,发现课程教学材料以及其他相关的自主学习材料存量和类型对课程、资源的访问量会造成影响,师生的交互量会对学生访问作业资源与提交作业的积极性造成影响。2016年沈良忠等通过对Moodle平台课程数据的研究,提出了基于三维度的课程评价模型。由此可见通过对Moodle平台课程数据的深入分析,确实能够发现数据背后所隐藏的一些规律,更好的指导网络课程的教学开展。因此,本文主要参考文献4提出的三维度视角,也从课程、教师以及学生三个方面对数据进行处理,通过聚类技术来分析不同类型课程之间的教学成效差异,有针对性的提醒教师做好相应课程的教学建设工作,帮助教学管理部门更好的实现对于Moodle课程的管理,并能根据相关分析结果进行下一步Moodle课程建设的后续决策。

1Moodle课程数据

Moodle平台是MartinDougiamas博士于2002年开发的课程管理系统,2006年由上海师范大学黎加厚引入国内,经过15年的发展目前功能越来越强大,系统运行已经越来越稳定。Moodle平台主要分为以下九大模块:①课程管理模块:教师可以全面控制课程的所有设置。②作业模块:教师可以布置作业,学生提交作业,教师批改作业并反馈给学生。③聊天模块:支持学生之间、师生之间、教师之间之间的直接交流。④投票模块:学生可以就教师需要调查的某项内容进行投票。⑤论坛模块:主要分为教师专用、课程新闻、全面开放等论坛模式,方便教师公告,学生探讨问题。⑥测验模块:教师定义题库,学生进行测验。⑦资源模块:教师上传课程相关资源,学生浏览学习。⑧问卷调查模块:教师可以进行在线问卷的编辑,然后让学生填写问卷调查。⑨互动评价模块:提供师生之间、生生之间对某项内容的互动评价。其中课程管理模块、资源模块以教师为主导,作业模块、投票模块、测验模块、问卷调查、聊天模块、论坛模块、互动评价等模块均以师生共同为主导。由此可见,课程教学的有效开展需要课程建设的投入以及教师和学生的共同参与和积极配合。

1.1数据的获取

根据以上对Moodle平台教学功能模块的分析可知,Moodle平台的相关数据主要分为课程有关的数据,例如课程资源数、活动数、试题数;教师相关如教师在线时间、发帖数量、批改情况;跟学生相关如学生在线时间、提交数量、浏览量等等。因此,本文对于课程的教学成效的评价亦主要从以上三个方面进行数据收集,相应的数据汇总如表1所示。

1.2数据的预处理

由于不同数据的取值范围存在不一致现象,因此需要将这些数据进行标准化处理。数据预处理的方法主要参考文献4中的方法。经过标准化预处理以后,具体数据如表2所示:

2课程聚类分析

2.1聚类分析

聚类分析的主要思想就是要将一个大的数据集通过算法分析拆分成若干个大小不一的子集,使的同一个簇中的数据对象之间的距离很近或相似度比较高,不同簇中的对象距离很远或相似度比较低。其中,基于划分的K-Means就是被广泛应用的聚类算法。K-Means算法的过程如下:①先随机选取K个数据作为中心;②计算每个数据到每个中心的距离,并将它分配到最近的中心的类;③重新计算已经得到的每个类的中心;④重复迭代直到新的中心不再改变;⑤结束算法。

本文基于Weka平台中的K-Means算法对数据进行聚类分析,主要完成了单课程多教师和多班级的课程聚类,主要考察课程整体教学团队的教学成效;同时也对每位教师、每个班级的课程教学成效进行了聚类,主要考察每位教师在不同班级授课的教学成效。针对以上第1种分析需求,需要将获取数据中的同名课程的多位教师该课程的数据汇总之后取平均值,再进行聚类。经过加和取平均值处理之后,共得到28门课程数据,设置聚类数量为3之后得到的结果如表3所示:

由表3可见,clusterl的课程教学成效最优,cluster0的课程次之,cluster2的课程相对较差。专业课程的课程资源比公共课程相对而言更加完善,但是专业课程总体而言教学效果的两极分化比较严重,说明各专业教师和学生在参与在线教学环节的组织方面差异较大。这一结果也说明,课程教学成效的好坏教师和学生的积极参与显得尤其重要。

针对以上第2种分析需求,共有162门课程,设置聚类数量为3之后得到的结果如表4所示。

通过表3和表4的比较,发现表4中Cluster0的占比有所提高,研究发现这主要是马克思主义基本原理概论和中国特色社会主义理论体系概论等思想政治基础课程的开设是面向所有学生而导致的。为了深入研究每类的课程情况,这里取表3中的Clusterl的典型课程大学语文为例具体说明,结果如表5所示。

通过表3~5的综合分析,可以得到如下结论:

①课程的建设度在一门好的网络课程中占重要地位,且对课程的教学成效有一定影响。但是如果师生参与不积极,将无法实现教学预期,如表5中的第4条记录。此外,课程资源的匮乏肯定会降低学生的课程参与度。

②课程教学成效与教师和学生的参与度有直接联系,并且教师的参与积极性能够能带动学生的参与积极性,而且相关教学意见的及时反馈对于学生而言至关重要。

3结束语

数学建模聚类分析篇5

关键词:预测;聚类分析;灰色理论

1.引言

商品房价格问题一直是政府重点调控的对象,武汉市近几年出台了一系列政策调控商品房价格。对商品房价格的科学合理的预测显得尤为重要,国内有较多学者对此做出了丰富的研究,相关文献中关于房价预测的方法大体分为两类,一类为定性预测方法,如判断预测法、评估法等;另一类是定量预测方法,如时间序列分析法、回归分析法、状态转移法、资产定价法、经济计量模型分析法等,代表性文献见[1]-[7]。

上述文献分析,主要采用计量分析或者回归分析等方法,但是这些方法大多在运用中都受到一些条件的限制,如样本大且成典型分布等。而我国自1998年房改后房地产市场才慢慢得到发展,其数据只有不到20年,而本文所选的灰色预测方法的研究对象恰好是小样本、贫乏信息的不确定性系统,对于样本量和有无规律的要求较少。

综上考虑,本文试图基于聚类分析,灰色预测等方法对武汉市各分区分类及商品房价格预测。

2.预测模型的预备处理

2.1数据的获取

本文获取的数据来源于武汉市房地产市场信息网[8],数据涵盖武汉市各分区从2008第一季度年到2013年第一季度商品房价格。

2.2聚类分析模型的建立与求解

2.2.1聚类分析模型的建立

以xij表示分区i在第j时间点的商品住宅价格,则可以得到一个价格矩阵:

由于武汉市不同分区发展水平不同,各个分区的商品住宅价格水平不具有可比性,需要对其作相应的处理。本文首先基于各分区商品住宅价格的变化率对武汉市不同分区进行聚类。首先确定变化率

2.2.2聚类分析模型的求解

通过分析各分区商品住宅价格变化率的大小和变化趋势,可以进行相应的聚类分析。先对商品住宅价格变化率进行标准化预处理再进行聚类分析。

通过JMP软件进行聚类分析得到以下结果:

聚类树图如下:

可以看出,第一类和第二类主要为武汉主城区(汉口,武昌,汉阳)等经济较为发达的城区,而第三类为青山,东西湖等远城区,而第四类为黄陂,江夏等近郊城区,第五类为汉南,新洲等距离中心城区较远的郊区。

3.房价预测模型及求解

通过武汉市商品住宅价格的历史数据,我们发现武汉地区房地产价格指数的统计特性会影响到季节性及政策性评价模型的精确度,因此要对原始数据进行变换。对未来房价采用灰色系统模型进行预测,房价的样本取值范围为2008年第一季度到2013年第一季度的季度数据。通过灰色预测方法,得到后2013年后3个季度房价最终的预测数据。

3.1 GM(1,1)预测模型

3.1.1.模型的建立

灰色系统预测的基本思想是将离散的、随机的原始数据列累加处理,使得累加后的累加生成数列呈显出指数增长规律性的数据,从而对这些规律性较强的数列建模,并做预测,再将计算值进行累减还原为预测值。

GM(1,1)预测模型建模过程:

对采集到的商品房价格的历史数据数列,进行一次累加得到,其中

因累加序列呈指数增长,故其满足灰微分方程:,其中为待识别参数,运用最小二乘法的原理可以计算确定灰微分方程的参数列

通过最小二乘法和矩阵的相关知识可以得到参数列的计算公式为其中:

确定出未知参数列就可以得到灰微分方程的解,及时间响应函数:

(4)

由时间响应函数做预测,再对其进行累减得到原始数据系列的模拟系列值,即:

(5)

3.1.2.模型的求解

利用Matlab软件编程求解得到如下预测结果

4.模型的检验

4.1后验差检验:

灰色预测模型的后验差定义如下:

(6)

其中S1,S2分别为残差序列的均方差和原序列的均方差,

通过MATLAB计算得到判别结果如下:

由上表可知,灰色预测的模型对青山区房价的预测勉强合格,对其他分区特别是汉阳区的房价预测是比较科学合理的,且预测结果较为理想,可以看出本文对武汉市商品住宅价格的季度均价的预测具有较强的适用性。

参考文献

[1] 梁云芳, 高铁梅. 我国商品住宅销售价格波动成因的实证分析[J]. 管理世界, 2006 (8): 76-82.

[2] 李锐,师应来. 武汉地区房地产价格的季节性变动[J]. 统计与决策, 2006, 24: 038.

[3] 程松林,何穗,杨选.武汉市商品房均价的预测[J]. 统计与决策, 2008, 2: 84-86.

[4] 曹振良.如何分析判断当前商品房价格形势[J]. 中国房地产, 2004 (6): 17-18.

[5] 陈森君.中国商品房价格的影响因素分析及价格预测[D].华中科技大学,2008.

[6] 宋成舜,黄莉敏,周惠萍. 基于GM(1.1)模型的西宁市商品房价格预测研究[J]. 价值工程,2011,05:126-127.

数学建模聚类分析篇6

【关键词】 IP化网络文本 文本分类 文本聚类 组织框架

一、引言

随着移动运营商网络IP化改造日益深入,运营商内部积累了大量跟IP化网络相关的文本,而如果移动IP化网络文本无法快速、准确地进行分类,将会直接造成网络维护工作无章可循,进而影响到网络的安全性。现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,这种手工的方法有很多不尽如人意的地方,因此,迫切需要人们研究出相关工具以对大规模的文本信息进行有效的过滤并进行自动分类组织。

本文在基于文本分类[1] [3]、聚类算法的基础上实现了一种建立移动IP化网络文本组织框架的方法,提出了一套完备且可完善的文本组织框架:采用人工聚类与机器聚类相结合的方式得到了一套科学合理的文本组织方法;采用重复分类训练学习过程及定期重复框架聚类过程的方式实现了该套文本组织框架的动态完善;将移动IP化网络文本进行系统化管理,网管人员可随时根据需要从文本库中搜索和查询所需要的文本,获取相关知识。对文本分类聚类模型进行测试,结果显示,多聚类算法得出的第二文本框架与专家分类框架具有很大区分特征[8-11],文本分类的正确率达到了70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。系统的部署与应用,改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状,提高了网络维护的针对性、主动性和前瞻性。

二、文本分类聚类技术模型设计

2.1 现有文本处理方式存在的问题

现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,网管人员通过查看一定数量的移动IP化网络文本的全部内容、摘要或关键字根据个人的工作经验、理解预先建立移动IP化网络文本组织框架,然后根据建立的移动IP化网络文本组织框架以及新的移动IP化网络文本中包含的相关内容,对该新文本进行手工分类归档,并通过不定期的检查和整理的方式维护分类归档的移动IP化网络文本。当需要查询IP化网络相关文本时,输入相关搜索特征词,系统从移动IP化网络文本组织框架的相应分类中查询特征词对应的文本,并输出给查询人员。

有上述可见,现有移动IP化网络文本(以下简称为文本)处理方式存在以下缺点:(1)文本组织框架缺乏科学性及一致性。现有的文本处理方式属于粗放式的文档管理方式,文本组织框架以及文档的整理分类完全取决于网管人员的专业知识水平、业务能力及工作态度,分类的方式受个人主观因素影响较大,不同的人有不同的看法,在这样的方式下,很难保证各个网管人员构建的文本组织框架采用统一客观的分类标准,缺乏科学合理性。(2)效率较低,准确率不能保证。人工归档的方式需要消耗较多的时间,尤其在文本数量较大的情况下,不能实现较高的处理效率;并且这种人工归档的分类方式还会受到一些个人因素的影响,如专业知识水平、人为判断的失误等的影响,使得分类准确率不高[2]。(3)不利于网管人员的检索、利用现有文本知识。采用现有的处理方式处理移动IP化网络文本,即网管人员按照自身已经建立的文本组织框架以及阅读文本后的理解来对文本分类,使得不同专业人员的分类方式存在偏差。由于未能采用统一客观的分类标准,从而使得相应的网管人员对该文本的搜索、查询与利用变得十分困难,致使文本知识的利用率低下,而且,检索得到的文本出现重复,也增加了检索所需的时间,浪费了系统资源。

2.2 文本分类聚类模型的设计思路

该模型的主要理论基础是文件聚类和文本分类算法,前者的基础是先把文本进行分词[4]和向量化表示[5] [6],即预处理过程,之后根据一定的聚类算法把具有相似性质的文本归为一类,以此为基础可形成文本组织框架;分类的过程则是在已有文本框架的基础上进行数据的训练过程,形成一定的分类器模型,当有新文本进来时可以自动根据文本内容进行文本分类。具体过程如图1所示。

为了改变目前IP化网络文本管理过程中的不足,本文在对文本挖掘进行较为广泛的探索与研究的基础上,结合人工分类及基于统计方法的文本聚类与文本分类方法,设计了一种面向IP化网络文本挖掘算法模型。该模型充分利用了IP化网络中专业术语较多的特点,通过总结归纳这些术语,形成分词库,抽取文本的特征词[8-11],计算文本特征向量[8-11],实现文本聚类及文本分类算法的应用。

2.3 文本分类聚类模型

对文本数据的建模和处理思路如图2所示。

(1)模型数据源

IP承载网建设与维护相关OA文、维护管理办法、建设文档等。核心网VOIP改造相关OA文、维护管理办法、建设文档等。

(2)模型大致流程

首先为保证所形成的文本组织框架的质量,需要选择精度高、适应性强的聚类算法作为聚类工具,在流程的开始阶段需要进行小样本的数据实验,对K-means[7]、模糊C、蚁群以及层次聚类算法所形成的文本框架进行比较,并结合人工分类框架进行评估,最后选出蚁群算法这种最适合IP化网络安全文本的聚类算法作为后续流程的主要聚类算法。

在选出最优的聚类算法之后开始使用该算法对全部的文本集进行聚类,形成初步的文本组织框架;该框架作为分类的先验知识进行分类的训练形成分类器,训练方法有很多,本文采用了支撑向量机(SVM [6])和KNN[7]两种方法进行训练,通过比较发现前者较优。

分类器形成之后,当有新的文本进来时,分类器会自动根据文本内容对其进行分类,并将文本归入相应的文件夹下。每周一段时间可以结合专家知识对误判率进行计算和评估,如果误判率高于临界值,就说明原来的文本框架已经不再适用于新的文本集,需要对现有的全部文本集进行重新聚类形成新的文本分类框架,这样就实现了文本组织框架的更新和完善过程。基于所形成的文本框架,网络安全维护人员可以进行方便快捷的检索和学习。

(3)模型预期效果

①可优选一种与人工分类结果较为接近的文本聚类算法,可实现大数据量文本的准确聚类;②可对新增文本进行较为准确的分类,减轻网管人员进行文本管理的压力;③可实现对文本的多为搜索,帮忙网管人员更为精确地找到所需要的文本。

三、文本分类聚类技术模型的实现

3.1 文本分类聚类技术模型实现概述

所述的数据输入模块用于采集IP化网络安全文本数据;所述的数据分析模型用于接收数据输入模块传递来的数据,并且对接收到的数据进行挖掘分析,形成四个数据分析子模块;所述的分析结果输出模块用于把数据分析模块分析的结果结合输出要求呈现给输出端;在模型中,所述的移动IP化网络文本数据包括设备指标文本、IP承载网文本、交换设备文本、全网业务文本及安全管理与网管支撑文本;所述的数据分析模块中的四个数据分析子模块分别是:专家处理子模块、多聚类算法子模块、文本分类及文本框架完善子模块和文本组织框架合成模块。具体如图3所示。

本文同时提供上述文本数据分析模型的实现方法,具体步骤如图4所示。

下面结合实例给予说明:

1.数据输入步骤:通过数据输入模块导入IP化网络文本数据,IP化网络文本数据包括集团公司、省公司、地市公司的很多发文、管理办法和不同地方网络维护案例文本及不同部门交流文本数据。

2. 数据分析步骤:

A.专家处理子模块步骤:本文的方法以IP化网络文本数据为基础,先通过专家处理子模块让专家对现有小样本的文本数据进行整理,得出IP化网络文本数据的分类框架。比如框架第一层氛围分为指标类材料、IP承载网类材料、交换设备类材料、全网业务材料、安全管理与网管支撑材料五大类,每一大类都又分为不同子类。如表1所示。

B.多聚类算法处理子模块:通过聚类算法子模块采用不同的聚类算法对小样本的IP化网络文本数据进行分析,得出不同的分类结果;比如通过k-means聚类算法、模糊c均值聚类算法、蚁群聚类算法、层次聚类算法等不同聚类方法进行聚类计算,并输出聚类结果。通过对小数据样本聚类得出的结果作为评价来选出适合IP化网络文本的聚类算法,当遇到大的数据样本时,应用已经选出的聚类算法进行挖掘。比如小样本中蚁群聚类算法结果最为贴近专家分类结果,后面的聚类方法就都采用蚁群聚类算法来进行挖掘。

C.文本组织框架合成模块:把聚类算法子模块输出的分类结果和专家分类结果比对,采用专家分类结果作为文本数据分类的框架,将小样本的专家分类结果作为指导,将和专家分类结果最相近的聚类算法的聚类结果填入专家分类结果中,实现全部文本数据的合理分类。

D.文本分类及文本框架完善子模块:新的文本进来,文本分类及文本框架完善模块会依据现有合理的文本组织通过文本分类算法对新进入的文本进行分类,专家判断错误率到达了多少,如果错误率高于阈值,就会记录为误判,把所有的数据用在阶段最优的算法重新进行聚类计算,然后通过文本组织框架合成模块合成新的文本组织框架;具体的逻辑框架图如图5所示。

3.分析结果输出步骤:在数据分析结果输出模块,用户可以根据自己的需求通过树形框架结构找到自己想要的文本,也可以通过关键词搜索,得到最相关的搜索结果。大大提高对公司现有文本资源的利用效率。

3.2 文本分类聚类技术模型的具体实现

本模型是一种建立移动IP化网络文本组织框架的方法。该方法根据预先设定的样本量建立第一文本组织框架,应用多聚类算法对所述预先设定的样本量进行聚类,选定与所述建立的第一文本组织框架最为相似的聚类算法建立的第二文本组织框架,根据所述第一文本组织框架和所述第二文本组织框架建立文本组织框架。本模型在实现过程中具体流程如图6所示。

步骤1:根据预先设定的样本量建立第一文本组织框架。本步骤中,预先设定的样本量为一定数量的IP化网络文本,本实验中,预先设定的样本量为小样本量,IP化网络领域内的专业技术人员根据已有的专业技术框架、自身的工作过程中积累的经验及对文本的理解来实现IP化网络文本组织框架的制定,比如,根据各文本的文本特征向量[8-11],建立五大类的IP化网络文本组织框架,即文本组织框架包括:指标类材料、IP承载网类材料、交换设备类材料、全网业务材料及安全管理与网管支撑材料,并计算每类对应的分类文本特征向量[8-11]。当然,实际应用中,也可以根据实际的需要,按照文本特征向量[8-11]构造其他类型的IP化网络文本组织框架,比如,将IP化网络文本按照集团公司、省公司、地市公司的发文、管理办法、不同地方网络维护案例文本及不同部门交流文本数据进行划分,构造相应类别的IP化网络文本组织框架。

在模型实现过程中,对于IP化网络文本组织框架下的每个大类,又可以分为不同的子类并设置每个子类对应的子分类文本特征向量[8-11],比如,将IP化承载网类材料分为五大子类,分别为:设备建设方案、日常维护管理办法、安全评估与巡检、省际IP承载网相关文件、网络改造与调整;交换设备类材料分为工程建设方案及管理办法、专项提升活动等子类;全网业务材料分为网络运行维护实施、应急处理与重大故障等子类;安全管理与网管支撑材料分为账号与口令安全管理办法、其他安全管理办法及文件等子类。请参见表2所示的IP化网络文本组织框架示例。

本步骤中,由于专业技术人员具有良好的专业技术水平及丰富的经验,对文本的理解较为全面、准确,使得对文本进行分类的准确性高,描述各个分类的文本特征向量[8-11]恰当、准确性高。从而使得建立的文本组织框架科学性强、可信度高,可作为优选聚类算法的主要依据;同时,由于预先设定的样本数量不会太多,分类、归档所需的时间较少,属于在人工可处理的范围内。

步骤2:应用多聚类算法对预先设定的样本量进行聚类,选定与所述建立的第一文本组织框架最为相似的聚类算法作为优选聚类算法。

该优选聚类算法将在第一文本组织框架已无法进行准确分类的情况下,启动计算,得出第二文本组织框架,用于文本分类。

本步骤中,多聚类算法(文本挖掘算法)包括:k-means[7]聚类算法(k-means Clustering Algorithm)、模糊c均值聚类算法(Fuzzy C-means Clustering Algorithm)、蚁群聚类算法(Ant Colony Optimization Algorithm)、层次聚类算法(Hierarchical Clustering Algorithm)等。各算法及对文本的聚类流程属于现有技术,其详细描述请参见相关技术文献,在此不再累赘。

实际应用中,由于不同的聚类算法对相同数量的样本进行聚类时,其聚类结果可能存在较大的差别,且各聚类算法的聚类结果真实可靠性也无从评估,因而,采用不同的聚类算法将对聚类结果产生实质性的影响。本示例中,通过选用不同的聚类算法对预先设定的相同数量的样本进行聚类,对聚类结果(文本组织框架)与第一步中建立的IP化网络文本组织框架进行比较,选取与人工分类结果的相近程度最好的聚类算法结果对应的聚类算法,作为优选聚类算法。

步骤3:以第一为文本组织框架作为文本分类依据。本步骤中,在得到第一文本组织框架及优选的聚类算法的基础。

步骤4:根据所述文本组织框架,对新文本进行分类。本步骤中,导入IP化网络文本数据后,按照每个样本包含的内容,抽取文本中的关键词,构造各文本的文本特征向量[8-11],以文本组织框架为依据,将新文本的文本特征值与文本组织框架中各类包含的文本特征值进行匹配,将该新文本分类至文本组织框架中相应的类别中。

被分类的样本经过预处理,抽取文本中的特征词[8-11],获取各文本的文本特征向量,与文本组织框架中各子类包含的文本特征向量进行匹配,将各文本分类到文本组织框架中相应的子类;于此同时,抽取新增的部分文本进行人工分类,比较人工分类与自动分类的误差,当误差超过阈值时,启动已选出的优选聚类算法建立的第二文本组织将文本分类,比如,上述示例第二步中,假设蚁群聚类算法对预先设定的样本的算法结果(第二文本组织框架)最为贴近建立的第一文本框架。当误差超过阈值时,重新启动蚁群聚类算法计算第二文本组织框架。

本模型实现过程中,还可以利用文本分类结果,对所建立的文本组织框架进行调整,参见步骤5。

步骤5:从新的文本中,选取一定数量的文本,根据第一文本组织框架进行人工分类;本步骤中,选取的这一定数量的文本,在步骤4中已进行了自动分类,将自动分类结果与人工分类结果进行比较。

步骤6:将自动分类结果与人工分类结果进行比较,如果自动分类结果误差大于预先设定的阈值,启动优选聚类算法,计算新文本组织框架,作为第二文本组织框架,代替第一文本组织框架。本步骤中,预先设定的阈值可以是自动分类结果与人工分类结果中包含的相异的文本个数与人工分类结果包含的文本个数之比。如果没有超出该阈值,表明当前建立的文本组织框架运行良好,可靠性高;如果超出该阈值,需要按照人工分类结果调整文本组织框架中各大类相应子类对应的文本特征向量[8-11],或者重新应用前述优选的聚类算法对所有文本(新旧文本)进行聚类,得到新的文本组织框架,用该新的文本组织框架代替原有的文本组织框架,当自动分类结果误差大于预先设定的阈值时,重新启动优选的聚类算法进行聚类得到新的文本组织框架。

实际应用中,上述对所建立的文本组织框架进行调整,主要是在利用第一文本组织框架对新文本分类时,由于建立的第一文本组织框架是基于有限的样本量,因而,在大样本量的情况下,可能存在一定的分类误差,而且随着样本量的不断增大,其误差可能也越来越大,因而,通过人工评估,当误差超出预先设定的阈值时,可以用前述的优选文本聚类算法结合人工评估结果重新生成文本组织框架,以替换该第一文本组织框架。

当然,在建立文本组织框架后,网管人员就可以利用该文本组织框架进行搜索和查询,获取所需的文本,例如,网管人员可以输入搜索特征词,文本组织框架查询关键词对应的文本特征值[8-11],将该文本特征值所属的搜索结果(文本概述等信息以及文本所属的大类及子类)输出给网管人员,这样,与传统的关键词的搜索方式不同,由于可根据文本特征值进行搜索,搜索情况更接近文本的内容,每个文本可供搜索的内容更多,使用文本搜索更贴近文本内容。

四、测试与分析

通过模块层次图和数据流图的进一步设计,基于VC编程环境,本研究将设计的模型进一步在机器上实现,开发出IP化文本分类组织框架和基于文本内容的搜索。测试结果表明多聚类算法得出的第二文本组织框架与专家分类框架具有很大区分特征[8-11],文本分类的正确率达到了70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。

4.1 测试系统

对于中国运营商来说,3G的日益临近,网络IP化成为一种不可逆转的趋势。通过对现有网络进行IP化的改造来实现多网融合最终完成3G网络的建设已经成为国内外各大运营商的共识,IP化网络在核心网的比重越来越大。目前,对计算机IP网络的评估已经有一些研究成果及应用系统。但是,针对运营商中IP化网络具体特点,建立科学、可行的安全评估模型但成了摆在中国运营商面前的一个重要的问题,同时也是在地市公司在从事具体维护工作中不得不去思考的一个问题。

目前,对于IP网络的评估方法一般需要一些先验知识,如威胁出现的概率、无形资产赋值等,而准备获得这些数据是存在困难的,为此,已有的模糊、神经网络等方法建立的安全估计模型只能对于局部系统进行评价,且多局限的理论的说明,未能有一些全面的,可行的安全评估模型及可投入使用的评估系统的产生。因此,本产品希望从移动运营商IP化网络的运营实际出发,从技术、管理、安全意识等更加宏观的层面来审视安全评估问题,并依托省网管已经建立的“网络运营支撑平台”,建立基于粗糙集的IP化网络安全评估系统。

对于地市公司公司来说,随着公司网络集中化建设的进行,地市公司对IP网络的维护权限多停留在设备的维护方面,维护行为也多以被动实施为主,往往缺乏对自身网络安全性的科学及客观的把握。为此,该系统所采用的模型也从地市公司IP化网络的具体建设及维护实践出发,采用粗糙集的理论来建立网络的安全模型、采用粗糙集理论来分析网络各项安全因素的轻重关系,输出决策规则,建立IP网络下客户感知及网络质量的共同提升模型,从而建立起一套科学完善的IP网络评估算法,从而为地市公司从事IP化网络的建设和维护提供指导,变被动为主动,全面提升IP化网络建设与维护的有效性。

本文设计的文本挖掘模块作为该系统中重要的一个组成部分,对于IP化安全文的深入挖掘,实现IP化网络的安全保障起着重要的作用。对于粗糙集实现网络安全评估方面因为不是论文的主要内容。因此不作主要描述。本文重点描述了一种面向IP化网络文本挖掘模型在系统中的具体实现。

文本模块从文本导入、文本框架导入、聚类方法选择、文本聚类、文本分类、文本搜索和浏览等方面把模型中的主要功能分别在不同模块中实施。其中聚类方法选择模块中集成了K-means聚类算法、模糊C聚类算法、分层聚类算法和蚁群聚类算法,是模块中的核心部分。系统的模块层次如图7所示。

在系统的模型层次图的基础上,进一步设计研究了系统的数据流图,从数据输入层、数据预处理层、核心算法层、用户使用层等层面围绕文本组织框架为核心全面铺开。找出系统输入、处理、输出过程中的关键数据存储和逻辑处理,理清了内部逻辑的相互关系。系统的数据流图如图8所示。

4.2 系统相关模块的功能说明

在系统实现过程中,主要实现了如下几个模块:IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块,各模型具体功能如下:(1) IP化网络安全文本数据导入模块:用于导入IP化网络安全文本数据,分别输出至第一文本组织框架处理模块和多聚类算法模块;(2) 第一文本组织框架处理模块:用于对接收的文本进行分类整理,建立第一移动IP化网络文本组织框架,并将建立的第一移动IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块;(3)多聚类算法模块:用于根据预先设置的多聚类算法对接收的文本进行聚类,向聚类结果匹配模块输出聚类结果;(4) 聚类结果匹配模块:用于根据接收的第一移动IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果,将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块;(5) 文本组织框架生成模块:用于根据接收的第一移动IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。

IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块等5模块具体逻辑关系如图9所示。

在实现过程中,该模块可以进一步包括如下可扩展模块:(1)文本分类模块,用于依据文本组织框架生成模块中存储的文本组织框架信息,对来自IP化网络文本数据导入模块的文本进行自动分类。(2)文本组织框架调整模块,用于接收来自文本分类模块的自动分类结果、以及来自第一文本组织框架处理模块对同批量文本的人工分类结果并进行比较,如果自动分类结果误差大于预先设定的阈值,按照人工分类结果调整文本组织框架生成模块存储的文本组织框架信息。(3)搜索和查询模块,用于接收来自外部的搜索关键词,发送至文本组织框架生成模块,将文本组织框架生成模块根据存储的文本组织框架信息查询得到的关键词对应的文本信息进行输出。

系统中各模块相互协同共同完成模型所要求的功能,流程如下:(1)IP化网络文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块,其中,IP化网络文本数据导入模块,用于导入IP化网络文本数据,分别输出至第一文本组织框架处理模块和多聚类算法模块;(2)第一文本组织框架处理模块,主要有领域专家来完成,领域专家通过人工的方式来获取接收的文本信息中包含的关键词,根据关键词构造各文本的文本特征向量[8-11],利用文本特征向量对所述预先设定的样本量的IP化网络文本进行分类整理,建立第一IP化网络文本组织框架,并将建立的第一IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块;(3)多聚类算法处理模块,用于根据预先设置的多聚类算法对接收的文本进行聚类,向聚类结果匹配模块输出聚类结果;聚类结果匹配模块,用于根据接收的第一IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果,将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块;(4)文本组织框架生成模块,用于根据接收的第一IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。

4.3 系统相关模块的功能说明

通过移动公司的IP化网络文本测试了本研究设计的功能模块,测试结果显示文本框架与专家分类框架具有很大区分特征,文本分类的正确率达到70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。

4.3.1 文本聚类测试结果分析

该部分通过文本聚类实现文本框架的形成。系统提供四种聚类方法的实现:K-means[7]、模糊C聚类、层次聚类、蚁群聚类算法;每种聚类之后,都将在下方的显示框中展示聚类的结果,也即文本组织框架。之后通过比较不同聚类的聚类结果,选出最优的聚类算法。

K-means[7]聚类算法可以调整三个参数:聚类数目、最大迭代次数、文档向量维数。现有文本专家聚类分为3类:IP承载网、全网业务、安全管理与网管支撑。

模糊C均值聚类算法可以调整五个参数:聚类数目、误差限、参数m、最大迭代次数、文档向量维数。其中参数m的调整范围为1.5~2.5。如图10所示。

其中K-means[7]聚类算法将文本通过迭代1000次,采用100个特征词提取出文档向量,分出第一类的文本数量为67,第二类的文本数量为2,第三类文本数量为1。如图11所示。

4.3.2 文本分类测试结果分析

该部分暂时无需选择路径,仅采用样本数据实现,因为专家分类文档没有经过聚类算法,提取不出特征值,无法作为分类;此环节耗时较长,可能需2-3分钟,各机器性能不一可能略有差别。

本部分工作的基础是使用上一步骤选取最优的聚类算法对所有文本进行聚类形成合理的文本组织框架并训练形成分类器。分类器形成后,就可以对新进入的文本进行分类,一般分类正确率在70%以上。

图12展示了对实验数据进行分类的结果,对34个文本进行分类,分类正确率达到80%。证明该文本框架所形成的分类器具有较好的分类能力。图中标红的文本本分到了错误的类别中了,其余是被正确分类的文本;分完后可以查看通过上面的选择查看单个文本分类情况,如图13。

4.3.3 文本搜索测试结果分析

本部分是基于前述文本组织框架的文本搜索模块,目前系统可供使用的检索词包括发文单位(集团、省公司、使公司)、文本类别(通知、申请、报告、自查报告、紧急通知等)、文件名(输入要找的关键词,系统将使用该关键词在所有文本的文件名中进行检索)、发文时间等。系统正在实现的功能是基于特征词的检索,在文本分词阶段每一个文本都被分成若干特征词所表示的向量,输入特征词就可以实现基于内容的检索,大大提高了检索的效率和准确度。

其中基于内容的特征词的搜索是一个创新,通过文本训练,提取出所有搜索范围内的文本的特征词,通过特征词的频率来确定不同文本的区别,如100维特征词的训练结果就将不同文本通过挑选出来的100个文本特征词的频率来表示,实现文本的向量化,如果某一特征词在文本中没有出现,则向量这个点上的取值为0。训练后的文本集就形成了一张二维表,一个维度是文本,一个维度是特征词,这个二维表是基于文本内容训练出来的,通过此二维表的特征词来搜索文本比其他几个维度效率更好,效果更好。

如图14所示,搜索范围选择IP化安全管理系统文件夹中的clusters文件夹(因为要基于特征词搜索需要有能提供特征词的文件夹)。

查询得到的文本可直接在检索结果栏中打开阅读。如图15所示。

数学建模聚类分析篇7

【关键词】 数据挖掘 数据仓库 流失预警

一、引言

客户保有的前提是理解客户行为,电信运营商已经积累了大量的客户行为信息,有效结合数据挖掘技术,对已有的无规则客户行为信息进行分析识别,并通过各类算法归纳总结出客户流失的规律及特点,最终建立起数据挖掘模型,经过不断的校验,可以预测客户流失倾向,并将预测结果转化为企业客户保有行为,为企业的营销工作提供帮助、指导,为企业决策提供支持,最终实现电信企业客户保有及价值提升的目的。

二、数据挖掘概述

(1)数据挖掘概念。数据挖掘是指从大量的、随机的、不规则的应用数据中通过算法(如分类、总结、关联规则、聚类等)搜索隐藏于其中的不为人知的、但潜在的有用知识的过程。数据挖掘提供预测性的信息,质上是一个归纳推理的过程,不是验证一个假定模型的正确性,而是在数据库中自己寻找模型。数据挖掘是多学科的产物,包含数据库技术、统计学、可视化、高性能计算、人工智能、机器学习。数据挖掘的三个过程,即数据整理、数据挖掘和结果的解释评估。(2)数据挖掘方法。数据挖掘常用的方法有关联分析、分类、聚类、回归分析、神经网络等,这些方法从不同的角度对数据进行挖掘分析,可以应用到企业客户行为分析、决策支撑等不同阶段和领域。

三、电信客户流失预警中数据挖掘的实施步骤

(1)明确目标。要充分发挥数据挖掘的作用,必须明确目标。电信客户流失预警的重要目标就是提前预知客户流失风险,从而指导维系人员准确定位目标客户,及时给与流失干预,提升电信客户保有率。(2)建立数据挖掘库。我们需要从各类海量电信客户数据库中抽取与客户流失相关数据内容,建立独立的客户流失预警挖掘数据库,该数据库可以是已有数据仓库的一个逻辑子集,而不一定非要是物理上独立的数据库。单独设立的客户预警数据库可以提高分析效率、避免由于数据巨大带来的数据冲突问题的解决。通过对客户流失关键点的数据抽取、精选,可以极大的减少数据处理量,节约系统资源,更好的辅助数据分析目标的达成。(3)数据分析。需要从海量客户、海量信息、海量数据中找到客户流失的关键点,不断从流失数据挖掘库中找到相应的规律和潜在趋势,使用聚类分析的方法进行客户信息类别区分,逐步梳理出影响客户流失的众多因素,并进行重要性分析,找出这些因素之间相互影响、牵连的关系,从而发现因素之间的相关性。(4)准备及调整数据。通过数据分析步骤,将符合分析要求数据进行数据库导入,并对数据进行进一步的调整,关键是实现进一层次的明确及量化,为模型化奠定基础。(5)建立模型。建立模型是数据挖掘的核心环节,在分析数据,并对数据进行系统调整的基础上即可以开始建立模型。通常我们利用聚类分析、时间序列分析等方法来实现建模。(6)评价及解释。从之前的步骤中我们已经很明确的得出客户流失的一系列分析数据及模型,我们会得出对客户流失问题多种描述,综合各类描述的规律性,提供合理的分析支持信息。

四、数据挖掘在电信客户维系中的应用

1、流失客户分析及建模

以往运营商服务模型基本围绕全生命周期时间轴主线,重点描述单客户服务动作,缺少客户聚类特征总结。结合客户流失特征,运用聚类统计分析方法将客户进行特征聚类,区分为入网半年内客户群、入网半年至一年客户群、入网一年以上客户群,其客户流失特征及原因存在区隔,入网半年内客户的流失与前期客户发展质量关系密切,主要取决于在新发展客户营销过程中存在的问题或弊端;而入网半年至一年客户群的流失与功能性的服务感知相关;入网一年以上或更长时间的客户流失与后期客户持续提供的服务及感知密切相关。同时三大聚类客户群又分别具有三个流失关键点,我们可以运用数据挖掘技术“信息熵理论”、“二元分类模型”,找到几个聚类群体流失相关因子,从而构建针对性精准的维系模型,如图1所示。

在基于聚类模型构建起精准的客户维系体系后,对应影响三个聚类群体的核心因子及模型分析,针对性制定标准化维系动作及强化服务方案,增强原有的客户服务体系,从而达到提升客户感知及粘性的目的。

结合三个关键点,从现有的海量客户行为数据中找到维系因子,对影响用户群流失的因子做聚类分析,梳理出关键因子,并进行重要性分析,选定对整体流失影响力较大的因子作为高危挽留的重点突破口,如表1所示。

通过高危因子重要度的区分,每月月初系统自动预警,为客户挽留提供数据支持。

2、客户挽留流程

(1)挽留机会分析。根据三大聚类客户群特点,对三类客户流失倾向进行评价,按风险的高低进行评判,入网初期客户流失风险最高,其次是高危客户流失倾向明显,一年以上到期合约客户也存在流失风险,根据风险度及入网时间的不同,进行流失客户预测,从而及时找到挽留机会。(2)挽留策略的制定。通过高危因子重要度分析,系统自动预警圈定需要挽留的客户群,对不同因子客户进行分析逐一制定挽留策略。针对新入网客户流失分析,梳理主要流失原因,制定相应的入网门槛,并配合相应酬金发放机制,在入网半年内分批分比例发放酬金,提升入网质量;针对入网半年以上客户,结合高危因子,梳理不同因子客户群流失原因,针对性制定挽留策略,如合约计划、网龄升级计划、流量回馈等;对于一年以上合约到期客户,制定老客户合约续费政策,提升合约续费率。(3)采取保有行为并反馈。通过以上两个步骤,找到挽留机会,并制定相应策略后,需将挽留行为分配给不同的渠道人员实施,新入网客户的入网策略由各发展渠道落实并反馈客户信息;半年以上中期高危客户及一年以上合约到期客户的挽留与维系需由维系中心与各实体渠道相互配合,由维系中心进行电话回访式维系,实体渠道配合通过理财专席等方式在日常业务办理中提高客户在网粘性。

五、结束语

事实上,流失模型的建立不可能直接带来客户流失率的减少,但基于数据挖掘的客户流失预警模型的应用,可以很大程度上提升客户维系与挽留的有效性,有效的预警、预测结合针对性的挽留策略及有效的挽留行为,才能够真正实现客户流失率的降低,达到提升客户感知及粘性的最终目的。

参 考 文 献

数学建模聚类分析篇8

【关键词】图像滤波 稀疏表示 非局部约束

近来,稀疏表示图像去噪引起了学者们的广泛关注。在稀疏表示理论中,字典的设计和字典自身性能是一个关键的问题。针对图像的局部几何结构,学者们提出了Curvelet,Contourlet,Wedgelet,Bandlet等多尺度几何分析变换方法[1,2], 这些方法对某些特定类型的图像结构描述准确,但对复杂图像通常存在不足,此外这类方法需事先给定稀疏字典,即字典非自适应于图像内容。

较早建立的基于超完备字典的稀疏表示模型,假设信号可表示成字典中少量元素的线性组合。传统的稀疏表示方法假定自适应字典各原子间相互独立,而最新研究表明原子间存在一定关联,反映了图像几何结构 [3,4]。Peleg等[5]利用玻尔兹曼机(Bolzmann Machine,BM)模型,分析了图像片内对应原子间(非零稀疏系数对应的原子)的相关性,增强了图像的稀疏性表示。基于上述方法,Ren等[6]研究了邻域图像块(相邻8个方向)原子间的相关性,构造了邻域相关结构信息的稀疏性先验模型,取得了较好得去噪结果。Ren方法可视为小窗口内的准非局部稀疏表示方法。

非局部稀疏表示方法实质是利用图像非局部建模思想对图像稀疏性的一种约束。最近, Dong等[7]利用了非局部思想,提出了稀疏编码噪声(误差)的概念,通过相似集中各图像片的稀疏系数,估计了当前图像片理想的稀疏表示,引入了稀疏编码误差约束项,提出了一种非局部集中稀疏表示模型。前非局部稀疏表示模型往往聚类,偏重于对各相似集内稀疏性描述。为了解决上述问题,本文提出了一种基于聚类中心字典学习的遥感图像去噪方法,以提高该类方法的图像去噪性能。

1 聚类中心字典学习

挖掘稀疏性约束是提高非局部稀疏表示方法性能的主要渠道,为此,构建类间聚类中心字典学习模型以分析类间相关性,具体步骤如下:

(1)用传统方法稀疏表示聚类中心图像块;

(2)根据稀疏表示结果与字典,生成稀疏性模式(稀疏性模式标记了图像块对应的稀疏系数是否为0);

(3)根据各模块稀疏性模式与相似块快速查找表,构造相关性函数,继而构造相关性矩阵,其中相似性快速查找表记录了与当前图像块最相似的 N个图像块;

(4)根据相关性矩阵构造基于相关分析的稀疏性先验模型;

(5)建立稀疏性模式先验分布模型;

(6)利用最大后验概率估计方法估计稀疏性模式,用以生成新的聚类中心图像片。

2 提出的去噪方法

基于上述聚类中心字典学习方法,提出了一种耦合聚类中心约束的非局部系数表示图像去噪方法,流程图如图1所示,主要步骤为:

(1)对待噪图像,利用Kmeans聚类,产生各类;

(2)构建各类对应的紧致PCA字典;

(3)构造类内图像片稀疏编码误差项;

(4)计算各类中心图片;

(5)利用上述的聚类中心字典学习,分析类间相关性,得到各聚类中心的稀疏表示;

(6)构造聚类中心误差项;

(7)耦合聚类中心误差项,将类内稀疏编码误差项引入于传统稀疏表示模型;

(8)利用梯度下降法求解。

3 实验结果

实验中,用一组自然图像比较了所提算法与Dong方法[7]图像去噪性能, 并用峰值信噪比(PSNR)量化比较了2种方法的性能。如图2所示为2种方法的图像去噪效果比较。图2(a)为原始无噪图像;图2(b)带噪图像,噪声为高斯白噪声, 噪声水平为20;图2(c)为Dong方法的去噪结果;图2(d)为本文所提方法的结果。对比上述去噪效果,从本文所提方法在细节去噪方面,特别是平坦区域,优于Dong方法。通过PSNR值可以看出,本文方法去噪结果其量化指标值高于Dong方法。

4 总结

本文一种耦合聚类中心约束项的非局部稀疏表示图像去噪方法,主要包括:对待噪图像利用kmeans聚类,产生各类;构建各类对应的紧致PCA字典;利用Dong等[7]提出的方法构造类内图像片稀疏编码误差项;计算各类中心图片;利用聚类中心字典学习,分析类间相关性,得到各聚类中心的稀疏表示:构造聚类中心误差项;耦合聚类中心误差项;利用梯度下降法实现数值求解。通过实验,相比于其它同类方法所提方法能再去除噪声的同时对图像细节保持较好。

参 考 文 献

[1]李民,程建,乐翔,罗环敏.稀疏字典编码的分辨率重建[J].软件学报,23(05):1314-1324,2012.

[2]练秋生,张伟.基于图像块分类稀疏表述的超分辨率重构算法[J].电子学报,40(05):920-925,2012.

[3]Aharon Michal, Elad Michael, Bruckstein Alfred.K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation.IEEE transactions on signal processing,54(11),2006.

[4]Lu Xiaoqiang,Yuan Haoliang,Yan Pingkun,Yuan Yuan,Li Xuelong. Geometry constrained sparse coding for single image super-resolution. IEEE Computer Vision and Pattern Recognition,2012.

[5]Peleg Tomer,Eldar Yonina C,Elad Michael.Exploiting statistical dependencies in sparse representations for signal recovery. IEEE Transactions on Singal Processing,60(05):2286-2302,2012.

[6]Ren Jie, Liu Jiaying,Guo Zhongming. Context-Aware sparse decomposition for image denoising and super-resolution.IEEE Transactions on Image Processing,22(04):1456-1458, 2013.

[7]Dong Weisheng,Zhang Lei,Shi Guangming,Li Xin.Nonlocally centralized sparse representation for image restoration.IEEE Transactions on Image Processing,22(04):1620-1630,2013.

数学建模聚类分析篇9

摘要:在油田生产中,为了节约成本,生产井多为几个油层组混合开采,但混采油井生产的原油主要是那一个或几个油层组的贡献,常常不是很清楚。利用模糊聚类分析的方法,根据混采原油与各产油层的原油的气相色谱指纹特征和色谱—质谱指纹特征的差异特征,就能有效地判识多层混采油井的主要产油层位,并以某油田某多层混采油井主要产油层位的确定为例,根据研究结果提出了有针对性的生产调整建议,从实际的实施情况来看,效果明显。

关键词:模糊聚类分析 混层采油井 产油层位 指纹特征

Fuzzy clustering analysis in determining the mixed layer production main oil producing an application

Peng Jianguo, Wang Shunyu, Ming Shuang ,Deng Hao, Ni Shengli

(Kekeya Operation area of Southwest inTarim Oilfield Company,Zepu Xinjiang,844804

Southwest Petroleum University, Chengdu,Sichuan, 610500)

Abstract:In oil field production, in order to save cost, production well for a few reservoir group of mixed mining, but the production of crude oil mixed production is mainly that of one or several reservoir group contribution, often is not very clear. Using the method of fuzzy clustering analysis based on mixed mining crude oil and the production of crude oil reservoir gas chromatographic fingerprint characteristics and chromatography—mass spectrum fingerprint characteristic difference characteristics, we can effectively sentenced to general multi—layer mixed production of the main oil producing a, and with a certain oil field a multi—layer mixed production main oil producing a indeed as an example, The result shows that the applied effectiveness is emerging obviously.

Key Words:Fuzzy clustering analysis ;Mixed layer oil production well;Production horizon;The fingerprint characteristics

在油田生产中,为了节约成本,生产井多为几个油层组混合开采。弄清单一油层组对混采油的产量贡献是十分重要的。尤其是在油田开发中后期,常常以注水补充地层能量,以提高原油采收率,但随着开发时间的增长,油井产出物中含水率普遍增加,部分油层遭受水淹,含油率普遍降低,因此,分析混层采油井的主要产油层位,对油田稳产措施和开发调整方案的制定、提高原油采收率具有更加重要的意义。

随着科学向定量化发展,科学家们常常借助于一些数学分析方法来解决生产问题。在众多的多元数学统计方法中,模糊聚类分析的作用可以说是举足轻重的,和其它多元数学统计方法相比,其最大的优点就在于它不象其它分析方法那样,必须事先知道各种识别目标的类型和数目,并且要有一批来自各类的样品,才能建立识别函数对未知属性的样品进行识别和归类,对于模糊聚类分析而言,一批给定样品划分的类型和数目事先都不知道,正好是需要通过模糊聚类分析以后,结合生产解释来确定的问题。

1、模糊聚类分析的原理和数学模型

1.1模糊聚类分析的原理

模糊聚类分析是研究分类问题的一种多元统计方法,其根本出发点是所研究的样品或指标(变量)之间是存在程度不同的相似性(亲疏关系)。我们可以根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,关系密切的样品(或指标)聚合到一个小的分类单位,关系疏远的样品(或指标)聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统,最后再把整个分类系统划成一张分群图(谱系图),用它把所有样品(或指标)间的亲疏关系表示出来。

根据分类对象的不同,模糊聚类分析可以分为Q型(对样品分类)和R型(对指标分类)。

1.2 模糊聚类分析的数学模型

数学建模聚类分析篇10

【关键词】DEA 系统聚类 固定资产投资 有效性

在河北省,尽管固定资产长期大量的投入为经济增长做出了巨大的贡献,但是并不是固定资产投资越多越好。高投资、低效率仍然是我省固定资产投资所面临的主要问题。本文对河北省各城市固定资产投资效率进行定量分析,科学评价城市固定资产投资效率是准确找出城市间投资效率差异的前提,也是提高河北省经济发展水平的关键。

一、理论方法

(一)DEA综合评价方法思想

数据包络分析(DEA)是一种适用于对具有若干相同类型的多个输入和输出的决策单元进行相对效率的评价方法。

DEA的基本模型为CCR模型和BCC模型。CCR模型是用来测量决策单元的综合效率:在CCR模型中,当效率值θ=1,且松弛变量均为0时,决策单元DEA有效,经济活动同时为技术有效和规模有效。当θ

(二)聚类分析思想

聚类分析是数理统计中的一种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,按照某种特定的要求或规律,从而客观地划分类型。聚类分析的主要步骤是选择变量,变量的选取当然要和聚类分析的目的密切相关,二是计算相似性,三是选择聚类方法。在目前的实际应用中,系统聚类法是聚类诸多分析方法中用的最多的一种方法。它的思想是首先将n个样品看成n类,然后将性质最接近的两类合并成一个新类,我们得到n-1类,然后再从中找出最接近的两类加以合并成一个新类,如此下去,最后把所有的样品均在一类。系统聚类法在进行聚类的过程中,需要计算类与类之间的距离。在实际应用中,离差平方和法的分类效果最好,应用也更广泛。

二、数据及指标的选取

本文数据来源于河北省经济统计年鉴。输入输出指标的选取应力求全面、科学、有代表性及可操作性。因此选取固定资产投资完成额为投入指标,选取新增固定资产和地区生产总值为产出指标来综合反映不同地区的固定资产投资成果。

三、各地区固定资产效率实证分析及结论

为了使研究结果更有说服力,本文选取2010—2012年三年的数据,对我省11 市各年投资效率进行CCR-DEA 和BCC-DEA 建模分析,对三年结果取平均值,用DEAP软件求解相关线性规划模型,计算各市每年的相对投资综合效率、技术效率、规模效率。然后利用固定资产投资,技术效率,规模效率三个指标来进行聚类分析。

本文选用spss19.0利用固定资产投资,技术效率,规模效率三个指标对样品进行分类。选则组内联结法,计算距离选择欧式平方距离,输出冰状图和树状聚类图。由树状聚类图选择5为分割点,可知将河北省11个地区划分为四类,划分结果见表2。

可以看出:河北省各地区的投资效率差异很大。承德、廊坊、秦皇岛和张家口几个城市的规模收益处于递增阶段,邢台市规模收益处于不变阶段,其他城市处于规模递减阶段,这些城市资产投入超过了最佳规模,增加一定比例的投入只能带来小于该比例的产出,理论上来说,这些城市应该降低资产投入而提高效率水平。

第一类城市,承德、秦皇岛和张家口。这三个城市固定资产投资额较低,技术效率低,但是有着较高的规模效率,这说明三个城市增加投资引发的规模收益最大,资产绩效好,固定资产投资在产业投向、项目建设、区域配置方面不太合理,投资规模较好。

第二类城市,衡水、廊坊和邢台。三个城市的固定资产投资完成额较低,但是三个城市有着较高的技术效率和规模效率,尤其是技术效率达到了“1”,这说明三个城市投资规模和投资结构建设的很好。

第三类城市是石家庄和唐山。这类城市主要特点是投入高,但综合效率很低,其中技术效率较高,但规模效率很低。石家庄和唐山分别作为河北省的省会和工业发展基地,自然成为河北省的重点投资对象,但这两个地区对固定资产投资的利用率很低,投资规模很不合理。

第四类是沧州、保定和邯郸地区。这类城市的综合效率水平接均水平,技术效率和规模效率没有很大的差距,技术效率相对规模效率而言略高一点,这类城市的投资规模和投资结构都较合理。

四、结论及建议

通过以上的分析可以看出:

1.除邢台处于DEA有效外,其他城市都处于DEA无效,其中沧州、衡水、廊坊、石家庄、唐山和邢台等城市处于技术规模有效,其他城市既是规模无效又是技术无效。

2.各地区的综合效率水平,技术效率水平,规模效率水平存在很大差距。

3.投入水平低的地方,效率水平较高,尤其是衡水、邢台和廊坊三个城市较为明显。

4.高投入地区综合效率水平低下,投入与产出增长严重失调。投入的增加非但没有促进产出的大幅度增加,然而阻碍了效率的提高。

实现固定资产高效投资的建议:

1.改善投资结构及投资过程管理,提高投资技术效率,河北省要通过改善投资结构及投资过程管理等方面提高投资技术效率,尤其是秦皇岛、承德和张家口三个城市提高技术效率尤为重要。

2.提高对固定资产的利用效率。河北省大部分城市都处于DEA无效状态,主要原因就是对资本的消化吸收能力差,完成了投资,但没有发挥出固定资产投资的产能。因此,不断地提高各地区固定资产投资的综合效率才是提高经济发展水平的关键。

3.增加对技术有效和规模有效地区或者综合效率很高的地区的投入。衡水、廊坊和邢台三个地区的效率指标都很高,但是投入却很低,不及河北省平均水平,投入的大幅度增加才能从根本上改变这些地区的经济水平,因此处于有效状态的地区应加大投资力度,以期获得更高的经济效益。

参考文献

[1]谢季坚.模糊数学方法及其应用[M].2版.武汉:华中科技大学出版社,2004.

[2]魏权龄.数据包络分析及应用[M].北京:科学出版社,2006.

[3]王梦欣.我国各省份工业企业R&D效率的DEA模型分析[J].河北大学学报,2008(04).

[4]宋倩.河北省各地区固定资产投资绩效分析[J].中国商界,2010(03).