关联规则范文10篇

时间:2023-04-07 11:22:01

关联规则

关联规则范文篇1

关键字关联规则,支持度,置信度,Apriori

1引言

关联规则挖掘就是在海量的数据中发现数据项之间的关系,是数据挖掘领域中研究的热点问题。1993年Agrawal等人[1]首先提出了交易数据库中不同商品之间的关联规则挖掘,并逐渐引起了专家、学者的重视。关联规则挖掘问题可以分为:发现频繁项目集和生成关联规则两个子问题,其中发现所有的频繁项目集是生成关联规则的基础。近年来,发现频繁项目集成为了关联规则挖掘算法研究的重点,在经典的Apriori算法的基础上提出里大量的改进算法。Savasere等[2]设计了基于划分(partition)的算法,该算法可以高度并行计算,但是进程之间的通信是算法执行时间的主要瓶颈;Park等[3]通过实验发现寻找频集主要的计算是在生成频繁2-项集上,利用这个性质Park等引入杂凑(Hash)技术来改进产生频繁2-项集的方法,该算法显著的提高了频繁2-项集的发现效率;Mannila等[4]提出:基于前一遍扫描得到的信息,对此仔细地作组合分析,可以得到一个改进的算法了。针对Mannila的思想Toivonen[5]进一步提出:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。Toivonen的算法相当简单并显著地减少了I/O代价,但是一个很大的缺点就是产生的结果不精确,存在数据扭曲(dataskew)。

上述针对经典Apriori算法的改进算法在生成频繁项目集时都需要多次扫描数据库,没有显著的减少I/O的代价。本文在分析了经典的Apriori算法的基础上,给出了一种改进的方法,该方法采用转置矩阵的策略,只扫描一次数据库即完成频繁项目集的发现,在项目集长度较大时,性能明显提高。

2Apriori算法

2.1基本概念

设I={i1,i2,…,im}是二进制文字的集合,其中的元素称为项(item)。定义交易(transaction)T为项的集合,并且TÍI,定义D为交易T的集合。设X是I中若干项的集合,如果XÍT,那么称交易T包含X。项目集中包含项的个数成为项目集长度。

关联规则是形如XÞY的蕴涵式,这里XÌI,YÌI,并且XÇY=F。

规则XÞY在交易数据库D中的支持度(support)是交易集合中包含X和Y的交易数与所有交易数之比,记为support(XÞY),即support(XÞY)=|{T:XÈYÍT,TÎD}|/|D|。

规则XÞY在交易集中的置信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XÞY),即confidence(XÞY)=|{T:XÈYÍT,TÎD}|/|{T:XÍT,TÎD}|。给定一个交易集D,挖掘关联规则就是找出支持度和置信度分别大于用户给定的最小支持度(minsup)和最小置信度(minconf)的关联规则。

2.2基本思想

1994年Agrawal等人在项目集格空间理论的基础上提出了用于发现频繁项目集的Apriori算法。该算法采用“逐层搜索”的迭代方法,用k-项集生成(k+1)-项集。首先,扫描数据库计算出频繁1-项集的集合(记为:L1);然后,执行下面的迭代过程计算频繁k-项集,直到生成频繁k-项集的集合(记为:Lk)为空:

①连接:Lk-1进行自连接运算,生成候选k-项集的集合(记为:Ck)。所有的频繁k-项集都包含在Ck集合中。

②剪枝:①生成的Ck是Lk的超集,扫描数据库计算Ck中每个候选项目集的支持度,支持度大于用户给定最小支持度的候选k-项目集就是频繁k-项目集。

通过上述的迭代过程,可以发现项目集I在给定数据库D中满足最小支持度的所有频繁项目集。

2.3算法分析

Apriori算法在执行“连接-剪枝”的迭代过程中,需要多次扫描数据库,如果生成的频繁项目集中含有10-项集,则需要扫描10遍数据库,增大了I/O负载。并且在迭代过程中,候选项目集合Ck是以指数速度增长的,Lk-1自连接会产生大量的候选k-项目集,例如有104个1-项集,自连接后就可以产生大约107个候选2-项集。这些都严重影响了Apriori算法的效率。

3改进的Apriori算法

3.1改进思想

Apriori算法在迭代过程中多次扫描数据库和产生大量的候选项目集形成了算法的性能瓶颈。为了提高算法的效率本文进行如下改进:

数据库D中每个交易T都有一个唯一的编号TID。定义K-项集Rk=<Xk,TIDS(Xk)>,其中Xk=(ij1,ij2,…,ijk),ij1,ij2,…,ijkÎI,j1<j2<…<jk,TIDS(Xk)是数据库中所有包含Xk的交易T的编号TID的集合,即为:TIDS(Xk)={TID:XkÍT,<TID,T>ÎD}。根据上面的定义k-项目集Rk的支持度可以表示为:support(Rk)=|TIDS(Xk)|/|D|=|{TID:XkÍT,<TID,T>ÎD}|/|D|。Rk的支持数supNum(Rk)=support(Rk)*|D|=|TIDS(Xk)|。L’k表示k-项集的集合。

改进的Apriori算法依然采用“逐层搜索”的迭代方法,迭代过程的“连接-剪枝”运算定义如下:

①连接:设两个(k-1)-项集:L’k-1(i)=<Xk-1,TIDS(Xk-1)>ÎL’k-1,L’k-1(j)=<Yk-1,TIDS(Yk-1)>ÎL’k-1,i<j。如果Xk-1和Yk-1的前k-2项相等,即:Xk-1[k-2]≡Yk-1[k-2],则(k-1)-项集连接:L’k-1(i)∞L’k-1(j)=<Xk-1

∪Yk-1,TIDS(Xk-1)∩TIDS(Yk-1)>=<Xk,TIDS(Xk)>=RkÎL’k;否则,不进行连接运算,因为产生的结果不是重复,就是非频繁项目集,这样可减少计算量。

②剪枝:计算k-项集的支持数,根据上面的定义supNum(Rk)=|TIDS(Xk)|,该计算过程不需要再扫描数据库,避免了I/O操作,提高了算法的效率。如果supNum(Rk)≥minSupNum,则<Xk,|TIDS(Xk)|>ÎL;否则,从集合L’k中删除Rk。

3.2改进的算法描述

输入:数据库D,最小支持数minSupNum

输出:D中的频繁项目集L

算法描述:

①L’1=findFrequentOneItemSets(D);//扫描数据库D生成1-项集的集合L’1。

②foreachOneItemSet<X1,TIDS(X1)>ÎL’1//生成频繁1-项集的集合

if(|TIDS(X1)|≥minSupNum)

L=L∪{<X1,|TIDS(X1)|>};

else

L’1=L’1-{<X1,TIDS(X1)>};

③for(k=2;L’k-1≠Ф;k++)

L’k=L’k-1∞L’k-1;

Foreachk_ItemSet<Xk,TIDS(Xk)>ÎL’k

if(|TIDS(Xk)|≥minSupNum)

L=L∪{<Xk,|TIDS(Xk)|>};

else

L’k=L’k-{<Xk,TIDS(Xk)>};

④returnL;

3.3例举

设数据库D表1所示,最小支持数minSupNum=4,运行改进的算法的过程如图所示:

4总结

改进的Apriori算法,只是在生成L’1时进行了一次数据库扫描,在之后的迭代过程中不需要扫描数据库。与文献2,3,4,5中提出的改进算法相比,使用本文提出的算法大大降低了I/O负载,使得频繁项目集的发现速度大大提高,尤其是在项目集长度较大的情况下。算法的迭代过程不需要复杂的计算,项目集连接仅仅使用集合的并、交运算即可完成,使得该算法易于实现,相信该算法具有一定的理论与实用价值。

但是该算法也有不足:为了减少I/O负载,要求在第一次扫描时把所有的信息装入内存,虽然本算法对数据库进行编码,以二元组的形式存储项集,但是数据挖掘都是基于海量数据的,因此,算法运行时需要大量内存,对此将在今后的研究中进行改进。

参考文献

[1]R.Agrawal,T.Imielinski,andA.Swami.Miningassociationrulesbetweensetsofitemsinlargedatabases.ProceedingsoftheACMSIGMODConferenceonManagementofdata,pp.207-216,1993

[2]A.Savasere,E.Omiecinski,andS.Navathe.Anefficientalgorithmforminingassociationrulesinlargedatabases.Proceedingsofthe21stInternationalConferenceonVerylargeDatabase,1995

[3]J.S.Park,M.S.Chen,andP.S.Yu.Aneffectivehash-basedalgorithmforminingassociationrules.ProceedingsofACMSIGMODInternationalConferenceonManagementofData,pages175-186,SanJose,CA,May1995

[4]H.Mannila,H.Toivonen,andA.Verkamo.Efficientalgorithmfordiscoveringassociationrules.AAAIWorkshoponKnowledgeDiscoveryinDatabases,1994,pp.181-192

[5]H.Toivonen.Samplinglargedatabasesforassociationrules.Proceedingsofthe22ndInternationalConferenceonVeryLargeDatabase,Bombay,India,September1996

关联规则范文篇2

关联规则最初是针对购物篮分析问题提出的,目的是发现事务数据库(TransactionDatabase)中不同商品之间的联系。关联规则是形如A=》B的蕴涵式,其中A称为该关联规则的前项,B称为该关联规则的后项。事务,是一个明确定义的商业行为,如顾客在商店购物就是一次典型的事务。由用户设定的支持度和置信度的门槛值,当sup-port(A=>B)、confidence(A=>B)分别大于等于各自的门槛值时,认为A=>B是有趣的,此两值称为最小支持度(minsupport)和最小置信度(minconfidence)。同时满足minsupport和minconfidence的这种关联规则就叫做强的关联规则。设任务相关的数据D是数据库事物的集合,当项集的支持计数≥D中事务总数|D|与minsup-port的乘积时,就叫做频繁项集,当项集的支持计数可能≥D中事务总数|D|与minsupport的乘积时,就叫做侯选项集。所有侯选项集K-项集的集合记作Ck,所有频繁项集K-项集的集合常记作Lk,很明显Lk奂Ck。如果仅依赖最小支持度和最小置信度这两个参数的限制,所挖掘出的强关联规则不一定是用户感兴趣的,因此,用户可以根据实际应用的需求,再结合自身的领域知识,通过选择与实际分析任务有关的数据集,设置不同的参数,限定前项和后项的个数,选择前项和后项包含的属性等操作,对关联规则的挖掘进行约束。

2模糊集理论的引入

在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。

3基于事务间数值型关联规则的数据挖掘算法

假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。

4结语

关联规则范文篇3

关键词数据挖掘;关联规则;支持度

1问题概述

关联规则的挖掘的形式化描述如下:令I={i1,i2,…im}为项目集(也称为模式),D为事务(又称交易)数据库,其中每个事务T是I中一组项目集合,即TI,并令其有一个唯一的标识符TID。如果对于I中的子集X有XT,则事务包含项目集X。关联规则就是形如XY的逻辑蕴涵式,其中XI,YI,且X∩Y=。如果D中S%交易包含X∪Y,关联规则XY在D中具有支持s。如果D中c%的包含X的交易也同时包含Y,则关联规则XY在D中可信度c成立。关联规则挖掘一般分为两步:①发现所有的频繁项目集,也就是说这些项目集在数据库中的支持计数必须不小于预先设定的一个阈值,即最小支持度;②由频繁项目集产生强关联规则,也就是说这些强关联规则必须满足最小支持度和最小可信度。其中第2步,一般采用如下方法:对于一个频繁项目集l的每一个非空子集s如果support_count(1)/support_count(s)≥min_conf,(其后support_count(1)表示项目集l在数据库中的支持计数,而min_conf表示最小可信度)则规则输出:“s(1-s)”,该规则也称为强关联规则,第2步相对比较简单,目前大部分研究工作都针对第1步,以改进寻找频繁项目集的效率,本文针对第1步提出了一种称为ALT的改进算法。

2研究现状

目前,关联规则挖掘算法中,最有影响的是AGRWAL和SRIKANT于1994年提出的Apriori算法[1]。在许多情况下,Apriori的候选产生-检查方法大幅度压缩了候选项目集的大小,并导致很好的性能,然而,它有两种开销微不足道:①可能产生大量候选项目集;②可能需要重复地扫描数据库,通过模式匹配检查有一个很大的候选集合,但有一种有趣的称为频繁模式增长(Frequent_PatternGrowth),或简称FP-增长解决了此问题。它采用如下分治策略:将提供频繁项目集的数据库压缩到一棵频繁模式树(FP-树),并仍保留项目集关联信息;然后将这种压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个关联一个频繁项,并分别挖掘每个数据库。对于挖掘长的和短的频繁模式,FP-树方法都是有效的和可伸缩的,并且比Apriori方法快一个数量级。其它关联规则挖掘方法还有参考文献[1]中讨论且给出的AIS算法,参考文献[2]给出的SETM算法及文献[3]给出的IUA算法。

3ALT算法

Alt算法只需遍历事务数据库一次,用来生成频繁1—项目集。并由此可以得到频繁2—项目集,频繁3—项目集,……,频繁k项目集。对于频繁i(1≤i≤k)—项目集,采用了一种特殊的数据结构——链表簇来存贮。簇中的每一链表用来表示频繁i—项目集各项目的信息,表头节点(patternData)和表节点(tidData)存储结构如图1所示。

nextLpatternnewedcountnextP

(patternData)

tidnextP

(tidData)

图1存储结构

图1中nextL是一指针,用来链接簇中下一链表;pattern用来存储频繁i—项目集某一项目;newed用来标示项目集pattern域是否生成了新的频繁项目集,同时也作为最大频繁项目集判断条件,初始值为false,若由pattern域产生了新的频繁项目集,其值变为true,当新的频繁K+1项目集的链表族生成后,若某频繁k项目集对应newed域值仍然为false,则该频繁-k项目集链表对应的pattern域值为一最大频繁项目集;count是该项目集的支持计数;nextP用来链接表节点。对于tidDada,tid是支持项目集pattern的事务标识,保持字典递增有序,nextP用来链接下一个支持项目集pattern节点。

例:有如表1所示事务数据库,最小支持计数为3。

定义:最大频繁项目集——如果某一频繁项目集的所有超集都是非频繁项目集,则该频繁项目集称为最大频繁项目集。

根据定义知:当一个频繁i项目集不能据此生成频繁i+1项目集,该频繁项目集是一最大频繁项目集。

则其频繁1—项目集的链表簇构造如图2所示。

图2频繁1-项目集链表簇构造

性质:频繁项目集的所有子集都是频繁的。

ALT算法的原理在于先求取所有的最大频繁项目集,然后依次求取每一个最大频繁项目集的子集,从而得到频繁项目集。

ALT算法求最大频繁项目集如下:

输入:事务数据库(T),最小支持度(根据最小支持度和项目集的个数,可以得到最小支持计数);

输出:最大频繁项目集(Answer)。

①计算最小支持计数,最小支持计数(Minsup)=最小支持度×事务数;

②生成频繁1—项目集L,及其对应的链表族;

③依次处理频繁K—项目集对应的链表,据此得到最大频繁项目集。

(1)初始化pvh,pvn为链表族表头结点扫描指针,pvh指向链表族第一条单链表,pvn指向pvh所指链表的下一条链表。

(2)while(pvn→next≠null)/*链表族中还有待处理链表时*/

{/*依次处理各链表*/

while(pvn≠null){

pvhw=pvh→nextP;pvnw=pvn→nextP/*初始化pvhw为pvh指针所指单链表的工作指针,初始化pvnw为pvn所指单链表的工作指针*/

if(pattern=GeneratePattern(pvh->pattern,pvn->pattern)≠null){

/*用pvh,pvn所在链表头结点的项目集生成新的项目集pattern,如果pattern符合条件,计算对应事务数是否大于阈值minsup。*/

count=0;

while(pvhw≠null&&pvnw≠null){

if(pvhw→tid==pvnw→tid)count++;

elseif(pvhw→tid<pvnw→tid)pvhw=pvhw→nextP;

elsepvnw=pvnw→nextP;}

if(count>=minsup){

/*对于项目集pattern生成一个新的链表加入到频繁(k+1)项目集链表族中*/

join(ph,pattern,pvh,pvn);

pvh→newed=true;pvn→newed=true;/*表明这两条链表产生了频繁(k+1)项目集*/}}

pvn=pvn→nextP;}

if(pvh→newed==false)/*表明该频繁k项目集没有生成频繁(k+1)项目集*/

Answer=answer∪pvh→pattern/*pvh所在频繁k项目集加入到最大频繁项目集*/

else{

pvh=pvh→nextP;pvn=pvh→nextP;}

}

(3)由于算法在生成新的项目集时,采用了穷举法,Answer中某个项目集可能是另外一个项目集的真子集,要将其删除。

对于表1中的事务数据库,其产生频繁2—项目集链表族如图3所示,以及最终频繁4—项目集如图4所示。

该事务数据库中,最大频繁项目集为Answer={CP,AFM,CFM,ACFM},又因为AFM,CFM为ACFM的真子集。将其删除后的Answer={CP,ACFM}。则该事务数据库的最大频繁项目集为{CP,ACFM}。

4结论

为验证该算法,作者在Celeron2.53GHz,512MB内存的微机上进行了试验,所用数据为mushroom(共8000多条记录),并与Apriori算法进行了比较,结果如图5所示。

该算法借助特殊数据结构实现了最大频繁项目集的挖掘,从而实现了关联规则的快速发现。由于该算法只需一次访问事务数据库,可以避免频繁访问数据库造成时间上的巨大浪费。对于数量级别越高的数据库其优越性表现尤为明显。

参考文献

[1]AGRAWALR,IMIELINSKIT,SWAMIA.Miningassociationrulesbetweensetsofitemsinlargedatabase[A].ProceedingsofACMSIGODConferenceonManagementofData[C].WashingtonDC,1993,207~216

[2]HOUTSMAM,SWAMIA.Set-orientedminingofassociationrules[R].ResearchReportRJ9567.SanJose:IBMAlmadenResearchCenter,1993

关联规则范文篇4

第一条为了规范公司(以下简称“公司”)的关联交易,保证公司与各关联人所发生的关联交易的合法性、公允性、合理性;为了保证公司各项业务通过必要的关联交易准则顺利地开展,保障股东和公司的合法权益,依据《公司法》、《公司章程》和其它有关法律、法规的规定,制定本制度。

第二条公司在确认和处理有关关联人之间关联关系与关联交易时,应遵循并贯彻以下原则:

1、尽量避免或减少与关联人之间的关联交易;

2、确定关联交易价格时,应遵循“公平、公正、公开以及等价有偿”的原则,并以书面协议方式予以确定;

3、对于必须发生的关联交易,应切实履行信息披露的有关规定;

4、关联董事和关联股东回避表决的原则;

5、必要时聘请独立财务顾问或专业评估机构发表意见和报告的原则。

第三条公司在处理与关联人之间的关联交易时,不得损害全体股东非凡是中小股东的合法权益。

第二章关联方和关联关系

第四条公司的关联方定义按照《企业会计准则》的规定执行,包括:

1、直接或间接地控制其他企业或受其他企业控制,以及同受某一企业控制的两个或多个企业;

2、合营企业;

3、联营企业;

4、主要投资者个人、要害治理人员或与其关系密切的家庭成员;

5、受主要投资者个人、要害治理人员或与其关系密切的家庭成员直接控制的其他企业。

第五条关联关系主要指在财务和经营决策中,能够对本公司直接或间接控制或施加重大影响的方式或途径,主要包括关联方与公司之间存在的股权关系、人事关系、治理关系及商业利益关系。

第六条公司应对关联关系对公司的控制和影响的方式、途径、程度及可能的结果等方面作出实质性判定,并作出不损害公司利益的选择。

第三章关联交易

第七条关联交易是指公司及其控股公司与关联人之间发生的转移资源或义务的事项。不论是否收受价款,公司与关联人之间存在以下交易或往来的,即视为关联人与公司之间的关联交易:

1、购买或销售商品;

2、购买或销售除商品以外的其它资产;

3、提供或接受劳务;

4、;

5、租赁;

6、提供资金(包括以现金或实物形式);

7、担保和抵押;

8、治理方面的合同;

9、研究与开发项目的转移;

10、许可协议;

11、赠与;

12、债务重组;

13、非货币性交易;

14、关联双方共同投资;

15、法律、法规认定的属于关联交易的其它事项。

第四章关联交易的决策程序

第八条关联交易的决策权力

1、单笔或累计标的超过500万元(不含500万元)以上的关联交易,必须提请股东大会审议;

2、单笔或累计标的在50~500万元之间或占公司最近审计净资产0.5~3之间的关联交易,必须提交董事会会议审议;

3、单笔或累计标的在50万元以下的关联交易,由总经理办公会议决定并报董事会备案。作出该等决定的有关会议董事会秘书必须列席参加。

第九条1、关联交易中涉及的所有关联人,应就该项关联交易的必要性、合理性提供充足的证据,同时提供必要的市场标准。

2、根据第八条规定的相应权力,提交相应的决策层审议。

3、决策层收到关联人有关资料后,应安排相应人员进行调研,形成就关联交易的必要性、合理性、市场标准、对公司可能带来的效益(直接或间接效益)或损失(直接或间接损失)等的调查报告,并在两周内向关联人反馈意见。

4、单笔或累计标的超过500万元的关联交易,应由公司董事会牵头安排调研。

5、关联人根据相关决策层的安排,参加相应会议。

6、关联人只对关联交易的公允性进行陈述,对关联事项应及时回避表决。

第十条公司关联人与本公司签署涉及关联交易的协议,应采取必要的回避措施:

1、个人只能代表一方签署协议;

2、关联方不能以任何形式干预公司的决策;

3、公司董事会会议就关联交易进行表决时,下列有利害关系的当事人属以下情形的,关联董事应予回避表决,但可参与审议讨论并提出自己的意见:

(1)董事个人与公司的关联交易;

(2)董事个人在关联企业任职或拥有关联企业的控股权;

(3)按法律、法规和公司章程规定应当回避的其它情形。

4、公司股东大会就关联交易进行表决时,关联股东应予回避表决。因非凡情况无法回避时,在本公司征得有权部门同意后,可以参加表决。但在股东大会决议中要作出具体说明,同时要对非关联人的股东投票情况进行专门统计,在该决议年报中予以披露。

第十一条公司监事会应对单独或累计标的超过500万元(不含500万元)以上的关联交易是否对公司有利发表意见,同时聘请独立财务顾问就该关联交易对全体股东是否公平、合理发表意见并说明理由、主要假设及考虑因素,在下次定期报告中披露有关交易的具体资料。

第十二条独立董事应对关联交易的公允性发表意见。

第十三条500万元以上关联交易应经股东大会审议通过、关联双方签字盖章生效后方可执行,属于股东大会休会期间发生且须即时签约履行的,公司董事会可先签有关协议并执行,但仍须经股东大会审议并予以追认。

第十四条关联交易合同有效期内,因生产经营或不可抗力的变化导致必须终止或修改有关联交易协议或合同时,有关当事人可终止协议或修改补充协议内容。补充、修订协议视具体情况即时生效或再经股东大会审议确认后生效。

第五章附则

第十五条本制度由股东大会审议通过后生效。

关联规则范文篇5

在熔炼机组优化运行的过程中,机组的运行性能指标与人员的操作水平、负荷及运行参数之间有着复杂的相互关系,这种关系在大量的生产历史数据中与机组各数据项之间关联,因此可以通过数据挖掘的方式把其中的关联关系定量的反映出来,最终反馈到实际运行中。本文结合工厂的实际情况,分析由工厂的DCS系统采集的实时运行数据,来得到用户期望的相关参数间定量的关联规则。

2交互式关联规则挖掘算法

关联规则挖掘算法在数据库的记录或对象中抽取关联性,展示了数据间位置依赖关系,其目的是寻找在大量的数据项中隐藏着的联系或相关性。其优越性在于能将用户的定制信息整合到挖掘过程中,以一种友好的方式引入约束,使挖掘出更加符合用户需要的信息,并且提高了挖掘的效率和有效性。

2.1目标数据库的确定

数据挖掘应熟悉对象的背景知识,明确挖掘的目标,根据目标确定相关数据,以此作为目标数据库,来完成对数据的预处理、挖掘和规则评价。

2.2交互式关联规则挖掘算法

表示A成立则B成立,其中给出了可信度C和支持度S。可信度C是对关联规则准确度的衡量,即在出现A的情况下出现B的概率;支持度S是对关联规则重要性的衡量,即A和B同时出现的概率。

3熔炼机组数据挖掘的实现

本文采用的是冀某工厂于2013年5月运行的数据,采样频率为2~3秒/次,采样模式为实时监测值,得到7595组数据。在分析阶段,对影响机组的主要可控参数进行了提取及预处理,参数主要包括:转速、有功功率、主蒸汽压力、调节级压力、中压缸排汽压力。以机组转速设计值为3600r/min为例来分析。对各个可控参数数据进行曲线化处理,作为分析它们之间的关联规则的数据表。上述关联规则表示,在三种负荷工况下,工厂熔炼机组有功功率与主蒸汽压力、调节级压力、中压缸排汽压力三者之间最优变化区间的关联。经分析,在机组中应用关联规则的数据挖掘技术与传统方法相比,优点是其可以对不同的可测参数进行挖掘,方法简单有效、可操作性强;运用关联规则进行挖掘,对过程能够较灵活控制,处理后的目标值直观,便于操作指导和提高运行效率。

4结论

关联规则范文篇6

关键词:关联规则;数据挖掘算法;股票

1关联规则

1.1关联规则概述

数据关联是数据库中存在的一类重要的可被发现的知识。如果两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网,关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。近些年来,很多业界人士对关联规则挖掘进行了详细的探讨,关联规则挖掘已经成为数据挖掘中的一个非常重要的课题。关联规则概念是Agrawal等人在1993年首先提出的,与此同时还给出了一种性能相对较差的挖掘算法AIS。1994年,由于项目集格空间理论的建立,他们在以往定理的基础上提出了著名的Apriori算法,这种算法目前仍作为关联规则挖掘的经典算法引起了人们的广泛研究和讨论。一开始,关联规则的产生主要是针对购物篮分析问题。对于分店经理来说,如何更详细更清楚的了解顾客的购物习惯,尤其是想了解顾客可能会在一次购物时同时购买哪些商品?为此,我们对商店的顾客购物零售数量进行购物篮分析。而顾客的购物习惯就可通过他们放入“购物篮”中的不同商品之间的关联进行分析,零售商也可以通过这种关联分析了解哪些商品频繁的被顾客同时购买,进而有助于他们设计出更好的营销方案。与此同时,一些知名的电子商务站点也可以从具有强大功能的关联规则挖掘中获得很大好处。通过使用关联规则对数据进行分析,这些电子购物网站可以设置用户有可能会同时购买捆绑包,也有很多购物网站设置了相应的交叉销售,具体是指顾客在购买一种产品时会看到与该类产品相关的另外一种产品的广告。但是目前我国商业银行在数据大集中之后,普遍面临着“数据海量,信息缺乏”的窘迫情况。目前,在金融业所采用的数据库中,大多数数据库的功能层次都很低,只能够简单的实现数据的录入、统计、查询等,根本发现不了数据中蕴含的大量有实用价值的信息。综上所述,可以说在关联规则挖掘技术方面,我国所进行的应用研究并不是很广泛,而且也不够深入。

1.2Apriori算法

使用关联规则对数据进行挖掘主要分两个阶段:第一阶段必须先从原始资料集合中找出所有的高频项目组,第二阶段再由这些高频项目组中产生关联规则。关联规则挖掘的第一阶段中高频的意思是指在所有记录中某一项目组出现的频率必须相对达到某一水平。这一项目组出现的频率称为支持度。关联规则挖掘的第二阶段是利用前一步骤的高频k-项目组来产生关联规则,在最小信赖度的条件门槛下,要称之为关联规则一规则所求得的信赖度满足最小信赖度。Apriori算法是关联规则挖掘频繁项集的一种原创性算法。Apriori算法使用的是迭代方法。Apriori算法的核心算法思想是:该算法中有连接步和剪枝步两个关键步骤。对于连接步来说,为了能够找出Lk,即频繁k项集,而通过Lk-1与自身相连接,产生候选k项集Ck;其中Lk-1的元素是能够连接的。对于剪枝步来说,Ck是Lk的超集,也就是说Ck的元素可以是频繁的也可以不是频繁的,但是所有的频繁项集都包含在Ck中。对数据库进行扫描,将Ck中的每一个候选的计数加以确定,从而确定Lk。如果Ck很大,就会导致涉及的计算量变得很大。为了能够压缩Ck,通常会使用Apriori性质。Apriori算法,使用逐层迭代找出频繁项集。输入:事务数据库D;最小支持度阈值min_sup。输出:D中的频繁项集L。1)L1=find_frequent_1_itemset(sD);2)for(k=2;k++){3)Ck=aproiri_gen(Lk-1,min_sup);4)foreachtransactiontD{//扫描D用于计数5)Ct=subse(tCk,t);//得到t的子集,它们是候选6)foreachcandidate错误!未找到引用源。Ct7)c.count++;8)}9)Lk={Ck|c.count≥min_sup}10)}11)returnL=错误!未找到引用源。Lk;Procedureapriori_gen(Lk-1:frequent(k-1)-itemsets)重复,返回Ck。1.3Apriori算法评价和改进基于频繁项集的Apriori算法采用了逐层搜索的迭代方法,该算法没有复杂的理论推导过程,简单易懂,并且很容易实现。但是仍然存在一些不可避免的不足:扫描数据库的次数过多。在Apriori算法的描述中,每生成一个候选项集,都要进行一次全面的数据库搜索。如果要生成的频繁项集的最大长度为N,那么就要扫描N次数据库。在有限的内存容量下,如果数据库中存放的事务数据过多,就会使得系统过大,导致扫描数据库时间变长,进而造成效率低下的不良现象。Apriori算法过程中会产生很多的中间项集。Apriori_gen函数是用Lk-1产生候选Ck,而Ck是由k个项集组成的,所以k越大,所产生的候选k项集的数量就会以几何级数的形式增加。采用唯一支持度,没有综合考虑到各个属性的重要程度会有所不同。Apriori算法的适应面是非常窄的,在实际的应用过程中,可能出现数量的、多维的、多层的关联规则,而Apriori算法只考虑单维布尔关联规则的挖掘。因此,这种情况下Apriori算法就不能再应用了,需要对其进行进一步的改进。为了能够提高Apriori算法的性能,目前已经有许多变种对Apriori算法进行扩展和改进。具体的改进方法有以下几个方面:(1)基于动态的项目集计数该算法是将数据库分成不同的部分,标记最初的点,对数据库进行重复扫描。该算法能够在第二次扫描后完成所有的操作,它与Apriori算法最明显的区别是能在任何开始点增加新的候选项目集,在每个开始点,该算法对所有项目集的支持度进行估计,如果估计所有子集是频繁的,就会把该项目集增加到候选项目集中。(2)基于划分的方法PARTITION算法首先将数据库分成若干个互相不重叠的子数据库,然后分别对子数据库进行频繁项集的挖掘,最后将所有的局部频繁项集合并作为整个交易库的候选项集。该算法生成整个交易数据库的频繁项集只需要对数据库进行两次扫描即可。(3)基于hash技术通过hash技术的使用,在生成候选集时,DHP能够过滤掉更多的项集。因此每一次生成的候选集都会更加接近频繁集,对于二项候选集的剪枝来说,这种技术是非常有效的。除此之外,DHP技术还能够十分有效的降低每一次扫描数据库的规模。

2关联规则在股票数据挖掘分析及预测中的应用

证券市场中的涨跌起伏往往是瞬息万变的,尽管如此,它还是存在着一定的规律:在某一段时间中,如果A股票出现上涨趋势,则B股票必然会随之上涨;如果A股票在tl时刻出现上涨趋势,B股票在t2时(t2>tl)刻出现上涨趋势,则C股票必然会在t3(t3>t2)时刻上涨。前一条规律能够用来对股票之间的相互关系进行分析,后一条规律能够用来对股票的涨跌进行预测,这些规律在投资者的实际决策过程中有着重要的参考价值和指导作用。

2.1选取数据

如果上市公司所经营的业务是相同或相近的,则在一段时间内股票价格的走势就会呈现出相似性;在一定时间内,属于同一个区域的上市公司也会受到区域经济政策的直接影响,也会呈现出大体相同的变化形势;如果上市公司之间具有关联交易,相互持股、控股,则它们之间也会产生某种相互作用。上述规则能够通过关联规则分析来发现,然而更重要的是发现另一种表面上没有很强的相关性、但是实际的股票价格却具有很大关联的规则。设股票行情数据D={X1,X2,…,Xi,…,Xn。},其中Xi(1<i<n)表示的是证券市场中某一只股票的历史行情数据,Xi={Ci,K1,K2,…,Km},C为股票代码,Ki为Xi的第i个属性变量,对应最高价、日涨跌幅、最低价、成交量等属性。本文选取的研究对象是沪深300指数成分股,样本时间是从2010年9月2日到2011年9月1日一年的数据。分析可知,沪深300指数成分股能很好反映出上海和深圳证券市场的总体特征,具有很强的代表性。选取样本时间从2010年9月2日到2011年9月1日这段时间的主要原因是:在这段时间中,大盘经历了上涨波段和下跌波段,沪深300指数最低到1598,最高达3256,而且上涨时间和下跌时间大致相同。本文数据均来源于CASMAR数据库,着重考虑股票价格变化之间存在的关联关系,由于一天中股票价格有很多种,本文主要考虑的是收盘价。因此原始数据包含日期、股票代码、收盘价三个变量,经过处理数据中共有71268条记录。

2.2数据预处理

数据预处理是指在主要的处理以前对数据进行的一些处理。在我们实际生活的世界中,数据大多数都是不完整并且不一致的,根本没有办法直接使用数据挖掘方法,或者会导致挖掘的结果不能让人满意。为了能够有效的将数据挖掘的质量提高,数据预处理技术便在这种形势下产生了。数据预处理的方法有很多,具体包括:数据清理,数据集成,数据归约,数据变换等。在对数据进行挖掘之前,使用这些数据处理技术,能够在很大程度上提高数据挖掘模式的质量,并且有效的减少挖掘所使用的时间。我们所要研究的是在一段时间内,股票价格变动之间存在的关联关系,因此只需对那些对投资有参考价值的数据进行研究。在投资过程中,关系到投资者收益的重要指标是收益率,在数据挖掘中所选用的是每天的涨跌幅。首先以收盘价为依据,将每日的涨跌幅计算出来,日涨跌幅就是当日收盘价和上一个交易日收盘价之差与上一个交易日收盘价之比。计算公式如下:在分析过程中我们所感兴趣的是那些每天的涨跌幅大于一定幅度的股票,因为在股票市场中,大多数股票会随着大盘指数的涨跌而不断发生变化,多数股票都会在大盘指数涨跌幅进行上下波动,所以只有涨跌幅超过一定范围的股票才具有研究意义。因此我们在进行分析之前,引入最小日涨跌幅Min-UpRat。最小日涨跌幅的值是以具体的股票行情为依据并由用户确定的,本文选取Min-UpRat为3%,这主要是从以下几个方面考虑:现阶段,中国的证券市场还处于发展阶段,尚不成熟。股票在牛市中会存在随大盘指数普遍上涨的情况,因此只有对那些涨势较为剧烈的股票进行分析研究才会有实际意义。大部分股票在熊市中会出现普遍下跌的情况,出现上涨形势的股票只有极少的一部分,涨势能达到3%涨幅的股票更是少之又少。在样本中添加一个新的变量,极为win,当日涨跌幅大于最小日涨跌幅min-UpRat时,win就记为1,日涨跌幅小于或等于最小日涨跌幅min-UpRat时,win就记为0。在原始数据中,交易日期均为10个字符的字符型变量,共有244天。众所周知,在进行数据挖掘时,字符长度较大会占用大量的内存,因此应该尽量用简短的数据型变量来对其进行替换。所以为了节省空间进而提高运行的效率,我们重新对交易时间变量进行编码,用1,2,…,244来标记。将股票代码均变为6位字符的字符型数据,共有300只股票,分别用1,2,…,300标识。在进行关联规则挖掘时,直接处理对象是股票和日期的新编码,间接处理对象是股票代码和交易日期,这样便可有效减少内存的占用,有利于提高挖掘效率。企业实现这一切。其二是不断提升客户的价值:通过客户盈利能力的相关具体化分析,进一步挖掘和预测客户本身所具有的盈利能力以及未来的具体变化;通过对客户购买模式的相关研究,实现客户的细分化,这样一来可以针对性的提供更加具有针对性的个性化服务,从而能够有效的实现多维化的交叉销售。其三是维护好客户,要及时的对客户忠诚度进行分析研究,以防客户流失。借助数据的深入研究和挖掘,及时分析好客户的历史交易记录,提醒消费者行为,并提出相应的对策和建议。

2.3各行业中CRM的应用

(1)零售业CRM中的数据挖掘零售业CRM它是数据挖掘领域中最重要的应用方面,伴随着网络以及电子商务模式的不断发展而呈现出繁荣发展的态势。通过对零售数据的挖掘可以对客户的购买行为进行识别和具体化的分析,并且及时发现客户的购买嗜好以及未来的购买趋势,这样便不断提高了服务的质量,为客户满意度的提高提供了条件。例如,我们可以借助多个特性化的数据进行全面的销售,这样一来便实现了客户与产品之间的多维联系,使用多维、相关化的分析来做好促销的有效性,借助序列模式我们可以挖掘客户忠诚度,通过相关性分析可以为购买参考提供建设性的意见和建议。(2)电信业CRM中的数据挖掘当前的电信行业,已经从纯粹的市话服务领域不断转向提供一些综合性的电信服务。它能够把互联网、电信网以及其他的各种通信和计算融合在一起,这是时展的大潮流。借助数据挖掘等相关技术可以为一些商业化的实践提供条件,确定好电信服务的基本方式,捕捉每一个盗窃,从而更好地借助技术方面的资源,实现颇具人性的服务。电信数据一般具有多维化的分析功能,可以实现数据的识别与比较,更可以实现数据通信与系统负载等。通过量化分析,聚类分析以及异常值分析对盗用、异常模式进行识别和破解。(3)金融业CRM中的数据挖掘如今,大部分的银行以及一些金融性的专业机构能够为客户提供了多种选择,例如最基本的储蓄、投资以及信贷服务等。有时也可以提供一些保险和股票服务。在金融市场中,数据生成已经相对成熟,从整体看来金融领域的数据相对较完整、可靠,它为数据分析提供了基点。下面的几个是平时常见的应用情况:通过多维化的数据分析、挖掘可以做好数据仓库的基本任务;通过特征比较研究做好数据的衡量和计算帮助客户对贷款偿还进行科学化的预测和分析;通过分类以及聚类的方式对客户群体进行识别,对目标市场进行分析;借助数据的可视化以及关联性分析对金融洗钱以及其他的一些金融犯罪进行侦破。

作者:方 蓉 单位:惠州市广播电视大学

参考文献

[1]王一鸿.体检中心CRM构建及数据挖掘的应用研究[D].华东理工大学.2011

[2]潘光强.基于数据挖掘的CRM设计与应用研究[D].安徽工业大学.2011

[3]石彦芳,石建国,周檬.数据挖掘技术在CRM中的应用[J].中国商贸.2010(02)

关联规则范文篇7

关键词:电力市场营销分析;关联规则技术;应用探究

科学信息技术水平的不断提高使人们产生的用电数据也在不断地增长,怎样从这些数据中找出有价值的信息是电力企业营销工作的首要任务。而关联规则技术作为一种重要的数据挖掘方法和手段,它可以有效发现相关研究对象与其影响因素的关联性,满足电力企业提取数据的需求,成为企业挖掘信息的重要步骤。随着我国电力市场体制机制的不断深化和改革,电力市场竞争越来越激烈,而且“厂网分开”之后,国内很多发电部门开始关注竞争模式,并且为了在激烈的市场竞争中胜出,大部分电力企业都在努力地降低自身的经营管理成本,加大对用户需求情况和竞争企业的深入了解,以便调整自身的发展战略和服务模式,进而为广大用电用户提供更加优质的、个性化的电力服务。而关联规则技术作为一种数据挖掘技术,应用到电力市场营销分析中去,不仅可以增加对市场信息的了解,而且还有利于提升企业的经营管理水平,对电力企业的持续发展具有重要的作用。

1电力市场营销的基本概念

本文所指的市场主要是指具有竞争性特点的电力市场,是电力企业和电能用户之间通过竞价、协商等方式来交易相关的电能产品,而且借助市场竞争来有效确定数量和价格的机制。而电力营销市场主要是指电力企业在千变万化的市场竞争环境中,为了不断满足广大用户的用电需求,采取各种形式的营销手段和策略,向广大用电用户提供更加优质的电力产品和电力服务,不断提升用电用户的满意度和信赖度,从而获取更多利润的一种销售活动[1]。通俗来讲,电力市场营销就是在电力市场中通过交换行为来满足潜在用户和现实用户需求的一个过程。

2关联规则技术分析

2.1基本概述

关联规则技术作为一种重要的数据挖掘技术,主要就是在海量的噪声信息数据中提取出事先未知、潜在、隐含价值信息的一种分析技术。同时,关联规则能够利用特定的搜索方法从大量数据中挖掘出各种有价值的相关关系,进而为数据集特征提供关联描述。运用关联规则可以使企业决策者有效分析当前数据和历史数据中存在的规律和特征,为接下来的决策工作提供参考和借鉴[2]。

2.2模型的建立

建立关联规则模型主要就是针对研究对象准备相关数据的过程,从而形成较为完善的、系统的数据库。主要分为以下几个方面:首先,数据集成。在实际工作中,将多种数据库和文件信息中的海量数据进行分析、处理以及合并,并且在这一过程中有效解决那些语义模糊、遗漏掉的信息以及清洗那些脏数据等。其次,选择数据。为了发现目标不断努力选择和搜索相关的数据,其中包含各种模式数据的汇总、转换和统一。选择数据的主要目的就是为了有效辨别出有用的数据集合,尽量缩小范围,从而不断提升数据挖掘工作的效率和质量[3]。再次,数据的预处理。在充实和清理数据的预处理过程中,主要就是应用K-Means聚类进行数据的预处理工作。最后,转换数据。这一环节主要就是对数据进行编码,并将数据库中的不同取值进行数码形式的转换,方便数据的搜索工作。

3电力市场营销分析中关联规则技术的具体应用

3.1应用关联规则的主要目的

电力市场营销分析工作中运用关联规则主要就是为了对电力营销中产生的大量数据进行分析,有效获取相关关联规则。分析关联规则,不仅可以有效发现价格和销售行为等对售电量产生的影响,同时还可以有效分辨出不同消费者在心理倾向、习惯、特点等方面的不同,从而为营销策略的制定提供有力的参考依据,保证营销策略的可行性和有效性,促进电力营销活动的顺利进行[4]。

3.2事务数据集的建立

在运用关联规则进行数据挖掘的过程中,我们可以发现,挖掘技术所面临的直接数据源就是事务数据集,由于电力企业营销活动中的销售行为会受到很多外部因素的影响,所以,可以先从售电信息管理系统中提取多种类型售电企业的具体营业数据,然后再从当地的气象部门了解降雨、气温等气象信息,从而将这些数据有机地整合起来,及时补充缺失或者不足的数据,修正异常或者错误数据,最后构成较为完善、系统的事务数据集。

3.3k-means聚类技术的应用

在营业数据的形式上,电力企业与其他行业相比具有着很大的差异性。例如,电力企业营业数据中的价格、降雨、气温以及用量等数值和数据具有连续性,由于这种连续性,使得数据挖掘和规律总结工作面临着很多的不利影响,所以,我们应该应用k-means聚类技术来有效处理售电工作中产生的事务数据集。k-means聚类技术作为关联规则挖掘技术的重要组成部分,是最常见也是最常用到的一种处理方法和手段,它能够将空间中的各个样本点有效分为多个簇,而且每个簇之间又存在着极为明显的差别,其内部的样本点也具有十分高的相似度,能够紧密地联系在一起[5]。在实际的处理工作中,还要进行具体问题具体分析,针对不同的样本采用不同的分析处理方法。

4结语

关联规则技术作为一种重要的数据挖掘方法和手段,它可以有效发现相关研究对象与其影响因素的关联性,在海量的信息数据中提取有价值的信息数据。在电力市场营销分析中运用关联规则技术,具有良好的创新性和现实意义,可以为营销策略的制定提供有力参考数据,保证策略的详尽性、针对性、全面性等,提升营销工作的质量和效率,促进电力企业的可持续健康发展。

作者:程剑 单位:国网湖北省电力公司武汉供电公司

参考文献:

[1]侯雪波.关联规则挖掘技术在电力市场营销分析中的应用[D].天津:天津大学,2015.

[2]张晓琴.解析关联规则技术在电力市场营销分析中的应用[J].经营管理者,2014(1):282.

[3]张斌.关联规则技术在电力行业应用的前景分析[J].天津电力技术,2016(2):20-23.

关联规则范文篇8

关键词:民法规则;关联性;民法原则

法律后果、构成要件组成的法律规则就是民法规则,其特征是具体明确。而民法原则主要体现了经济基础的特征、民法的本质,是判断民事行为、抽象价值的重要准则。在民法的全部领域都可以使用民法原则,而民法规则则适用于民法的特定领域。深入研究两者之间的关联性,为实际应用中提供便利,从而做出更加准确的判决。

一、民法规则与民法原则的关联性所表现出的内在联系

在民法领域范围内,民法规则与民法原则都适用,他们之间的关联性较强,具有一些共同的特征,这些共同特征促使两者之间存有密切的内在联系。主要表现在以下几方面:

(一)在整个民事立法过程中的关联性———两者都可以体现出来

被人们所熟知的民法法律中的婚姻法和物权法这两部法律,都需要通过民法规则与民法原则进行指导才可以应用到实际生活中,同时在个别案例的审判过程中,不仅要体现公正、公平的法律本质,法官在审判时还要对社会主义核心价值观进行充分的考虑,所以在维护当事人合法权益的时候,应当基于相关的法律规则,同时结合相应的法律基本原则,从而保证社会各界对审判的结果产生认同感,达到其理想的社会价值观的实际需求。另外通过这种全面考虑民法规则和民法原则的方法可有促进法律公信力的强化[1]。

(二)在审判时的关联性———两者都可以根据实际情况自由的裁量

文字和语言等方面的局限,使得法律体系自身的主要意思在表达上,无法全部准确、清晰的、完善的表达,而且也没有使用文字来完整的记录民法规则、民法原则,在具体的审判案件过程中就要求法官自由裁量,根据原有的法律基础进行参考,对于裁量的范围也不是无限的扩大,有理有据才是参照的标准。审判也要严格按照法律规定里所表述的字面意思,若是没有按照法律规定来审判,就很容易产生越权的问题。这一缺陷在法律体系中已经存在,所以在审判案件的时候,立法者就赋予了法官相应的自由裁量权力,并对法官的这种权利做出一定程度的限制,从而完善立法,实现明确法律体系自身的目标,保证在案件的审批过程中法官可以有法可依[2]。

(三)两者在民法精神方面的关联性———都能够体现出民法精神

追求正义、遵守道德、解放人性是民法精神主要表现的特征,在对案件进行审判的过程中,民法规则和民法原则都要求法官对当事人的合法权益进行维护,而且审判的结果也要与社会主义的法制观念相符合。保证在审判案件结束之后,整个审判的结果可以起到相应的教育作用,并防止公民日后再犯类似的错误,正确的引导公民做出合法的行为,树立正确的价值观念以及做出正确的社会主义生活目的。以此来激发出民法对社会生活的积极作用,使更多的社会公民养成准确的价值观、人生观、世界观,实现民法的根本目标,对社会公共利益进行维护。

二、民法规则与民法原则的关联性的差异性表现

民法规则与民法原则的关联性的差异性表现主要有适用范围差异、使用方式差异、作用效果差异、内容差异。下面对其进行具体的研究

(一)适用范围方面的差异

根据民法规则和民法原则各自的内容来看,其不同的法律内容就决定了两者在适用范围方面存在一定的差异性。较为抽象、以及较强的概括性特征决定了民法原则的适用范围较为宽广,在民法的所有领域都可以使用该法律原则作为审批依据。而较为明确具体的民法规则内容,就决定了其在适用的时候,只是对某种具体的民事行为、特定类型的民事关系比较适用[3]。

(二)使用方式方面的差异

在使用民法规则的时候,主要是裁定个案的时候使用该规则,由此可以看出既定的事实是民法规则规定事实的要求,也可以说民法规则规定的事实是有效的,并通过分析具体的案例可以参考民法规则做出合理的解决办法。若是民法规则在制定的时候不能按照事实来规定,那么在审判中就无法充分发挥其法律作用。与民法规则相比,民法原则在使用的时候,在不同的案例中具有不用的适用度,而民法原则的适用度较高的情况下,可以发挥其指导裁判个别案例的作用,在这时其他的民法原则会因为在适用度较高的原则下而发生失效现象。所以在比较特殊的个案中,民法规则和民法原则会因为案例的不同而发生变化适用度的情况[4]。

(三)作用效果方面存在的差异

与民法原则相比而言,民法规则具有较强的限制性,而且在实际使用这两种法律标准的时候,依照民法规则来形式裁量权更加贴近法律要求,而使用民法原则则容易发生偏离。

(四)内容方面的差异

民法规则、民法原则两者在内容方面具有不同之处,差异较为明显。民法规则的构成要素主要有两部分,即法律后果、构成要件,且这些构成要素具有较强的具体性、明确性,极大的限制了审判者的自由裁量权。然是与民法规则相比,民法原则的主要内容中就没有法律后果、构成要件,也没有做出相关的说明,民法原则的内容相对比较而言更加抽象、更具概括性,所以在使用民法原则的时候,审判者在行使自由裁量权时,要补充相应的社会价值观等内容[5]。

三、具体案例分析民法规则和民法原则的关联性

虽然在审判某些案件的时候可以直接参照民法规则来审判,但是民法原则对民法规则的使用范围的扩张或限缩同样重要。例如民法规则中的合同无效的确认规则,其中缺少限制恶意缔约人利用合同无效来获取不正当的经济效益的要件。若是根据民法原则中的诚实信用来看,就需要设置该限制要件。如在法释[2004]14号就做出了明确的规定,在第七条原则中签订劳务分包合同的分包人、承包人等(他们都具有劳务作业法定资质),在请求合同确认合同无效时以转包建设工程违规为由的一律不支持。由此可以看出民法规则的适用范围受到民法原则的限制,侧面论证了他们的之间的关联性[6]。

四、总结

综上所述,通过对民法原则和民法规则之间的关系的深入研究,从中可以了解到民法规则和民法原则之间既存在相互联系的关联性,也存在相互区别的关联性。只有深入认清两者的关联性,以及在使用方式、适用范围、内容、作用效果等方面的差异,才能够保证在实际应用中做出合理的判决结果,从而维护民法的法律效力。

作者:王珺 单位:武汉东湖学院

参考文献:

[1]朱伟静.关于民法原则与民法规则之间的关系探讨[J].法制博览,2016,03:197-198.

[2]李浩铭.解析民法原则与民法规则之间的关系[J].法制博览,2015,04:270.

[3]崔建远.关于制定<民法总则>的建议[J].财经法学,2015,04:5-25.

[4]曾聪俐.原则与规则之间:民法基本原则的司法适用———从两则案例谈起[J].湖北警官学院学报,2014,07:94-97.

关联规则范文篇9

关键词:数据挖掘;关联规则;MFP-Miner算法

0引言

在高校的教学和科研活动中图书馆发挥着重大作用,被称作“大学心脏”。随着计算机技术和网络技术的广泛应用,图书馆也应不断提高图书管理的信息化程度,完善服务功能,满足当前用户的需求。为了提高图书馆工作管理效率,当前,高校图书馆采用了数据库技术实现图书信息化管理。采用数据库技术后图书馆的流通服务工作比过去有了很大的进步,但仍然存在着一些问题。学生借阅信息是图书流通管理中最重要的数据之一,如何利用这些数据,快速挖掘到有效信息,是图书信息数据挖掘研究热点。本文重点研究关联规则在高校图书馆借阅信息的挖掘应用。

1数据挖掘技术

1.1数据挖掘概念

数据挖掘就是从海量信息中挖掘出有用的数据,这些海量信息模糊、随机、不完整及有噪声,通过数据挖掘发现隐蔽有规律可用的信息并转化成可理解的知识。数据挖掘过程主要包括几个步骤:数据预处理、数据集成、数据变换、数据挖掘及模式评估。

1.2MFP-Miner算法

关联规则的挖掘算法有很多种,其中MFP-Miner是一种基于FP-Tree的快速挖掘算法。它提取出事务数据库中的每条事务所包含的频繁项目,并按支持度降序排序,然后压缩存储到频繁模式树中,在进行最大频繁项目集挖掘过程中只需对该树进行搜索,而不需扫描数据库,在挖掘过程中不需产生最大频繁候选项目集,因此,本文采用MFP-Miner算法对图书借阅关联规则进行数据挖掘。

2图书借阅数据关联挖掘实例分析与应用

2.1数据预处理

一般情况下,因于某些属性值的空缺或不确定,可能造成数据库中的数据不完整,因为同一个属性在不同表中的名称不同,相同属性名在不同的表中有不同的含义又往往造成数据库中的数据不一致。利用这些不完整、含噪声、不一致的数据进行数据挖掘,挖掘质量很难得到保证,得出的结论也往往是不准确的。并且图书馆的工作中数据库中的数据量往往非常大,数据的冗余、不一致、不完整现象很难避免,数据分布也较为分散,不易进行综合查询。为了改善数据质量,提高数据挖掘的效率和质量,在数据挖掘前必须对数据进行选取与清洗、集成、变换等预处理,这个阶段也称为数据准备阶段,是数据挖掘过程中很重要的、必不可少的一个环节,在整个过程中占有十分重要的地位,同时这个阶段工作量也相当大,甚至占总工作量的4/5。从图书馆借阅数据挖掘中,数据准备阶段一般包括以下几个步骤。2.1.1数据选取数据选取是指根据用户需求,从原始数据库中选择与知识发现任务相关的数据表项。图书管理系统中数据库的数据量往往非常巨大,涵盖范围相当广泛,数据选取时应尽量选取足以完成知识发现任务的最小数据表项。为了描述各类借阅图书之间的关联度,选取数据集应包括读者号(dzh)、借阅日期(jsrq)、图书分类号(tsflh),所以只要选取包括这3项的图书借阅表(见表1)即可。2.1.2数据筛选根据研究目标选取所需的信息,即计算机科学与技术专业学生的读者号(dzh)和图书分类号(tsflh)。查询语句为:SELECTdzh,tsflhINTOjsjtbFROMltkWHERE(SUBSTRING(dzh,1,3)=′310′)说明:计算机科学与技术专业读者号以310开始。执行后,得到所需的计算机专业读者借阅表(见表2)。从表2中可以看出,表中的每一条记录描述了读者的一次借阅行为,包含读者号和图书分类号,从图书分类的角度分析,这里的图书分类号指的是某一种图书,分类太细,信息分布是分散的,这种格式的数据不符合基于关联规则数据挖掘的输入要求,但可以利用MicrosoftSQLServer2000的DTS工具将数据转换成所需要的布尔型事务数据库。2.1.3数据转换数据转换主要是对数据进行规格化操作。“图书分类号”属性不是针对某一本书,而是针对某一类或者某一大类,因此应该采用较高层次的类来替换图书分类号。在这里,只取分类号中的大类,忽略小类。如TP368-44取为TP368。查询语句为:UPDATEjsjtbSETtsflh=LEFT(tsflh,CHARINDEX(′-′,tsflh)-1)WHERE(CHARINDEX(′-′,tsflh)>0)2.1.4删除重复记录读者借阅的同一类图书的记录只需保留一条即可,使用语句如下:SELECTdzh,tsflhINTOjsjtb2FROMjsjtbGROUPBYdzh,tsflh2.1.5删除无效数据在图书借阅中,读者在只借阅一本书的记录的情况下,不存在图书类别关联,所以要将此类数据删除。使用语句:SELECTdzh,tsflhINTOjsjtb3FROMjsjtb2WHERE(dzhIN(SELECTdzhFROMjsjtb2ASjsjtb2_1GROUPBYdzhHAVING(COUNT(*)>1)))2.1.6用DTS工具将数据转换成算法所需要的布尔型事务数据库(见表3)

2.2基于MFP-Miner算法的图书借阅数据关联规则的挖掘

构造FP-Tree的步骤如下:(1)根据图书分类对事务数据库进行分类统计,求出各类图书的支持计数,并筛选出大于等于最小支持计数的频繁项目(在此假定最小支持计数为120),对结果按支持计数降序排列,生成频繁项目列表L1(见表4)。第一列属性名proj指的是项目,第二列属性名pronum指的是项目的支持计数。(2)第二次扫描排序后的事务数据库,以NULL作为根节点构造频繁模式树,步骤如下:①扫描第一个事务,事务中的频繁项目以第一列作为关键字排序,得到项目列表〈(TP311.13∶1),(TP368.3∶1)〉,该分支具有2个节点,其中TP311.13是根的子节点,TP368.3链接到TP311.13。②同理,依次扫描事务数据库中其他事务,遍历树并搜索与该项节点同名的节点,如果不存在同名节点,那么就新建频繁模式树分支;若某项目列表与FP-Tree的路径具有相同的前缀,则对公共前缀各节点计数累加1而无须另外创建新节点。这样,第二遍扫描完事务数据库后,FP-tree建立完成。生成关联规则表(见表5)。2.3数据分析本文通过数据挖掘方法找出类似于“读者借阅了A文献也会借阅B文献”的规律,挖掘出如下规则:(1)有15.8%的读者在借阅国际互联网类图书的同时有63.8%的可能再借阅操作系统类图书。(2)有16.2%的读者在借阅计算机网络类图书的同时有60.2%的可能再借阅模式识别与装置类图书。(3)有17.6%的读者在借阅BASIC编程语言类图书的同时有58.9%的可能再借阅信息处理类图书。(4)有17.9%的读者在借阅表格处理系统类图书的同时有56.5%的可能再借阅C编程语言类图书。

3结语

本文基于高校图书馆的海量借阅信息,引入数据挖掘和关联规则技术,建立了基于MFP-Miner算法的图书借阅数据关联规则的挖掘,快速、准确地挖掘出隐藏在图书借阅数据背后有价值的规则和潜在的信息,为图书借阅、图书推荐等服务提供科学的数据支持,从而提升高校图书馆的读者服务工作质量。面对信息化的浪潮,充分利用数据挖掘来扩充图书馆数据库的实际应用,是图书馆数据库高层应用的必然趋势,数据挖掘技术在图书馆信息管理方面必定会发挥更大的作用。

作者:吴玉春 龙小建 单位:井冈山大学

参考文献

[1]JochenHipp,UlrichGuntzer,Gholamreza.AlgorithmsforAssociationRuleMining-AGeneralSurveyandComparison[J].SIGKDDExplo-rations,2000(1):58-64.

关联规则范文篇10

关键词关联规则;数据挖掘;人寿保险

1引言

近年来,数据密集型的保险行业经过多年的运营,也已经积累了海量的历史数据,这些数据是公司的重要财富。要从这些大量数据中获取能给公司带来无限商机的有价值信息,急需更高效的数据处理方法和技术。此时数据挖掘技术显示出了它特有的优越性。1

2关联规则挖掘技术

数据挖掘(DataMining)是一个利用各种分析技术和工具从大量数据中提取有用知识的过程。它是一门交叉学科,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。它包含很多技术与方法,其中关联规则挖掘是一项非常重要的技术,是数据挖掘的一个主要研究方向。迄今为止,关联规则挖掘已经被应用到很多领域,例如零售业、市场营销、医学等,为各个领域的决策支持提高了一个有效的手段。

关联规则挖掘是由R.Agrawal等人提出来的,关联规则是描述数据库中数据项之间某种潜在关系的规则[1],它的基本概念为:设为数据项集合,设D为与任务相关的数据集合,也就是一个交易数据库,其中的每个交易T是一个数据项子集,即;每个交易均包含一个识别编号TID。设A为一个数据项集合,当且仅当时就称交易T包含A。一个关联规则就是具有“”形式的蕴含式;其中有,且。规则在交易数据集D中成立,具有支持度s,其中s是D中交易包含(即A和B二者)的百分比,这是概率P()。如果D中包含A的事务同时也包含B的百分比是c,则规则在交易数据集D中具有置信度c。这是条件概率P。即SupportP()=P(),ConfidenceP()=p()。

满足最小支持度阈值和最小置信度阈值的关联规则就称为强规则。这两个阈值均在0%到100%之间。挖掘关联规则主要包含以下二个步骤[2]:

(1)发现所有的频繁项集,根据定义,这些项集的支持度至少应等于(预先设置的)最小支持度阈值;

(2)根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小支持度阈值和最小置信度阈值。

3关联规则挖掘技术在人寿保险行业中的应用

人寿保险行业在日常的经营过程中,经常会遇到这样一些问题:如何能更好的理解客户,挽留有价值的投保人,对不同行业的人、不同年龄段的人、处于不同社会阶层的人的保险金额度该如何确定。这些问题都是影响公司经济运营的重要因素。为了更好的掌握投保人的特点及合理的制定保险金额度,可以利用关联规则挖掘来发现投保人与索赔的关系,分析具有什么特征的投保人曾经向保险公司索赔过。

3.1关联规则挖掘的基础数据

为了研究投保人与索赔的关系,我们从某城市一家人寿保险公司的历史保单数据库中提取出相关数据,把其整合到关系表中进行关联规则挖掘。下面的表1为整合之后的信息。

3.2基于概化的数据预处理

为了更好的进行关联规则挖掘,要对表1中的基础信息进行基于概化的数据预处理,具体的概化处理方法为:

①用符号A描述年龄,把年龄进行分段概化为:A1(£25岁),A2(25-35岁),A3(35-45岁),A4(³45岁)。

②用符号B描述性别,B1表示“女”,B2表示“男”。

③用符号C描述健康状况,C1表示良好,C2表示一般,C3表示较差。

④用符号D表示工作单位,工作单位为外资企业的表示为D1,非外资企业的表示为D2。

⑤用符号E表示工资档次,分别概化为:E1(高),E2(较高),E3(中),E4(低)。

⑥用符号F表示投保人是否曾向保险公司索赔过,F1表示曾经索赔过,F2表示未曾索赔过。

3.3关联规则挖掘过程

由关联规则的概念和表2的概化结果,可得出项目集合为{A1,A2,A3,A4,B1,B2,C1,C2,C3,D1,D2,E1,E2,E3,E4,F1,F2},我们目的是要分析投保人的各方面情况和索赔情况之间内在的关联规则。假设关联规则的支持度至少为40%,置信度至少为80%。进行关联规则挖掘过程如下:

(1)首先利用基于事物压缩的Apriori算法找出频繁项集如图1所示。

(2)找出支持度至少为40%而且置信度至少为80%的强关联规则。

由以上两步我们得出的和索赔情况有关而且实用的强关联规则为:(A4,B2,D1)→F1(置信度为100%,支持度为40%)此规则可解释为投保单上年龄大于45岁,工作单位是外资企业的男性投保人,几乎都曾经向保险公司索赔过。

3.4关联规则挖掘结果的指导作用

根据挖掘结果,我们分析原因,发现对于工作在外资企业,年龄大于45岁的男性投保人来说,由于在外资企业工作压力大,生活节奏快,同时45岁左右的中年男性正处于家庭负担最严重阶段,生活压力也很大,这些因素导致这部分人群的健康状况不好,因此索赔率也相对比较高,保险公司可以考虑相对提高对这部分人群的保险金额。此结论对于保险公司的增值服务具有重要的指导意义。

4结束语

本文利用关联规则挖掘方法分析出了隐藏在人寿保险历史数据背后的有效信息,然而关联规则挖掘技术在人寿保险行业中的应用不只是文中提到的这几个方面,例如利用关联规则挖掘进行险种关联分析,即分析购买了某种保险的人是否同时购买另一种保险。我们应该利用数据挖掘技术来分析人寿保险行业中的海量历史数据,进而从中获取有意义的信息,并从中挖掘出业务的内在规律,以达到提高效益、减低成本、防范风险的目的。数据挖掘技术是具有广阔前景的数据处理与分析技术,它将在有大量信息的保险行业中发挥不可估量的作用。

图1频繁项集的生成

参考文献

[1]JiaweiHan.数据挖掘概念与技术,北京:机械工业出版社,2004.6:149—180

[2]陈文伟,黄金才.数据仓库与数据挖掘,北京:人民邮电出版社,2004.1:143—149

[3]吉根林,帅克,孙志辉.数据挖掘技术及其应用[J].南京师大学报,2000.23(2)