数据挖掘论文范文10篇

时间:2023-03-21 02:26:22

数据挖掘论文

数据挖掘论文范文篇1

数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是Suppor(t支持度)和Confi-dence(可信度)。只有当Support和Confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。

二、使用Weka进行关联挖掘

Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。

(一)数据预处理

数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。

(二)数据载入

点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。

(三)关联挖掘与结果分析

WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。

三、挖掘结果与应用

以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。

1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是部级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有部级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。

2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。

数据挖掘论文范文篇2

目前面向Web的数据挖掘面临的问题,主要有两个方面:

1.1数据库环境的异构型

Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境。要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识。其次,有关Web上的数据查询。

1.2数据结构的半结构化

Web上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性。虽然Web上的数据形成半结构化数据。这些问题是进行Web数据挖掘所面临的最大困难。

2XML技术在Web数据挖掘中的优势

Web数据的异构使Web数据挖掘变得十分困难,通过XML可以解决这个问题。因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面。开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据的处理提供了有用的途径。利用XML,Web设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。基于XML的Web数据挖掘技术,能够使不同来源的结构化的数据很容易地结合在一起,解决Web数据挖掘的难题。

2.1XML技术在Web数据挖掘中具体作用利用XML技术我们在Web数据挖掘中可以完成以下几点:

2.1.1集成异构数据源

XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取。XML可以搜索多个不同数据库的问题,以实现集成。

2.1.2和异构数据进行交换

在Web数据挖掘程中,用户需要和异构数据源进行数据交换,XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据。XML的出现解决了数据查询的统一接口。

2.1.3过滤信息并显示

XML描述数据本身,可以使得定义的数据以不同的方式显示,对获取的信息进行裁减和编辑以适应不同用户的需求。以不同的浏览形式提供给不同的用户。

3基于XML的Web数据挖掘模型

我们通过对XML及Web数据挖掘的分析,设计了一个基于XML的Web数据挖掘模型通过提供一个Web数据挖掘的集成环境,提高数据挖掘系统的整体性能。工作流程如下:系统根据用户要求搜集Web资源,经数据转换器处理成相应的XML数据存储,提供给挖掘器使用;挖掘器则根据要求从选取相应的算法挖掘,输出挖掘结果;用户根据自己的满意度,获得需要的挖掘结果,调整挖掘要求进入新一轮数据挖掘。通过系统的维护我们可以加入新的挖掘算法,实现升级。

3.1各模块具体功能

3.1.1数据收集

从Web站点上采集数据并存储,获得挖掘内容。针对异构数据源,可以多种方式提出相关需求,挖掘的重点是Web内容和Web使用的数据。把用户访问网站留下原始日志数据进行清洗、过滤和转换处理,转变成统一处理的数据结构,构建日志数据库。

3.1.2转换器

对检索得到的数据用XML技术进行预处理,建立半结构化数据模型,抽取其特征的元数据,用结构化的形式保存,为挖掘模块提供所需的数据。

3.1.3挖掘器

不同的挖掘算法有不同适用情况,挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算法执行挖掘任务。随着应用的深入,知识库中的算法和规则不断的丰富。挖掘算法库是挖掘分析方法的综合库,以插拔的形式组织存放各种挖掘算法。314结果生成与评估以直观的方式提交挖掘结果,便于用户的评估。通过模式分析和兴趣度度量,若结果使得用户满意,数据挖掘结束,输出用户感兴趣的内容;否则可以在此重新提出挖掘要求,重新挖掘。

3.2系统各模块实现方法

3.2.1数据收集

数据的收集也涉及数据挖掘的技术,其过程是:通过人工输入办法,给出查询主题,找到相关的Web页,然后,通过相应的数据挖掘的算法对训练数据集提炼,利用提炼出的数据模式,进行更大范围的搜索,以获取更多的数据源。最终形成较新和有效XML文档。

3.2.2数据的转换处理

数据抽取转换是模型实现一个重要环节,其主要方法是把现有的Web页面转换成XML格式,并使用相关工具处理XML结构数据检要把HTML中含有的与主题无关的标记过滤掉,然后转化到XML的格式存储。目前Web页面到XML文档的转换,有两部分数据构成:一是XML数据,二是非XML数据。XML数据,可以直接将它们提交给下一个模块。对于非XML数据,本文的实现方法是用到Tidy以改正HTML文档中的常见错误并生成格式编排良好的等价文档,还可以使用Tidy生成XHTML(XML的子集)格式的文档。通过构造相应的Java类完成将数据从HTML到XML的转换。

3.2.3挖掘方法

(1)文本分类:文本分类是指按预先定义的主题类别,把集合中的每个文档确定一个所属类别。这样,用户能够方便地浏览文档,并限制搜索范围来使查找更为容易。利用文本分类技术对大量文档进行快速、有效地自动分类。有关的算法通常采用TFIDF和NaiveBayes等方法。

(2)文本聚类:文本聚类与分类的不同之处在于,聚类不需要预先定义好的主题类别,它是将把文档集合分成若干个簇,要求同簇内文档内容相似度最大,而不同簇间的相似度最小。Hearst等人研究表明聚类假设,即与用户查询相关的文档通常会聚类比较靠近,而远离与用户查询不相关文档。可以利用文本聚类技术把搜索引擎检索结果分成若干个簇,用户只要考虑那些相关的簇,就能够缩小所需要浏览的结果数量。目前,常用的文本聚类算法,分为两种:以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的平面划分法。

(3)关联分析:关联分析是指从文档集合中发现不同词语之间关系Brin提出一种从大量文档中查找一对词语出现模式算法,在Web上寻找作者和书名的模式,从而发现数千本在Amazon网站上查找不到的新书。

(4)模式评价:Web数据挖掘中十分重要的过程就是模式评价。常用的方法有预留法和交叉实验法,将数据分成训练集和测试集两部分,学习和测试反复进行,最后用一个平均质量模型来确定模型质量的好坏。

(5)预留法:从数据集合随机抽取预定大小一个子集作为测试集,其他数据则作为训练集。

(6)交叉验证法:把整个数据集合按照所要进行的学习测试循环次数分成一定数目的子集,在每次循环中,选取其一个子集作为测试集,其它子集并集则作为训练集。

4结束语

数据挖掘论文范文篇3

系统采用C/S+B/S结构,主要由前端数据采集设备(位移及载荷传感器)、站点客户端、数据库及Web服务器等组成。各部分采取分布式协同处理运行方式,站点客户端利用前端采集的数据独立分析计算,分析完成后上传至数据库服务器,并通过网页服务器对外。

2系统数据

2.1系统数据结构系统采用MicrosoftSQLServer,创建了WPGUI与WPCHQ数据库来管理3万余口油井数据采集、处理及存储等,建设数据表65张(见主要数据表的关系图2),主要包括生产井的完井数据、静态数据、动态数据、采集数据、原油物性数据、机杆管泵等技术数据,同时系统保存了油井近两年功图电参数据(每天每口井到少100张),以及根据这些数据分析计算出来的结果和汇总生成的数据。

3数据挖掘应用

数据挖掘是从大量数据集中发现可行信息的过程,是统计分析技术、数据库技术及人工智能技术的综合。面对油井工况实时分析及功图计产系统大量的油井生产完备数据,长庆油田充分利用数据挖掘技术,对数据进一步清理、集成、转换、挖掘应用,深化功图系统数据分析,先后开展了动液面计算,系统效率在线实时监测、区块动态分析研究等,并应用于油田现场,取得了较好的效果,既节约了生产成本,又方便了现场管理应用,进一步提升系统在长庆油田数字化前端的核心地位。

3.1区块动态分析

油井生产中,每天都会获得大量的实时生产数据,目前系统主要对单井完成工况分析及产液量计算,如何通过分析和处理这些数据,及时全面了解油田区块产油量、压力、含水等变化规律是数据挖掘应用又一问题。长庆油田开展了基于油井工况诊断及功图计产系统的区块动态分析,从空间和历史角度,对油井分类、分级、分层次进行统计分析,挖掘生产数据里有用的信息,提炼区块共性问题,并按照设计的模板(区块指标统计图表、供液能力分析、产量分析、故障井分析等)每月30日自动生成全面及时的区块油井生产动态分析,从而指导区块生产管理,实现油田的精细管理,为油田开发决策提供依据。

4结束语

随着长庆油田数字化建设的不断深入,各种生产、研究、管理等数据库不断增加,如何深化数据应用,准确迅速从数据库是提取有用信息,已成为是数字油田生产管理的迫切需求。在基于油井工况实时分析及功图计产系统数据挖掘应用中我们积累了不少经验,拓展了系统功能,提升系统在长庆油田数字化前端的核心地位。在今后应用中,油田数据挖掘应用注意几个问题:

(1)数据是数字油田的血液,为了保证数据挖掘效率,在数据库建设中要规范数据存储格式,保证数据源及数据类型的统一,同时加强数据审核,注重数据入库的质量;

(2)数据挖掘中尽可能使用可视化工具,一幅图胜过千句话,数据挖掘可视化主要包括数据可视化、挖掘结果可视化、挖掘过程可视化等;

数据挖掘论文范文篇4

目前现有的针对烟草营销策略的研究,多采用数据挖掘的思想,基于数据挖掘的营销策略是对终端客户进行分类,根据用户的销量和诚信记录把用户分为多个等级,但这种分级策略只能反应用户的销量信息,把这个分类作为营销策略依据太单薄,只能起一定的辅助作用。更深入地研究是根据客户的资料和历史订单数据对现有商户进行聚类,获取到自主的商户分类,但盲目的聚类会导致商户的分类没有实际意义,或获取的结果是无助于营销目的的。

2技术关键

本系统采用基于营销目的的商户聚类,技术关键包括三部分内容:数据预处理中的特征选择、基于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。

2.1特征选择

假定获取的数据的维数为n,通常情况下n是很大的一个数,为简化模型,也为了防止模型陷入过拟合(维数灾难),需要进行降维处理,即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理,过程如下:

1)计算标准化后的矩阵Z的样本的协方差矩阵Cov;

2)计算协方差矩阵Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;

3)投影数据

到本征矢张成的空间之中,利用贡献分析取前m个向量Y1,Y2,…,Ym。

2.2基于营销目标限制的商户精确聚类算法

现有聚类算法一般没有约束条件,只根据相似度来进行聚类,为了能够体现约束条件,需要在聚类相似度或者样本距离之间把限制条件增加进去,这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。烟草终端商户的大部分属性是分类属性,例如:地区、类别等,此外还有数字型属性、日期型属性,由于存在不同类型的属性,常规的聚类算法无法使用,为此,采用把数字属性和日期属性划分区间的思路,这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型:分类对象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,为简便起见,将对象X∈Ω用向量(x1,x2,…,xm)表达,如果属性Aj的值不存在,则Aj=ε。令Χ={X1,X2,…,Xn}为n个分类对象的集合,用集合方式表达分类对象,则Xi={xi,1,xi,2,…,xi,m},如果属性Aj的值不存在,则集合中不出现xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,则Xi=Xk。为方便聚类,利用聚类汇总来压缩原始数据,从而达到提高算法效率的目的。一个类C可以由如下三元组(n,I,S)来表示。其中n为类C中的对象数量,I={i1,i2,…,iu}是C内所有属性值的集合,S={s1,s2,…,su},其中sj为ij在类C中的数量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组(n,I,S)被称作类C的聚类汇总CS,CS的三个成员分别记作CS.n、CS.I和CS.S;对于CS.I的任一元素ij∈CS.I,则记作CS.I.ij,对于sj∈CS.S,则记作CS.S.sj,其中1≤j≤u。

2.3基于烟草营销的多层关联规则的研究

针对本项目,对关联规则定义进行扩展,对形如:XY的关联规则,不再限定X和Y为一个项目集,而把X和Y定义为条件的合取范式,每个条件Ai=True/False为布尔表达式。此时的Ai为一个项目集,它的含义与原来的X和Y的含义相同,如果把结果中的条件布尔表达式写成Cj=True/False,则关联规则有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)关联规则的开采问题可以分解成以下两个子问题:

①从数据集合或交易集合D中发现所有的频繁项目集。

②从频繁项目集中生成所有置信度不小于用户定义的最小置信度minconf的关联规则。即对任一个频繁项目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,则(F-S)S就是一条有效的关联规则。按上述方法发现所有类似的规则。这两个步骤中第2步要相对容易,因此项目的研究将更关注第1步,由于最大频繁项目集已经隐含了所有频繁项目集,所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。针对烟草营销的客户,进行关联规则挖掘时,是在上一步的基础上,即针对每一个商户群进行规则挖掘。在获取到最大频繁项目集后,顺序生成频繁项目集,然后获取到可用的关联规则。此时获取的关联规则是底层关联规则,然后再采用概念树的方法对获取的底层关联规则进行汇总。概念树由烟草领域专家根据属性的领域知识提供,按特定属性的概念层次从一般到具体排序。树的根结点是用any表示最一般的概念,叶结点是最具体的概念即属性的具体值。

数据挖掘论文范文篇5

关联规则最初是针对购物篮分析问题提出的,目的是发现事务数据库(TransactionDatabase)中不同商品之间的联系。关联规则是形如A=》B的蕴涵式,其中A称为该关联规则的前项,B称为该关联规则的后项。事务,是一个明确定义的商业行为,如顾客在商店购物就是一次典型的事务。由用户设定的支持度和置信度的门槛值,当sup-port(A=>B)、confidence(A=>B)分别大于等于各自的门槛值时,认为A=>B是有趣的,此两值称为最小支持度(minsupport)和最小置信度(minconfidence)。同时满足minsupport和minconfidence的这种关联规则就叫做强的关联规则。设任务相关的数据D是数据库事物的集合,当项集的支持计数≥D中事务总数|D|与minsup-port的乘积时,就叫做频繁项集,当项集的支持计数可能≥D中事务总数|D|与minsupport的乘积时,就叫做侯选项集。所有侯选项集K-项集的集合记作Ck,所有频繁项集K-项集的集合常记作Lk,很明显Lk奂Ck。如果仅依赖最小支持度和最小置信度这两个参数的限制,所挖掘出的强关联规则不一定是用户感兴趣的,因此,用户可以根据实际应用的需求,再结合自身的领域知识,通过选择与实际分析任务有关的数据集,设置不同的参数,限定前项和后项的个数,选择前项和后项包含的属性等操作,对关联规则的挖掘进行约束。

2模糊集理论的引入

在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。

3基于事务间数值型关联规则的数据挖掘算法

假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。

4结语

数据挖掘论文范文篇6

数据挖掘技术是延伸和扩展了传统分析方法,可以发现传统分析方法不能发现的内容和规律,并且它将人们从单调、枯燥的阅读专利文献的工作中解放出来,使用计算机代替了人类劳动,这样不仅提高了效率,而且提升了准确度。因此,数据挖掘作为一个专利分析的强有力工具被引入到专利分析中来,并且得到快速的发展应用。专利数据挖掘流程应考虑的问题:一是用数据挖掘解决什么样的问题;二是为进行数据挖掘所做的数据准备;三是数据挖掘的各种分析算法。故专利数据挖掘的一般过程通常按照以下步骤来完成:领会数据挖掘的目的,获取分析所用的数据集合,探索、清理和预处理数据,选择要使用的数据挖掘技术,使用算法解决问题,解释算法的结果。而其一般流程可简化为三个阶段:数据准备→数据挖掘→结果解释和评价。本文采用简化的流程进行实证分析。

二、石家庄地区制药企业专利数据挖掘

本文对石家庄地区制药企业的专利数据进行挖掘分析,挖掘对象是华北制药集团公司、石家庄制药集团有限公司、石家庄神威药业股份有限公司、石家庄四药股份、河北以岭药业股份有限公司、石家庄市华曙制药集团、河北医科大学制药厂、河北圣雪大成制药有限责任公司等地址在石家庄且具有一定代表性的药企,希望通过这些药企数据能够找到石家庄地区制药领域的核心组成,并能为药企更好地发展提供有力的信息支持。IPC号是目前权威的专利技术主题的标识编码之一,基本包含了各行各业的专利信息,是一个庞大的专利信息体系。目前国内外很多分析方法及技术大部分是基于专利的IPC分类号来分析专利技术主题的,此分析方法有一定的参考价值和科学性,而且对于具有大量专利信息的分析具有很好的总结概括效果。本文以专利全部IPC号为分析对象,并且构建IPC号之间的关联规则,在最大程度上揭示隐含的专利技术关联性,从而为石家庄地区制药企业专利技术的发展提供参考。

1.数据准备。数据来源的准确与否是数据分析与挖掘的基础,是数据分析与挖掘的根本。本文所使用的石家庄地区制药领域专利数据由万方数据公司提供,以制药企业地址为石家庄为检索条件,搜索出了包括从1985—2014年间石家庄地区制药领域专利644条,分别分布在A、B、C、D、E、F、G、H八个大部。对专利数据库中的644条专利进行筛选,根据“分类号”字段限制,它涉及专利信息的分类,有些IPC所涉及的范围与石家庄地区制药领域没有联系或联系很小,不宜保留。根据“申请人(专利权人)”字段的限制,剔除与石家庄地区制药不相关或制药企业地址不在石家庄地区的专利。最后筛选出590条最符合该领域特点的专利。由于IPC号在几乎所有现存数据库中均是以一个字段存储一个专利的所有IPC分类号的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每个专利一般都有好几个分类号,而每个企业又研究大量的专利,所以在进行专利分析之前,需要对专利IPC号进行数据整理。由于过于细致的IPC分类号并不利于专利主题的分析与揭示,所以本文中采用专利小类分析,就是取IPC号的前4位。并将申请人与其对应的多条IPC号进行拆分,拆分后的数据项有773条,即显示每个申请人对应的一条IPC分类号。

2.数据挖掘。本文数据挖掘过程将采用Excel和SQLsever2005软件,首先对所得到的数据导入SQLserver2005进行挖掘,利用SQLserver2005可以直接进行IPC号的关联规则挖掘,然后对专利信息进行分析。

3.数据挖掘结果与分析。基于关联规则制作依赖关系网络图,可以更加直观地看到各个IPC号之间的关联和依赖状态。

(1)以A61K、C12N、C12P、C07D、C07C为中心的核心专利技术群。这些专利的IPC分类号是关键部分药物组成的各种化合物即药物主要成分的重要聚集组。A61K(医用、牙科用等的配置品)是项集次数最多的,即支持度较高的,C12P(发酵或使用酶的方法合成目标化合物或组合物或从外消旋混合物中分离旋光异构体)、C12N(微生物或酶;其组合物)、C07D(杂环环合物,例如邻氯苄星青霉素的合成)、C07C(无环和碳环化合物)通过专利相关知识我们已经知道这些都是药物的合成成分,即土霉素、链霉素、青霉素等多种抗生素和维生素的主要成分组成,是制药领域的核心。这也是和石家庄地区制药企业的核心领域相符合的。另外这些专利主题的相互关联、依赖说明了石家庄地区制药企业在该领域具有很好的布局网络,在研发数量上也占有一定优势,所以说是石家庄地区制药企业的主要研究领域。

(2)以B65G、C12M为中心的辅助设备专利技术群。药品的生产离不开设备的支持,所以设备方面的专利也能体现制药企业的技术水平。在图1中也能体现出来,专利间有着很强的依赖性和关联性,在核心专利周边有B65G(运输或贮存装置,例如装载或倾斜用输送机、车间输送机系统、气动管道输送机)、C12M(酶学或微生物学装置),这些是制药的辅助技术手段,与中心专利是相互联系的,也是制药过程中必不可少的,在这些方面的提高有利于制药核心领域的发展。先进药品的研制离不开先进制药设备支持,所以设备水平的提高也是关键的。如图3所示,石家庄地区制药企业在这一方面的技术依赖网络也已经形成,说明在此技术领域也已经拥有较强实力。但与中心主要专利相比,辅助设备专利技术还是需要不断提高的。

三、总结

数据挖掘论文范文篇7

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

数据挖掘论文范文篇8

目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术,但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别,目前基本上都使用IBMSPSSModeler平台的决策树和逻辑回归经典算法识别垃圾短信用户,由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。为建立白名单和科学封堵模型相结合的垃圾短信治理模式,实现精细化、行为级、高效性的垃圾短信治理,本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别和治理。相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。

2大数据挖掘的原理与优势

大数据是指数据量很大(一般是TB到PB数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主,大数据具有4V特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比。

3数据挖据流程和模型选取

3.1数据挖掘的主要流程

数据挖掘主要包括以下6大步骤。

(1)商业理解:确定挖掘目标以及产生一个项目计划。

(2)数据理解:知晓有哪些数据,以及数据的特征是什么。

(3)数据准备:对数据作出转换、清洗、选择、合并等工作。

(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。

(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。

(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。

3.2垃圾短信治理指标体系设计

垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中,用户通信行为信息包括活动轨迹、终端IMEI和数据业务访问等信息。

3.3模型的选取

对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为,通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。

3.3.1现有垃圾短信识别模型的优势与不足

识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。其中,神经网络因本身算法的复杂性,造成模型结果解释性较差,模型落地较困难而很少在实际项目中使用。目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。决策树模型主要具有以下优势:模型非常直观,容易让人理解和应用;决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。但是,使用决策树作为垃圾短信用户识别模型主要存在以下不足。

(1)决策树最大缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。

(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。

(3)容易出现过拟合。当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。

(4)决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因分箱丧失某些重要信息。尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。

相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等,逻辑回归技术是最成熟,得到广泛应用,逻辑回归模型主要存在以下不足。

(1)变量之间的多重共线性会对模型造成影响。

(2)应删除异常值,否则它会给模型带来很大干扰。

(3)逻辑回归模型本身不能处理缺失值,所以应用逻辑回归算法时,要注意针对缺失值进行适当处理,或者赋值,或者替换,或者删除。

3.3.2垃圾短信识别预测模型选取

鉴于目前研究者对垃圾短信识别使用的决策树和逻辑回归模型存在较多不足之处,本文从模型算法上对其进行改进,力求得到更加科学合理的垃圾短信识别预测模型。本文使用的数据挖掘模型为随机森林模型。

3.3.2.1模型简介

随机森林(RandomForest)算法是一种专门为决策树分类器设计的优化方法。它综合了多棵决策树模型的预测结果,其中的每棵树都是基于随机样本的一个独立集合的值产生的。随机森林和使用决策树作为基本分类器的Bagging有些类似。以决策树为基本模型的Bagging在每次自助法(Boostrap)放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。而随机森林也是进行许多次自助法放回抽样,所得到的样本数目及由此建立的决策树数量要大大多于Bagging的样本数目。随机森林与Bagging的关键区别在于,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,就连每个节点变量产生都有相当大的随机性。随机森林让每棵树尽可能生长,而不进行修剪。随机森林算法主要包括决策树的生长和投票过程。随机森林中单棵树的生长可概括为以下几步。

(1)使用Bagging方法形成个别的训练集:假设原始训练集中的样本数为N,从中有放回地随机选取N个样本形成一个新的训练集,以此生成一棵分类树。

(2)随机选择特征(指评估指标,以下同)对分类树的节点进行分裂:假设共有M个特征,指定一个正整数m<M,在每个内部节点,从M个特征中随机抽取m个特征作为候选特征,选择这m个特征上最好的分裂方式对节点进行分裂。在整个森林的生长过程中,m的值保持不变。

(3)每棵树任其生长,不进行剪枝。Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低偏差的分类树,同时保证了分类树的分类效能(Strength),分类树的分类效能是指分类树对新的测试数据的分类准确率。

3.3.2.2随机森林分类预测模型的主要优势

(1)随机森林的预测精度高,它可以产生高准确度的分类器。

(2)可以处理相当多的输入变量。随机森林不惧怕很大的维数,即使有数千个变量,也不必删除,它也会给出分类中各个变量的重要性。

(3)当在构建随机森林模型时候,对GenerlizationError估计是无偏估计。

(4)随机森林在设计上具有很快训练速度,训练出结果模型不必花费大量时间。

(5)对缺失值和极端值具有很强容忍能力,即使有较多缺失数据仍可以维持准确度。

(6)当遇到分类数据不平衡时,可以较好地平衡误差。

(7)随机森林算法并不会导致过拟合。定义组合分类器的总体分类效能s为:s=Ex,ymg(x,y)。若用ρ表示每棵分类树之间相关度的均值,则随机森林的泛化误差PE的上界可由下式给出:PE*≤ρ(1-s2)/s2。当随机森林有相当多的分类树时,随机森林的泛化误差几乎处处收敛于一个有限值。因此,随着森林中分类树数目的增长,随机森林算法并不会导致过拟合。

(8)随机森林在模型训练过程中,能够对特征之间的相互影响行为做出检测。随机森林算法具有以上优势,在垃圾短信治理预测中具有应用的优势,本文采用随机森林模型作为垃圾短信用户的分类预测。综上所述,随机森林模型主要在不会出现过拟合、训练精度高、能处理大量输入变量并输出变量重要性3个方面优越于决策树模型;在容忍缺失值和极端值方面明显优越于逻辑回归模型。随机森林模型在算法设计上有效弥补了决策树和逻辑回归模型的不足之处,在垃圾短信识别分类预测中具有较好的应用价值。

3.3.2.3垃圾短信数据挖掘模型构建

通过前述的商业理解确定了垃圾短信识别业务需求,并进行数据理解构建了垃圾短信识别指标体系,再抽取需要的数据,并进行数据清洗、转换、衍生变量计算等步骤,具备了建模的目标数据,接下来的任务就是通过随机森林模型构建垃圾短信分类预测模型,对垃圾短信用户进行识别。

3.4用户分类治理策略

通过随机森林模型的识别,根据用户是垃圾短信发送者的可能性评估,制定不同的治理策略,如图3所示。实际的执行过程中,需要根据清单的范围大小,适当的调整预测概率门限,以保证策略执行的效果,同时避免过多的正常用户的业务感知受到影响。

4垃圾短信治理平台的实现

4.1系统架构

垃圾短信治理平台的数据来源较多,需要处理的数据量也非常大,因此,数据采集和数据处理过程是相互影响的过程。垃圾短信治理平台的系统架构图如图4所示。

(1)数据采集层:是垃圾短信治理平台与多个数据库来源的安全访问接口,通过数据采集层实现数据挖掘和分析所需要的基础信息:用户属性信息、用户卡号信息、用户业务记录、用户的位置信息和消费记录。

(2)数据处理层:需要根据数据挖掘的需求,将采集的基础数据转换为业务服务层可以使用的数据,通过对基础数据进行整形、清洗和预处理,为后续的数据挖掘做好数据准备。

(3)业务服务层:主要包括应用性服务和安全服务两个部分,应用性服务包括数据查询统计服务、用户查询服务和GIS应用服务,同时,补充报表服务和文件管理服务以方便日常的工作。通过外部接口服务,可以部署相应的权限管理、数据管理维护以及注册服务等,降低系统的风险,保证信息的安全传递。

(4)功能模块:主要是根据客户需求,定制开发的功能单元,功能模块的个数以实际部署的情况为准。以图4垃圾短信治理平台的系统架构图某省公司的定制模块为例,主要包括指标查询模块、垃圾短信治理模块、用户综合信息分析模块和市场支撑应用模块4个部分。

4.2效果展现

针对不同的部门或用户,垃圾短信治理平台展现不同的数据,主要包括以下的结果展现方式。

(1)治理效果掌控:通过指标查询系统,及时掌握垃圾短信的治理效果,发现工作的成果和风险,达到及时发现问题并快速响应的目的。

(2)治理效率提升:通过垃圾短信治理模块,快速准确识别垃圾短信源头并定位区域,下发至地市公司快速处理,减小垃圾短信带来的不良社会影响。

(3)实现预先管控:通过用户综合信息分析模块,可以对潜在的具有垃圾短信源头特征的风险终端进行监控、通过外呼、资费信息等情况,提前发现和治理潜在垃圾短信源。

(4)渠道规范化:市场部门通过渠道信息和卡号信息,对一些垃圾短信来源集中的渠道的发卡进行监督和严格控制,从源头上减少垃圾短信的源头。

数据挖掘论文范文篇9

1.1经穴效应特异性规律研究

主要采用关联规则与频次分析相结合的数据挖掘方法,关联规则旨在提示处方中存在的两个或两个以上腧穴之间的配伍形式,频次分析能够提供针灸治疗某一疾病选用的腧穴及其频繁程度。罗玲等在全面采集古代针灸治疗中风文献基础上,重点进行了选穴的经络症状关联分析,发现针刺治疗中风半身不遂使用腧穴频次最多的为曲池、肩等手阳明经穴;肩、曲池、足三里、百会、风池配伍是最常用处方;多选用足少阳经和手足阳明经穴位。针刺治疗中风不省人事使用腧穴频次最多的为督脉百会穴、心包经中冲穴;风池、百会、曲池配伍或大椎、百会、风池配伍是最常用处方;经脉多选用督脉和足少阳、手阳明等阳经穴位。以上表明针灸治疗中风遵循了辨证循经取穴的处方规律。何冬凤等在全面采集现代针灸治疗心绞痛临床文献基础上,重点进行了选穴的经络部位关联分析。结果发现,心绞痛选穴分布在心包经、膀胱经、任脉、心经最多;选穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包经和心经,背部用穴近95%分布于膀胱经,胸部用穴全分布于任脉和心经。以上表明针灸治疗心绞痛遵循了辨位循经取穴的处方规律。数据挖掘结果证实了古代、现代取穴规律和特点与针灸临床理论的一般规律和特点是基本相符的。经络辨证提示了经穴效应的循经性,特定穴的选用提示了经气会聚状态是腧穴发挥效应特异性的关键。

1.2腧穴运用规律的研究

1)神经系统疾病:赵凌等收录了从先秦至清末的偏头痛针灸专著,采用多层关联规则挖掘算法,计算腧穴项集的支持度和置信度,发现手足少阳经脉的穴位丝竹空、风池、率谷、颔厌、头临泣出现频次最高,偏头痛处方配伍中以合谷一风池出现的频次最高,少阳经的交会穴选用最多。杨洁等发现针灸治疗贝尔面瘫中,手足阳明经穴选用最多,重视局部穴位,配合远端选穴,地仓穴为使用频次最多经穴,交会穴、五输穴、下合穴等特定穴运用广泛。吴粮葶等挖掘针灸治疗中风后遗症的现代文献,表明针灸治疗中风后遗症选穴以循经为基础,首选阳经腧穴,分布主要在四肢,阳明经与少阳经的配伍关系最为常用,特定穴为选穴的主体,特别重视交会穴及肘膝关节以下的特定穴。李旗等挖掘出针刺治疗格林巴利综合征所选腧穴以足三里、合谷、曲池、阳陵泉、外关、三阴交使用频率最高,经络则以手足阳明经最为常用。CongMen等以不同针刺手法刺激小鼠足三里,构筑神经元混沌放电的复杂网络来刻画神经元放电时间序列的时变特性。

2)消化系统疾病:任玉兰等通过多维、多层的关联规则分析针刺治疗功能性消化不良的古文献,发现足三里、中脘、脾俞、胃俞、内关是治疗FD最常用的主要腧穴,足三里与中脘相配是最主要穴位组配方式;取穴以循经为基础,主要集中在任脉、膀胱经、脾胃经上;所选腧穴以特定穴为主体,遵循局部与远端取穴相结合原则。张勇等以古文献中治疗鼓胀的经穴为原始数据,运用频数统计及关联规则算法,统计出古代治疗鼓胀最常用经穴为足三里、水分、气海等,通过2次priori关联结果,最终确认组穴1(复溜,中风)和组穴2(复溜,脾俞)在临床应用中具有强关联性。郑华斌等发现在治疗肠易激综合征中,特定穴的使用广泛,其中以足三里为最,其次为天枢、上巨虚、中脘等,脏腑辨证取穴为针刺治疗肠易激综合征的重要原则,以足阳明胃经的足三里和天枢为主。

3)心血管系统疾病:何冬凤等收集从先秦至清末有关胸痹的文献,挖掘结果为历代针灸治疗胸痹以心包经选用频次最高,阴经使用最为频繁,特定穴的选用占有绝对优势,如五输穴原穴络穴等,体现了循经取穴原则。高丽美通过频次分析及关联规则算法挖掘现代穴位贴敷治疗心绞痛文献,结果表明心俞、膻中、内关、厥阴俞使用频次最多,腧穴选用以特定穴为主,俞募配伍使用最多。腧穴分部以胸腹部、背部腧穴为主;以足太阳膀胱经、任脉、手厥阴心包经选用频次较高。

4)其他系统疾病:王洪彬等借鉴文献计量学及数据挖掘的相关方法,对针灸治疗更年期综合征的常用腧穴及经络进行描述性统计。发现现代治疗女性更年期综合征所选取的穴位中以三阴交、肾俞、关元、足三里使用频率最高,膀胱经、任脉、脾经腧穴应用最为广泛。王静等发现源于149篇文献的186条数据元素组成的阿片类药依赖针灸治疗数据库中,用穴频次居于前五的经穴足三里、三阴交、内关、合谷和神门构成了穴—穴,症—穴,研究对象—穴,—穴和戒毒分期—穴等关联规则中的穴位主体。

1.3刺灸方法的应用规律研究

贾春生等提出建立刺灸法文献数据库并设计文献数据应用平台,在此基础上分析数据资料,建立刺灸法数据挖掘模型。此后,各学者运用数据挖掘方法对穴位注射、火针、穴位敷贴、穴位埋线、刺络放血等刺灸法进行了特异性规律及特点的研究。刺灸法挖掘技术的应用中,频次分析最为常用,能够提供各类刺灸法治疗不同疾病的频繁程度,筛选其治疗的优势病种。张选平等发现穴位埋线疗法主要优势病种是内科的胃脘痛、肥胖病、痫证、哮喘、腹痛、面瘫、便秘;外科的腰腿痛;皮肤科的牛皮癣和五官科的重睑术。刘新等总结出放血针具共涉及9种,以三棱针使用频次最高,将放血量人为分为6个等级,其中放血量为少许(少于0.1mL)的出现频次最高,为401次。许晓康等发现水针疗法在内科疾病治疗中出现频次最高,其次为外科疾病,相对于其他疾病,呃逆出现频次最高。

1.4腧穴疾病谱的研究

吴粮葶等通过规范病症、腧穴名称,统计中风后遗症所属病症的针灸病症谱及总结针灸治疗中风后遗症的腧穴谱,结果显示针灸病症谱分布呈偏向性,腧穴谱遍布十四经脉,首选阳经腧穴,常用腧穴以阳明少阳经穴为主。邢晶晶等通过文献比例、疾病比例对内关及其常见配伍的针刺病谱进行分析,总结出内关针刺病谱主要分布于脾胃系和心系;单穴内关针刺病谱中冠心病文献比例最高;内关配伍足三里针刺病谱中呃逆文献比例最高;内关配伍三阴交针刺病谱中焦虑抑郁文献比例较高。黄宗雄等通过对清代及清以前昆仑穴相关文献的整理,挖掘得出:昆仑单穴主治病证33种,筛选出2种优势病证;配伍主治病证45种,筛选出19种优势病证及其高频配伍处方。陈文修等统计出百会单穴主治病证73种,筛选出22种优势病证;配伍主治病证106种,筛选出21种优势病证及其高频配伍处方。

1.5名老中医经验挖掘

张华等对田从豁教授临床病历资料进行整理,发现田从豁教授临床应用穴方共19个,阴交、肓俞、水分配伍使用频次最多。陈裕收集当代名中医针灸治疗偏头痛医案247篇,总结出临床与肝阳上亢型关联密切的是足少阳胆经,血瘀阻络型是手少阳三焦经,风邪上扰型是足太阳膀胱经,气血不足型是足阳明胃经。并且,根据关联规则挖掘提出的基本配穴规律与中医经络理论相契合。

1.6针灸临床决策支持系统构建

针灸临床决策支持系统对于实现针灸临床决策模式的转变有重大意义,基于数据挖掘方法,各学者在此方向进行了有益的探索。任玉兰等提出建立疾病症状、证候症状关系的样本数据库、概率数学模型;再通过遗传算法进行针灸治疗最优方案的选择,构建具有人工智能特征的针灸临床循证诊疗决策辅助支持平台。王佑林等利用复杂网络的K核心思想并改进来寻找针灸治疗疾病所用穴位的主穴信息,使其更好地适应中医决策系统并提供支持。李云松等发现在决策系统中,使用一元字串和二元字串的特征更适合腧穴处方的自动生成,提出了一种基于K近邻方法的腧穴处方自动生成算法,通过分析病历库中与目标现病史最相似K条病历的穴位配方,来自动给出患者针灸治疗的推荐方案。胡绿慧等提出使用Weka平台进行编程,分析穴位的支持度与置信度,找出适用于针灸临床方案决策研究的最好方法,用以指导临床医生的方案决策。

2分析与展望

2.1数据挖掘结果能够与传统的中医学理论相契

合并提供新知《席弘赋》云:“凡欲行针须审穴。”可见临证选穴及配伍的重要性。查阅近几年针灸数据挖掘的结果,不难发现,针灸处方的配伍仍大量选用“原络配穴”“俞募配穴”“八脉交会配穴”“合募配穴”“远近配穴”等传统配穴方法,遵循着“循经取穴”的规则,体现了“经脉所过,主治所及”“腧穴所在,主治所及”的规律。数据挖掘在验证传统的中医学理论的同时,还能在海量的文献中发掘出新知,如赵凌等挖掘偏头痛文献时即发现古代针灸治疗该病多采用同名经的配穴方法,发生疾病时即可在相联系的手足同名经的相应部位针刺;赵华等挖掘田从豁教授治疗痹症经验的结果提示上肢疼痛与寒凝、血瘀相关,风寒痹阻与下肢发凉相关。这些新的治疗方法、不易发现的疾病、证候、症状之间的联系,通过数据挖掘为临床提供了新的思路与治疗模式。

2.2数据挖掘在针灸领域存在的不足及展望

针灸数据挖掘起步较晚,不同于中医药数据挖掘文献量大、方法选用较多,针灸数据挖掘文献量较少,且仍以关联规则及频次分析为主要挖掘方法。对针灸选方用穴的规律进行关联程度的分析,虽然能够提供腧穴的使用频率及处方的关联度,但此方法对针灸核心处方及配伍的深层分析如增效、减效等却无能为力。单一的处方关联分析也制约着针灸数据挖掘的进一步发展,其在生物学机制、脑功能分析等的应用基本为空白。而复杂网络分析却在此方面提供了新的可能性。复杂网络方法是通过穴位、疾病、证型等作为基础节点,构筑复杂网络,通过幂律分析、小团体分析、中心性分析等深入分析针灸处方特色的一种数据挖掘方法。可以提炼出核心处方,通过加权与无权的穴位疾病二分网络从宏观及动态的角度揭示腧穴配伍规律。亦可进一步以生物学中蛋白、基因或脑影像学数据作为节点,通过节点间的拓扑网络,深入分析针灸在生物学及脑影像学领域的作用机制。另外,数据挖掘与仿真工程的结合,可以在针刺手法的测定、针灸临床决策系统中发挥更重要的作用。

数据挖掘论文范文篇10

关键词:4G环境;移动通信;网络优化;数据挖掘

随着我国的移动信息力量不断发展,目前社会已进入了4G的通讯时代。4G环境下,移动通信网络实现了实时的更新与扩大,同时人们对于移动网络的使用要求也越来越高。如果不及时对移动通信网络进行更新优化,4G网络将无法发挥力量,进一步为社会与人们服务。因此,为深化4G网络的使用,必须对其数据进行深度挖掘与分析,从而找寻更好使其为人们服务的途径与方法。

1关于数据挖掘技术的问题分析

1.1数据挖掘的概念。数据挖掘技术是目前我国一类新兴的互联网科技技术,其运用基于目前的大数据时代形势下。数据挖掘的实质是对巨大的信息量,通过后台的整合处理,找寻具有一定规律的数据并对其深入分析,找寻各组数据之间的联系,对后续可能潜在产生的数据进行预测。因此,数据挖掘在目前信息量庞大的现代网络社会而言,具有找寻各组数据的关联性,发现人们潜在需求的重要作用,是进一步优化4G网络通讯与使用的重要依据。1.2数据挖掘的分析方法。数据挖掘的方法较多,通常情况下使用以下三类方法进行具体的挖掘工作。首先,分类分析法是最常用的一类数据挖掘方法。该方法需要技术人员对所有的数据进行初步筛选,并依据其特点做好标记的工作。在第一次筛选工作完成后,对其进行先前以标记分类的数据进行二次筛选,根据其特点再一次筛选。重复筛选的工作直至得到符合技术人员需求的规模后,在对其同类型的数据进行定点分析,找寻其规律后根据其特性对4G网络进行优化工作。其次,通常使用关联分析法进行数据挖掘的工作。所谓关联分析法,是指对人们使用4G网络的情况排查,分析其使用某数据时与其关联的数据,找寻二者的规律与相似处,并以此为依据对4G网络的使用进行进一步优化调整。关联分析法的优势是更贴合人们的需求,能够基于人性化的基础上对4G网络进行调整。最后,序列分析法也是常用的数据挖掘方法。其原理类似于分类分析法,但其采用的方法是先由技术人员对所有需要分析的数据进行采集编号,然后由计算机对其数据根据序列的不同进行分析工作。相较于分类分析法,尽管其人性化程度较低,但其分析的速度是常用的数据分析法中速度最快的。因此,技术人员同时使用序列分析法对数据进行第一次筛选与分析的工作后,根据情况具体使用分类分析法或关联分析法进行具体的筛选工作。

24G移动通信网络的特点分析

2.14G移动通信网络的移动性特点。4G网络通常情况下是使用在可移动的电子设备如手机、平板电脑等,因此其首要特性是区别于传统的计算机互联网,其可移动性较强。因此,其使用的过程中对固定的宽带使用不作要求,只需求我国的移动通信机电站支持。在我国移动网络建设较为完善的前提下,4G网络几乎可覆盖整个国家并且24小时提供支持。故而对其的分析工作要充分考量其移动性与实时性,可根据其广泛的区域性与时效性进行分析,进一步做好其优化调整工作。2.24G移动通信网络的使用结构庞大。4G网络通讯是一项面对多用户的网络系统,同时用户能够基于4G网络的支持产生联络与影响,因此其使用结构十分庞大。在对其数据挖掘的过程中,要注意用户之间的联动影响,同时通过对其之间的联动找寻数据应有的特点与联系,进一步做好其优化调整工作。此外,由于移动通信系统要与卫星通信网和市话网以及数据网等进行网络互联,从而使得整个网络结构变得更加复杂。

3数据挖掘在4G通信网络优化中运用原则

3.1实现通信网络的智能性原则。移动通信网络是一项非常庞大与复杂的系统,为更好帮助4G移动通信网络的优化与使用,首先必须做到智能性使用原则。所谓智能性原则,是指技术人员利用好互联网计算机科技的力量,对社会使用4G网络过程中产生的数据进行有效合理的筛选,而非盲目对其进行筛选与分类工作。同时,在对其进行初步的筛选后,要对其进行详实的分析后在进行下一步骤的分析与筛选,不可盲目进行分析,应当遵循智能化的原则。3.2分布式处理原则。由于数据量大,故而对其进行全盘分析是不切实际的,数据挖掘工作应当秉持分布式处理原则。首先,为更高效地分析数据提高分析的准确率,其数据分析工作不能只挂载在一个网络服务器上,除了根据时间为服务器分类的原则以外,还可以根据地点的区分或使用人群的不同选择服务器。同时,分布式处理原则除了需要使用不同的服务器对其数据进行分析以外,还需要利用不同的方法对数据进行处理。除了前文中提及的方法以外,技术人员可对部分重要的数据进行多重方法的分析,以期获得更为准确的反馈更好进行优化调整。

44G环境下数据挖掘在移动通信网络中的应用对策

4.1帮助进行合理的站点选择。4G网络是移动电子设备使用的互联网技术,其使用仅依靠由移动通信的供应商设置的基站接入网络。而移动站点的运营成本相对较高,同一个站点可承载的用户数量也有限,因此如何建设站点成为我国各大移动通信供应商需要考量的重要问题。而通过数据挖掘的工作,能够对使用4G的用户数量、使用高峰时间、使用低峰时间进行合理的分析,更好给予移动通信供应商参考,帮助其进行站点的规划建设。同时,在站点的使用过程中必然会出现一定的维修检查工作,为更好帮助移动通信商,为使用4G用户提供更好的服务,通过对其数据的分析挖掘,移动通信商可选择站点的维护时间,减少用户的损失。4.2帮助进行合理的干扰分析。4G网络在使用的过程中容易接受到其他如电磁波、磁场等影响与干扰,而通过数据挖掘能够较好地帮助移动通信商定向分析干扰4G使用的干扰源,并以此为依据对其进行优化调整,以期向广大用户提供更为稳定高效的4G网络。同时,技术人员可以对其使用过程中的数据分析,找寻用户使用程度高的信息、数据,一定程度上调度其使用频率与开放的通道,保障在尽力排除干扰的前提下使得用户使用频率更高的信息得以较好使用。4.3帮助进行合理的掉话分析。在4G网络使用的过程中,掉话现象与干扰现象都给予用户非正常的使用体验。数据挖掘的工作不仅能够对信息的特点进行分析,还能够对错误的信息进行筛选分类。首先,移动供应商可根据错误的信息,找寻其网络传播过程中的不足并找寻错误的原因,根据错误的原因进行优化调整。其次,针对信息丢失的情况,移动供应商可在数据挖掘过程中找寻丢失的去向或丢失信息的部分。除了可将丢失的信息还原以外,对于部分难以找寻的信息,需要对其传播通道进行修复调整,帮助用户拥有流畅的4G网络使用体验。4.4帮助进行合理的切换分析。非4G移动网络的使用在市场上仍然有一定的占有率,而通过对数据的挖掘,可以帮助移动通信商进行切换分析。首先,通过数据的挖掘移动通信商可对用户进行判断,分析其主动进行数据切换的原因,进行对网络的调整优化。其次,移动通信商可以通过对用户非主动的网络切换原因进行分析,排查4G网络在使用过程中导致其波动的原因并对其进行优化工作,以期给予用户更好的使用体验。最后,4G网络并不是移动通信网络的最终形态,其仍然需要进一步的更新与优化,通过对目前现有信息数据的分析使用,做好未来网络切换的预备工作,更好优化其切换的过程与使用体验。4.5帮助进行合理的分布分析。目前我国4G网络的分步率非常高,我国95%以上的土地都能够流畅使用4G网络,但其分布使用网络覆盖的问题仍然需要移动网络供应商进一步的优化工作。通过对数据的挖掘与分析,能够较好地帮助移动通信商优化通信基站的布局,使得网络覆盖率更好提高,保障区域的使用网络顺畅。同时,部分4G网络使用频率较高的区域,经常发生网络拥堵、基站无法完全满足用户的使用要求的现象。而通过数据的挖掘工作,能够更好检测基站的承载力,以此对基站做扩大或再造的工作。同样,针对基站承载力溢出过多,4G网络使用用户较少的现象。移动通信商可适度调整其基站的使用情况,减少其服务器的使用数量,优化其服务质量。

5结束语

随着我国信息技术的不断发展以及4G技术的不断推广与应用,加上市场竞争的不断激烈化与人们生活水平的不断提高,促使人们对于网络的要求也越来越高,移动通信商只有进一步优化技术,遵循数据挖掘的选择,使用恰当合理的方法进行工作,才能做好4G网络的调整工作,给予人民群众更好的网络使用体验,更好向社会贡献自己的力量,提供更为优质的服务。

参考文献:

[1]邓波,黄同成,刘远军.基于4G移动网络的大数据与云计算技术应用分析及展望———以城市智能交通系统为例[J].信息与电脑,2015(23):28-30.

[2]本刊讯.中国移动设计院积极支撑中国移动4G规划及网络建设方案编制工作[J].中国工程咨询,2015(5):96.

[3]刘远飞,方超,刘博.4GTD-LTE移动互联网技术在监测监管数据传输中的研究[A].中国新闻技术工作者联合会“新闻科技论文”优秀论文集[C].2015.