挖掘技术论文十篇

时间:2023-04-11 07:33:46

挖掘技术论文

挖掘技术论文篇1

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

挖掘技术论文篇2

[摘 要] 本文从反倾销预警内涵入手,指出其核心所在,并在此基础上,较为详尽地论述了如何运用数据挖掘技术对无序的和表层的反倾销预警构成数据进行运算与推断,旨在为国家有关部门构建反倾销预警系统提供一种新思路。 【论文关键词】 反倾销;预警系统;数据挖掘 近20年来,经济全球化使世界各国、各地区之间经济相互依赖程度日益加深,贸易保护主义抬头,贸易纷争日益激烈,作为GATT/WTO法律体系重要组成部分的反倾销规则,正在为世贸组织各成员越来越频繁地使用。中国作为世界上最大的发展中国家和主要贸易大国,从1995年至今,己经连续12年成为遭受反倾销最多的国家,见表。 面对国外接踵而来的反倾销,建立出口预警机制,即利用数据挖掘技术将具体商品和市场进行分级分类,提出分级预警防范和应对措施,以引导企业有序出口,是应对来自国外反倾销的当务之急。 一、 反倾销预警 目前,国内对反倾销预警有两种理解。一种是以进口国为发起方,将“反倾销预警”理解为反对别国在本国倾销的预警;另一种是以出口国为发起方,将“反倾销预警”理解为对别国向本国发起的反倾销的预警。前后二者实施主体可能同一,但扮演的角色却不同。本文将站在出口国的角度给予研判。即我们认为,反倾销预警是指一国以出口国的身份,以WTO相关规则和出口国家相关法律、法规为依据,运用经济学原理、研究方法和信息技术手段,通过采集各国海关数据、政府或行业协会发展预测数据,跟踪各国各类贸易救济措施潜在信息,向本国政府、企业、行业协会和专业服务机构提供预警服务,包括国内产业产销量、产能变化、技术进步及生产企业生产经营状况变化信息,国内市场价格信息、本国出口到各国产品数量和价格走势、产品倾销幅度、产业损害程度等,通过对国内产品整体出口情况进行监控,及时发现和制止不正当出口竞争,为避免遭受国外反倾销等指控提供支撑。 基于上述分析,不难看出,反倾销预警的核心在于能否通过对重点、敏感产品的出口数量、价格以及国外同类产品生产经营情况等重要参数变化的监测,准确地研判出对进口方产业的影响,以及其受到实质性损害(威胁)程度或阻碍产业建立程度的预警信息。 二、数据挖掘技术 数据挖掘(Data mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。挖掘出的知识通常被表示为概念、规则、规律、模式、约束或可视化等形式,用以辅助决策过程或修正已有的知识体系。 1.数据挖掘的功能 数据挖掘的功能常分可成5类:关联分析、概括分析、分类分析、聚类分析、预测与评价。(1)关联分析,即利用关联规则进行数据挖掘。分析表面上不相关数据之间的内在联系,揭示各事件之间的依赖性和相关性,分析范围包括简单关联、因果关联等。(2)概括分析,即提取数据库中指定的数据集合的一般特性,找出普遍性规律。(3)分类分析,设置分类规则,把各个事务或实体按照性质和特征的不同进行归类训练,把数据层次化和规整化,从而建立数据的分类模型,对于没有分类的数据进行分类。(4)聚类分析,聚类是对记录分组,把相似的记录归在一个聚集里,是通过分析和归纳实体之间的特征差异,选出具有相同特征的实体聚合成为一个类,并用某种规则来描述该类的相同属性,形成一种聚类规则。(5)预测与评价,对历史数据进行综合分析和归纳,推理出数据分布的时效性和规律性,从而对未来事件发展的趋势和结果进行预测和评估,这种预测是需要时间来验证的。 2.数据挖掘的过程 数据挖掘一般由三个阶段组成:数据准备、数据挖掘、结果的表达和验证。数据准备是指先明确数据挖掘的对象和商业应用主题,再针对商业主题收集数据源,并对数据做整理和转换等技术处理,最后装进数据仓库。数据挖掘是创建正确的数据挖掘模型,并选择合适的挖掘算法,从数据集合中析取有价值的商业知识,例如商业规则、营销模式、带来最多利润的顾客群分布模型、顾客购买的商品之间的关联程度等等。结果的表达和验证是在原始数据经过挖掘算法处理之后,将产生一系列有价值的结果,必须用简单易懂的语言或图表把它表达出来,并集成到 电子商务中心,融合专家知识与领域规则,为商业活动提供决策支持,并在商业实践中来检验它。 3.数据挖掘的方法 数据挖掘的方法,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法可细分为:回归分析、判别分析、聚类分析、探索性分析以及模糊集、粗糙集、支持向量集等。机器学习可细分为:归纳学习方法、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法可细分为:前向神经网络、自组织神经网络等。其中,模糊和粗糙集方法已经被广泛地应用在各行业中了。如:用基于粗糙集——主成分分析方法进行企业创新能力评价,用模糊逻辑规则进行企业生产决策,用模糊算法进行供应链合作伙伴的选择,利用遗传算法实现客户关系的管理,等等。 三、数据挖掘技术在反倾销预警系统中的应用 在反倾销预警系统中的数据挖掘就是从大量的有关产业出口企业资料信息库以及Web的数据中,收集产品的出口数量、价格以及国外同类产品生产经营情况、产业政策等重要参数变化信息,然后借助各种分析方法,透过无序的、表层的信息挖出内在的知识和规律,系统就可以根据这些规律或用这些信息设计数学模型,对未发生行为做出结果分析和预测,并及时给相关企业,从而为企业的综合经营决策、市场策划提供依据。具体来说,就是根据WTO《反倾销协议》对倾销的认定条件规定,运用数据挖掘技术对无序的和表层的反倾销预警构成数据,进行运算与推断,研判出口价格、出口数量及增率是否正常,对进口国有无实质性损害或损害威胁,甚至阻碍其产业建立。因此,数据挖掘技术在反倾销预警系统中的应用具体反映在数据挖掘技术在出口产品价格动态分析预警系统、出口产品数量动态分析预警系统以及损害动态分析预警系统等三个预警系统中的应用。 1.出口产品价格动态分析预警系统 根据WTO《反倾销协议》对倾销的认定条件规定,产品以低于正常价值向另一国销售,即存在倾销产品。因此,出口产品价格动态分析预警系统主要功能是通过产品价格监控系统,动态跟踪出口产品价格,并根据正常价格,检测其波动幅度,进而预测产品出口价格是否正常。为此,其程序设计的基本思路是:根据出口产品的正常价值(成本+合理费用+合理利润)并结合进口国对该产品反倾销的历史数据确定出该产品正常区间值[a,b],即“绿色安全区域”。如果出口产品价格低于“绿色安全区域”上限a这一阀值,一旦出口数量增长超过一定量,随时将可能会被进口国厂商或政府提起反倾销诉讼。此时,系统会给出预警,并根据其差距给出不同信号。如处于[0.85a,a]区间,则给出“黄色”信号。该数值范围就是“黄色反倾销区域”;处于[0.65a,0.85a]区间,则给出“橙色”信号。该数值范围就是“橙色反倾销区域”;处于[0,0.65a]区间,则给出“红色”信号。该数值范围就是“红色反倾销区域”。无论何种预警信号出现,行业协会应对出口该产品的企业进行有关信息通报,以便企业作出合理的决策;当预警信号处于“橙色”以上,行业协会必须出面协调相关出口企业,对出口到该国产品进行一定的限制,否则出口企业将会招致被诉“倾销”,如图所示。如果出口产品价格高于“绿色安全区域”下限b这一阀值,预示着该产品出口价格相对过高,即意味着在某一国外市场上本国还有降价销售空间。 通过上述分析,不难看出,出口价格的确定十分关键。然而,出口产品价格的确定相当复杂,各个国家规定的确定方法也不相同。所以,这方面的数据构成应当严格根据本国和它国的相关规定,确定数据的考虑范围和内容。常通过收集大量国内外的同行业、相同产品的时点价格动态信息及综合性价格信息,建立起产品价格监控系统。即可以通过运用数据挖掘的概念描述,从出口反倾销数据信息系统(海关报关系统)中选定特定行业及其中某一产品,并运用分类分析法和聚类分析法从中析取该类产品单个企业出口时点价格动态信息及综合性价格信息,全国出口平均时点价格动态信息及综合性价格信息,进口国的时点价格动态信息及综合性价格信息,其他国家出口到该进口国的时点价格动态信息及综合性价格信息等。在对以上数据进行分类和聚类的基础上,确定出正常的价值,并运用偏差检测法计算产 品价格偏差度。 2.出口产品数量动态分析预警系统 根据WTO《反倾销协议》对倾销的认定条件规定,销售量在一段时间内猛增是裁定某类产品是否构成倾销的条件之一。因此,必须构建出口产品数量动态分析预警系统,用以动态跟踪出口产品数量及其变化,并根据反倾销历史数据研判其增幅是否正常。其工作原理是:通过数据挖掘技术中的概念描述,从出口反倾销数据信息系统(海关报关系统)中选定特定行业及其中某一产品,并运用分类分析法和聚类分析法从中析取该类产品出口地、出口的数量、在进口国所占的市场份额等相关的时点数据及综合性数据、进口国相同产品的国内生产量、国内产品销售量或市场份额及其他国家在该国同类产品的出口数量等相关的时点数据及综合性数据等信息到出口产品数量监控系统中。系统再定时调用相应模型,通过汇总、分类等方法对本国企业出口产品数量信息库中的出口到同一国家的商品数据进行动态分析、比较,并结合反倾销历史数据,按一定规律将本国出口到它国商品数量区分为红、黄、绿三个区域。其中:(1)“绿色安全区域”,表示出口产品数量及其变化处于正常值的范围,也意味着在某一国外市场上本国还有出口空间。(2)“红色反倾销区域”,则表示出口产品在进口国的出口销售量及市场占有率达到一般会被进口国厂商或政府提起反倾销诉讼的范围。一旦出口产品价格低于正常的价格,即随时会被外国政府反倾销。行业协会必须对相关出口企业出口该产品数量进行协调,对出口到该国产品的出口价格进行一定的限制,否则出口企业将会招致被诉“倾销”。(3)“黄色警示区域”,则处于“绿色安全区域”和“红色反倾销区域”之间,表示产品出口量或增量已超过正常值的范围,可能会导致国外政府反倾销。此时,行业协会必须对出口该产品的企业进行有关信息通报,以便企业作出合理的决策。 3.损害动态分析预警系统 根据世贸组织的规定,确定实质性损害威胁有以下几个条件:(1)倾销进口产品以极大的增长速度进入进口国市场;(2)出口商有能力扩大生产、增加出口,或者出口商有大量库存产品可以出口;(3)倾销产品的出口价格是否会打击国内产品价格;(4)进口国尚有新的市场可以吸收扩大的倾销出口产品。所以,确定实质损害应考虑出口产品的数量对进口国相同产品价格和产品生产商造成的影响,它主要依赖于出口国产品倾销的输入量、倾销输入对价格的影响、对进口国同种产品国内生产价格的影响,但在规则中使用了模糊概念、倾销输入量有相当程度增加对进口国国内价格有相当程度压制等,使得损害的确定极具主观性。 由于损害的确定极具主观性,预警系统的设置应当经过系统全面的调查分析,设计出了一个完整的产业损害指标体系,可以用层次分析法同灰色评判模型,或者同模糊理论相结合,对产业损害程度进行综合考虑。同时根据行业和企业的特点选取不同的损害评价指标,确定出它们的权重。并运用经济学中的弹性概念确定倾销对国内产业的影响、运用单层次模糊综合评判方法进行损害分析,以提供预警依据。 四、结论 加入WTO后,我国出口产品越来越多地遭到反倾销调查和起诉。这些都是企业在决策时不得不面对的情况。在严峻的形势下,我们应当在构筑由政府、中介组织和企业共同组成的反倾销应诉体系的基础上, 立足于数据挖掘这一数据库和信息决策领域的理论前沿,通过构造更为先进的数据采集和处理模型,从多种信息源中提取出高质量的、及时的信息,建立一个完善、科学、准确的反倾销预警系统,以应对新时期市场对企业的挑战,为企业的战略决策提供有力的、科学的依据,保证企业的可持续和谐发展。

挖掘技术论文篇3

关键词:挖掘机;维修;保养

随着科技的进步,现代挖掘机一般都采用了机电液一体化控制模式,我们在排除一些故障时,解决的多是发动机、液压泵、分配阀、外部负荷的匹配问题。一般在挖掘机作业中,这几方面不能匹配,经常会表现为:发动机转速下降,工作速度变慢,挖掘无力以及一些常见问题。

1发动机转速下降

首先要测试发动机本身输出功率,如果发动机输出功率低于额定功率,则产生故障的原因可能是燃油品质差、燃油压力低、气门间隙不对、发动机的某缸不工作、喷油定时有错、燃油量的调定值不对、进气系统漏气、制动器及其操纵杆有毛病和涡轮增压器积炭。如果发动机输出动力正常,就需要查看是否因为液压泵的流量和发动机的输出功率不匹配。

液压挖掘机在作业中速度与负载是成反比的,就是流量和泵的输出压力乘积是一个不变量,泵的输出功率恒定或近似恒定。如果泵控制系统出现了故障,就不能实现发动机、泵及阀在不同工况区域负荷优化匹配状态,挖掘机从而将不能正常工作。此类故障要先从电器系统入手,再检查液压系统,最后检查机械传动系统。

2工作速度变慢

挖掘机工作速度变慢主要原因是整机各部磨损造成发动机功率下降与液压系统内泄。挖掘机的液压泵为柱塞变量泵,工作一定时间后,泵内部液压元件(缸体、柱塞、配流盘、九孔板、龟背等)不可避免的产生过度磨损,会造成内漏,各参数据不协调,从而导致流量不足油温过高,工作速度缓慢。这时就需要整机大修,对磨损超限的零部件进行修复更换。

但若不是工作时间很长的挖掘机突然变慢,就需要检查以下几方面。先查电路保险丝是否断路或短路,再查先导压力是否正常,再看看伺服控制阀-伺服活塞是否卡死以及分配器合流是否故障等,最后将液压泵拆卸进行数据测量,确认挖机问题所在。

3挖掘机无力

挖掘无力是挖掘机典型故障之一。对于挖掘无力可分为两种情况:一种为挖掘无力,发动机不憋车,感觉负荷很轻;第二种为挖掘无力,当动臂或斗杆伸到底时,发动机严重憋车,甚至熄火。

①挖掘无力但发动机不憋车。挖掘力的大小由主泵输出压力决定,发动机是否憋车取决于油泵吸收转矩与发动机输出转矩间的关系。发动机不憋车说明油泵吸收转矩较小,发动机负荷轻。如果挖掘机的工作速度没有明显异常,则应重点检查主泵的最大输出压力即系统溢流压力。如果溢流压力测量值低于规定值,表明该机构液压回路的过载溢流阀设定值不正确,导致该机构过早溢流,工作无力。则可以通过转动调整螺丝来调整机器。②挖掘无力,发动机憋车。发动机憋车表明油泵的吸收转矩大于发动机输出转矩,致使发动机超载。这种故障应首先检查发动机速度传感系统是否正常,检查方法与前文所述发动机检查方法类似。经过以上细致的检查与排除故障,发动机速度传感系统恢复正常功能,发动机憋车现象消失,挖掘力就会恢复正常。

4挖掘作业过程中的常见故障

挖掘机在施工作业中经常出现的一些普遍的故障,如:挖机行走跑偏,原因可能为行走分配油封(又称中心回转接头油封)损坏;两个液压泵流量大小不一;一边行走马达有问题。液压缸快速下泄则可能为安全溢流阀封闭不严,或缸油封严重损坏等等。多智网校诚招全国各地市独家线下商,共同开发网上教育市场。多智教育()!

5挖掘机的日常保养

为了防止挖掘机的故障发生,在日常使用过程中需要十分注意对挖掘机的保养。日常保养包括检查、清洗或更换空气滤芯;清洗冷却系统内部;检查和拧紧履带板螺栓;检查和调节履带反张紧度;检查进气加热器;更换斗齿;调节铲斗间隙;检查前窗清洗液液面;检查、调节空调;清洗驾驶室内地板;更换破碎器滤芯(选配件)。清洗冷却系统内部时,待发动机充分冷却后,缓慢拧松注水口盖,释放水箱内部压力,然后才能放水;不要在发动机工作时进行清洗工作,高速旋转的风扇会造成危险;当清洁或更换冷却液时,应将机器停放在水平地面上。

挖掘技术论文篇4

[关键词]岩土工程;数据挖掘;知识发现;研究

中图分类号:TP223 文献标识码:A 文章编号:1009-914X(2014)35-0247-01

伴随着计算机技术的不断提升,岩土工程的数据处理也逐渐向信息化的方向发展。就目前的数据库系统来看,已经拥有了高效地数据录入、修改、查询、统计等等功能,但还缺少对未来数据发展趋势的预测,缺乏挖掘数据背后的知识手段,以便岩土工程的后期数据转化提供资源。实际的岩土工程施工中因存在很多的不确定性,好很多的工程设计取决于工程师的经验与判断,而为了提高工程设计与施工的效率与质量,就必须进行数据挖掘与知识发现措施,对岩土工程各个领域进行分析,扩充知识积累,构建良好的岩土工程信息化设计、施工决策平台。

一、 岩土工程中的数据挖掘技术

1.1 常用的数据挖掘技术方法

通常数据挖掘的主要对象就是结构化的关系数据库或者半结构化的网络数据,数据挖掘的任务则是特征规则、关联规则、辨识规则等规则的挖掘,根据不同的任务来分,数据挖掘主要有聚类法、决策树与规则推理法、神经网络法、遗传算法,还有关联规则算法以及粗糙集方法等等的算法。就这些方法来看,都有其一定的优越性,因此在岩土工程中要根据不同的因素来进行数据挖掘方法的选择。

1.2 数据挖掘的一般步骤

岩土工程的数据挖掘原理就是通过对岩土工程的一些历史数据进行分类与聚类、推理记忆或者归纳、拟合等,并找出这些数据、与事实之间存在的潜在知识的过程。实现数据挖掘的一般步骤主要包括以下几个。首先,需要定义问题,先确定好数据挖掘的目的是解决岩土工程实际设计与施工、预测事实间存在的规律、关系与知识问题,并提出这些问题的阶段。然后需要建立数据库并进行有效的管理,建立数据库就是以便对数据进行分期、分类以及统一管理。其次,对数据的预处理主要包括归纳、孤立点分析以及数据变幻三个方面的数据整理,也是整个数据挖掘过程中最为关键的步骤之一。实际的岩土工程中的数据肯定是不完整的、不一致的,因此这个过程需要特别的注意。然后就是进行模型的搜索与管理,利用已经选择好的挖掘工具与技术,让系统自动进行数据处理。另外,要将数据挖掘发现的知识与已有的基础理论相比较、全面进行分析、推理、检验与验证,确保其合理性并进行评价,最后才能进行知识运用。

二、 实际中的岩土工程数据挖掘应用

前面提到,岩土工程伴随着计算机技术的不断进步与发展,背后的许多重要信息也需要挖掘出来加以利用。传统的关系数据库能够满足日常的数据事物处理,但不能准确的预测未来的发展,因此,就需要取长补短,通过数据挖掘技术对地质因素进行内涵处理,彻底的改变传统的建模假设。

1、 数据挖掘在岩土工程的规律统计与关联规则中的应用。

岩土工程的勘察组要大量的工民建、市政以及桥梁、铁路等各阶段的各类测试与室内试验数据的基础。勘察工作完成后会提供给一些勘察报告,而这些勘察数据中有大量的数据没有被利用起来,而这些勘察报告中的数据其实还是存在很大的价值的,就经验取值来按,这种数据包含了不少主观的因素。对此,有一些研究者也做了很多的尝试,在基于土工试验中产生的数据上提出了应用关联规则挖掘数据预处理的技术,还有利用判定书归纳法等等方法试图发掘岩土工程报告数据潜在价值的研究。当前我国岩土工程数据挖掘与知识发现技术主要要求就是可视化、智能化发展要求,对于此,基于GIS的地震砂土液化可视化评价系统应运而生,从设计准则与系统结构来说,该系统都是可以实现这些要求的技术。此外,在工程设计中,设计方案通常还要受很多的直接或者间接因素的影响,再加上这些因素的不确定性与复杂关联性,使得数据更加难以描述与挖掘。同样,在岩土工程设计与关联规则中,也有不少的数据挖掘研究。例如,新版的《岩土勘察规范》中就提到,是通过不同于传统的随机变量理论的随机场理论,更好地去模拟土的空间变异性与相关性。在完善测定分析方法的同时,加大相关数据挖掘工作,通过适当的方法去寻找工程的风险与变形数据特征,给判别与评价工程提供依据。

2、 数据挖掘在岩土工程中的监测与检测应用。

当数据挖掘技术运用在岩土工程的边坡处理中时,因要受边坡稳定性的地质因素与工程因素的综合影响,其随机性、模糊性与可变性等不确定性影响是变化的,这些因素之间又存在复杂的非线性关系,因此数据挖掘就可以用分析边坡的稳定性与变形的预测。通过运用基于粗糙集理论数据挖掘技术,来分析边坡稳定性数据,能够实现从复杂的参数中提取有用决策规则,从而达到准确分析边批稳定性的目的。另外,在环境水文方面,当前也有相关研究是基于水文数据库的全局性多因素数据挖掘,但其研究现状还不成熟,因此,需要在此基础上,进一步对水文序列的相似性、周期性以及序列模式进行研究。总之,数据挖掘技术是融合人工智能、信息融合与数据统计等几方面的研究成功,但数据挖掘的目标必须是可靠的结果,因此要克服其他的辅助技术缺点,尽量避开这些弊端与缺陷。严格要求挖掘过程的数据样本与数据质量,保证高质高效的数据与处理技术,确保挖掘结果的准确性与可靠性、实用性。

结语:事实上,岩土工程中的数据挖掘技术是综合多年来的数理统计与人工智能与知识领域的研究成果的,数据挖掘不仅是一个集成数据库、人工智能、信息融合、可视化的计算机技术,也是挖掘岩土工程背后隐藏知识的一种重要手段。对于数据挖掘的未来发展,仍然需要我们不断的研究与探索,为岩土工程研究提供更准确、可靠的依据。

参考文献

[1]薛祥,孙宏伟,沈滨,于玮,张权益. 岩土工程中的数据挖掘和知识发现探讨[J]. 工程勘察,2007,10:11-16+28.

[2]李德仁,王树良,史文中,王新洲. 论空间数据挖掘和知识发现[J]. 武汉大学学报(信息科学版),2001,06:491-499.

[3]梅时春,李人厚,罗印升. 过程监控中数据挖掘与知识发现理论及应用[J]. 微计算机信息,2002,02:1-3.

挖掘技术论文篇5

关键词:网络舆情;监测引导;Web数据挖掘

中图分类号:C93 文献标志码:A 文章编号:1673—291X(2012)28—0227—03

一、时代背景

互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地,网上热点层出不穷,网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态,国内关于舆情的研究起步较晚,目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工,以往“剪报”式低价值粗加工的信息服务,虽可按主题范围搜集,但提供的结果仅局限于单一的信息内容,传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。

二、网络舆情监测引导的技术支撑

在浩瀚的网络中,政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而Web数据挖掘能快速、准确的获得有价值的网络信息,利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。Web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从Web获取并分析相关舆情,达到监测、辅助决策和引导的目的,为网络舆情预警提供了极大的帮助。

(一)Web数据挖掘

Web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出新的理论与方法,演变成网络数据挖掘技术。Web数据挖掘是指对目标样本进行分析提取特征,以此为依据从Web文档和Web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。

根据挖掘对象的不同,可将Web数据挖掘技术分为三大类[2]:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴含于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。结构挖掘的重点在于链接信息。Web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,利用这种方法,可以获知Web使用者的行为偏好,从而预测其行为。

(二)Web挖掘过程

Web数据挖掘依然遵循数据挖掘的研究思路,挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析(如图1所示)[3]。

1.数据收集。网络信息的收集是网络舆情监测的源头,其广度和深度决定了监测效果。对于明确主题的舆情信息采集,可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整,所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息,可将网络空间按域名、IP地址或国别域名划分为独立子空间详细搜索;或以信息类型为划分,如HTML格式、XML格式、FTP文件、Word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示,以便短时间内检索到精确信息。

2.数据预处理。因原始Web访问数据的文件格式是半结构化的,包含不完整、冗余、错误的数据,需进行提取、分解、合并,转化为适合挖掘的格式,保存到关系型数据库表或数据仓库中,等待进一步处理。数据预处理可改进数据质量,提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理,如格式转换、数据清理、数据统计,对于新闻评论,需过滤无关信息,保存新闻标题、出处、时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛,需记录帖子的标题、发言人、时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。

3.模式发现。利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访问路径等隐藏的用户访问模式。若在挖掘用户浏览模式过程中发现选择的数据或属性有偏差,或挖掘技术达不到预期结果,需根据反馈结果不断重复以上过程,通过数据挖掘,创建和更新用户模式库。模式发现可应用许多相关领域的方法,但需针对Web数据挖掘的特点做出相应的改进。

挖掘技术论文篇6

关键词:Web数据挖掘,边防情报,应用模式

 

随着科学技术的突飞猛进,社会信息化的快速发展, 以信息技术为主要标志的高新技术革命已经引起了社会各个领域的深刻变革,网络已经成为社会生活不可分割的一部分。每天有数以亿计的网民在互联网上浏览、信息,互联网已经成为信息时代最为重要的信息集散地。对于边防情报部门而言,研究如何通过互联网和公安网快速高效地进行情报收集,使各项工作都围绕收集、运用情报而展开,已经成为当务之急。Web数据挖掘技术的兴起,为边防情报部门开展工作提供了高效的工具与手段。

一、Web数据挖掘技术

Web数据挖掘技术是由传统数据库领域的数据挖掘技术演变而来。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程;它是从数据仓库中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。数据挖掘出现于20世纪80年代,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理,发掘数据间的相互关系,完成从业务数据到决策信息的转换。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策者提供决策支持。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出了新的理论与方法,演变成为Web数据挖掘技术。Web数据挖掘是指从与WWW有关的资源和行为中抽取人们感兴趣的、有用的模式和隐含信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。Web数据挖掘已经成为对互联网信息进行深度分析、开发与利用的重要手段。

二、Web数据挖掘的分类

(一)Web内容挖掘

Web内容挖掘是指从互联网上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。网上信息形式多以文本信息的形式存在。文本可以被看作是一种顺序数据,目前有许多适合于顺序数据的挖掘方法。Web文本信息挖掘的主要任务一般限定在文本特征的表示、文本的总结,以及文本的分类和聚类等方面。互联网现有大量多媒体信息。对该类信息进行分析挖掘,找出合适的描述模式,阐述并理解其中的意义,可提高该类信息的识别度及检索效率,也是Web多媒体挖掘的目标。论文大全。目前此方面应用的技术手段主要是语音信息的理解及识别、图形图像信息的理解及识别,以及信息检索等。

(二) Web结构挖掘

Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴涵于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。对Web页的链接结构进行分类,可以识别判断页面与文档间的各种属性关系。由于Web页的内外部存在具有各种属性关系的结构信息,通过研究Web结构信息,可得到相关主题、相关分类的页面集合,生成关于某个Web站点的结构和页面结构的概括信息。因此,结构挖掘的重点在于链接信息。

(三) Web日志挖掘

Web日志挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,并尽可能预测用户的行为。通过对用户所访问页面、文档等的技术分析,Web日志挖掘可以找出相关主题间、相关内容间的联系规律。访问分析又称使用分析,主要使用用户基本信息如IP、ID、URL、日期、时间等进行处理。由于Web服务器的Log日志存在完整的结构,当用户访问Web站点时,相关的页面、文档、链接等信息在日志中都做了相应的记录。Web日志挖掘不仅要找出用户经常访问的URL路径,而且也要找出用户有可能要访问的相关站点的链接。利用这种方法,可以获知互联网使用者的行为偏好。

三、Web数据挖掘的主要方法

(一)统计分析方法

统计分析(statistical)方法是通过对总体中的样本数据进行分析,从而描述和推断能够揭示总体中的内部规律的信息和知识的方法。为了适应复杂信息的挖掘需求,往往依赖有明确目标和任务的概率模型。数据挖掘的统计模型要适合于所要提取的对象。利用统计分析技术可以对我们感兴趣的内容进行蕴含信息的挖掘。如对互联网日志进行统计可以获得有关站点使用的基本信息,包括页面访问次数、日平均访问人数、最受用户欢迎的页面等。除此以外,还可以进行错误分析,如非法用户登录等。这些统计数据都是基于用户浏览页面的时间、用户的浏览路径和路径长度等信息。这些统计数据对于提高系统的性能、安全性以及优化站点结构大有帮助。目前已有许多互联网流量分析工具实现了这些基本的统计功能。

(二)关联分析方法

关联分析(associationanalysis)用于发现关联规则,所谓关联规则是指在大量的数据中所隐含的项集之间的关系以及项集的频繁模式。用户在浏览网页时,经常会在同一次访问中浏览一些无顺序关系的页面集合,挖掘发现的这些页面之间内在的联系,就是就表现为它们之间存在一定的关联。如果关联规则中的页面之间没有超链接,则应该引起我们的特别关注。通常使用可信度、支持度、期望可信度和作用度这四个参数来描述关联规则。

(三)分类方法

分类(classification)是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类不同于聚类,聚类无须事先制定标准,而能从信息本身出发,利用算法自动分类;而分类的准则是事先定好的。在Web数据挖掘中,分类主要是将用户配置文件归属到既定的用户类别,网页根据内容的属性分类等。分类技术要求抽取关键属性描述已知的信息,可以通过指导性归纳学习算法进行分类,主要包括决策树分类法、贝叶斯分类法、最近邻分类法等。

(四)聚类分析方法

聚类(clustering)就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析能够将一批数据按照它们在性质上的亲密程度,在没有先验知识的情况下自动进行分类,每一类都是大量具有相似性个体的集合,不同类之间具有明显的区别。聚类分析是一种探索性分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从信息本身出发,自动进行分类。例如在Web日志挖掘中,聚类分析主要集中于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类;页面聚类则是将内容相关的页面归类,搜索引擎可以利用这些信息为某个查询提供用户感兴趣的相关超链接。

四、Web数据挖掘在边防情报工作中的应用模式

(一)Web数据挖掘在建立公安网搜索引擎中的应用

目前,边防情报部门所需的公开信息大部分来源于互联网和公安网,情报人员通过使用搜索引擎来快速查询需要的信息,然而公安网的搜索引擎存在较大局限性,搜索出来的结果存在大量冗余信息,不能满足情报人员的需求。因此,在搜索引擎中通过借鉴Web数据挖掘技术可以有效地提高查准率和查全率,从而给情报人员提供较有准确的信息。具体应用方法如下:

1.根据公安网的页面内容,自动形成摘要

目前,使用公安网搜索引擎进行检索,检索的结果文档是以简单摘要形式出现的,它表现为机械地提取网页内容取前几句为摘要,这种仅通过位置进行自动摘要是很难真正反映出网页中的信息内容。论文大全。在文本挖掘中的文本抽取技术是指从文档中抽取出关键信息,然后以简洁的形式对文档的信息进行摘要或描述,即文本抽取技术是根据Web文档本身的内容,从Web页中提炼出重要信息形成文档摘要,而不是根据位置来进行文本内容的概括,因此它更能够反映出Web文档中的真正信息。论文大全。这样,情报人员通过浏览关键词就可以了解网页的大致内容,从而决定是否使用该信息。

2.根据检索结果,自动进行文档聚类

文本聚类是文本分类的逆向过程,是指将文档集中的文档分为更小的簇,要求同一簇内文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。情报人员在使用搜索引擎时,会得到大量的返回信息组成的线性表,而其中很大一部分是与其查询请求不相关的,于是通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,并远离那些不相关的文档。再将处理以后的信息以超链接结构组织的层次方式可视化地提供给情报人员,从而大大减短浏览时间。

(二)Web数据挖掘在建立公安网站中的应用

公安网网站是公安网信息的容纳处,我们可以利用Web数据挖掘技术有效地组织网站信息,建立一个资源优化的网站,也就是说通过对网站内容的数据挖掘,主要是对文本内容的挖掘,如采用自动归类技术实现网站信息的层次性组织;以及结合对用户访问日志记录信息的挖掘,把握用户的兴趣,开展网站信息推送服务。

1.采用自动归类技术,实现公安网网站信息层次化

一般而言,网站提供给访问者的信息和服务应该是按优先次序进行排列,网站维护人员应该把重要的信息放在醒目的位置,因此在网站维护时,通过对网站内容挖掘和Web日志挖掘,可以有效地组织网站信息。例如:采用自动归类技术实现网站信息层次化;分析访问者的访问行为,可为用户提供智能化、个性化服务。还可根据访问者的访问兴趣、访问频度、访问时间,动态地调整页面结构。

2.采用日志挖掘技术,实现公安网网站信息推送服务

网站可以根据访问者的浏览情况,发现访问者的兴趣,定期为注册用户提供相关信息,并且调整网站中网页的链接结构和内容,为访问者提供个人定制服务。具体步骤为:首先将日志文件中的数据经过预处理,形成原始数据库;然后获取用户的访问模式,放入用户访问模式数据库;再通过数据挖掘和模式分析形成知识数据库,Web服务器自动更新知识数据库,采用动态主页设计方法,根据用户的知识信息,提供相应的个性化主页。在数据预处理过程中会话识别是重要的一步,它取决于用户访问模式的有效性和准确性。为提高准确性,可采用Cookie法进行会话识别。在呈现个性化主页时,利用用户的IP地址和Cookie值查询知识数据库,发现用户频繁访问的路径,并自动形成相应链接,根据相似用户群和相关Web页推荐给用户。由于是经过挖掘和分析后所产生的动态主页,相对于一般的主页,其针对性更强,更受用户的欢迎。

参考文献:

[1]叶鹰.情报学基础教程[M].科学出版社,2006

[2]栗湘等.Web挖掘应用研究[J]情报理论与实践,2005,(6)

[3]曼丽春等.Web数据挖掘研究与探讨[J].现在电子技术,2006,(8)

[4]徐险峰.基于Web的网络数据挖掘技术[J].情报杂志,2005,(3)

挖掘技术论文篇7

论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。wWW.133229.Com从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9

[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息系统[j].电力信息化,2007,s1

挖掘技术论文篇8

关键词:马尔科夫过程模型;数据挖掘;技战术分析

中图分类号:G80-32文献标识码:A文章编号:1007-3612(2008)05-0712-04

数据挖掘(Data Mining简称DM)是用算法来抽取信息和模式,它是知识发现(Knowledge Discovery in Databases,简称KDD)过程的一个步骤[1]。一般认为数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[1]。

长期的研究与实践已经总结出多种数据挖掘方法。

关联模式挖掘(Association Rule Mining)就是从给定的数据集中发现频繁出现的项集模式知识。关联分析已经广泛应用于市场营销、事务分析等应用领域。最著名的关联规则挖掘算法是由Agrawal等人于1944年提出的Apriori算法[2]。Apriori算法的核心是:用前一次扫描数据库的结果产生本次扫描的候选项目集,从而提高搜索效率。在此基础上一些学者先后提出了许多关联规则的挖掘算法,但其主要工作集中在如何提高项集的生成效率和降低计算代价上[3]。

还有许多数据挖掘技术,如分类与预测、聚类分析、异类分析、演化分析、回归分析等等,这里不再一一介绍。本文提出一种基于马尔科夫过程的数据挖掘方法,并结合体育比赛技战术分析中制胜战术挖掘为例,介绍该方法的具体应用。

1基于马尔科夫过程的系统分析模型

以上算法并没有讨论状态可靠性的变化情况。从实际系统控制角度,状态转移是可以调控的因素,而状态可靠性相对稳定,所以这里仅给出转移概率变化的系统可靠性分析的挖掘算法。同理不难给出基于状态可靠性的挖掘算法。

3算法应用

数据挖掘技术在商品零售、银行、保险等行业得到广泛地应用,用于体育比赛中技战术分析并不多见。下面以乒乓球为例,介绍算法2.1在乒乓球比赛临场技战术分析中的应用。

3.1乒乓球比赛技战术数据采集根据乒乓球比赛临场技战术分析和算法2.1的要求,需要对比赛中每一个技术动作的执行过程进行记录。由于比赛中运动员的技战术动作变化较多,并且各种动作在瞬间完成,所以纪录比赛的过程具有挑战性,为此专门设计了乒乓球比赛脚本描述语言(Table Tennis Language简称TTL)和脚本数据库来完成纪录工作。

3.1.1乒乓球技战术描述TTL语言首先把运动员的技术动作分解成击球方式、击球基本动作、击球效果、击球路线四个方面,并对其进行编码,这些编码构成乒乓球技战术描述语言的基本词汇。下面是单词表的部分单词。

表1中的第3列“动作编码”是描述语言的基本词汇,第4列是适合英语习惯的编码。开发者可以二选一,或一起使用。

对乒乓球比赛中的常见技战术进行分类和编码,这些技战术编码构成了脚本描述语言的基本句型。下面是部分技战术编码。

3.1.2乒乓球技战术采集技术在实际比赛中可以分别利用脚本描述语言的单词与句型编码进行技战术信息的采集。下面介绍基于技术动作编码的采集方法。

基于技术动作编码的数据采集技术是指,利用技术动作编码规则,对比赛中双方运动实际运用的技术动作,逐一加以描述并输入到计算机中。使用方法案例如下:

图1脚本和对应的输入码上述脚本纪录存放在技战术数据的数据库中,如图2所示。

图2部分技战术脚本数据3.2乒乓球比赛技战术分析乒乓球比赛中每一次比分的形成过程都是由若干技术动作构成,不同的技术动作的组合形成各种战术套路。在比赛中,技战术的制定与对手采用的战术有关,所以一个优秀运动员在比赛过程中要制定多种技战术套路,这些套路在比赛中交替采用,形成各种战术变化。比赛的制胜与技术动作的成功率(状态可靠性)和技术动作转换,即战术的成功率(状态转移概率)有关。从统计学角度,高水平运动员的技术动作成功率呈现一种相对的稳定性,而战术的调整是比赛制胜的关键,所以对战术分析尤为重要。

4结论

本文对基于马尔科夫过程的数据挖掘方法进行了研究和讨论,其主要贡献如下:1) 从理论上证明了基于马尔科夫过程的系统关键因素挖掘方法的正确性,给出了系统可靠性灵敏度分析中转移概率增量的设定方法,为进一步挖掘关键因素奠定了基础。2) 提出了基于马尔科夫过程的数据挖掘算法,并对算法的执行时间和空间进行了分析。3) 结合乒乓球比赛中制胜因素分析问题,给出了挖掘算法的应用。经过分析得出“高水平乒乓球比赛中,控制到相持、发球到接发球和控制到进攻”是比赛制胜关键的结论,这一结论与实际情况吻合。

本文提出的数据挖掘方法不但可以用于乒乓球比赛的技战术分析,还可以用于其他球类比赛的技战术分析,比如排球、羽毛球、网球等等,只要系统行为满足马尔科夫过程条件既可。体育比赛技战术分析中应用数据挖掘技术还是一种新的尝试,我们已经开发出乒乓球比赛临场技战术分析系统。

参考文献:

[1] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, Knowledge discovery and data mining: Towards a unifying framework. Proceedings of the International Conference on Knowledge Discovery and Data Mining, pages,1996:82-88.

[2] Agrawal R,Srikant R. Fast algorithms for mining association rules[A].Proceedings of the 20th International Conference on Very Large Databases[C].Santiago:Morgan Kaufmann,1994:487-499.

[3] Agrawal R,Srikant R. Mining sequential patterns. In Proc, 1995 Int,Conf.Data Engineering (ICDE'95), pages 3-14,Taipei,Taiwan,Mar,1995.

挖掘技术论文篇9

关键词:数据挖掘技术;CRM;应用

前言

改革开放以来,我国不断进行市场经济体制改革,从计划经济体制向市场经济体制转型,带动了我国市场经济的蓬勃发展,大量的企业和工厂上市,产品及商品日益丰富,出现同种商品可以有多种厂家选择的局势。企业在市场中的竞争面临重大的挑战。企业本文阐述了数据挖掘的任务及功能,介绍了CRM的概念、内涵及体系结构,从挖掘潜在客户、获取新客户、提升现有客户价值以及留住可能流失的客户四个方面论述了数据挖掘技术在CRM中的应用,进而从确定与分析目标、数据选择与准备、模型构造以及模型评估四个方面分析了数据挖掘在CRM的具体实施,为数据挖掘技术在CRM中的应用提供科学的有效指导。现综述如下。

一、数据挖掘概念、任务及功能

1.概念

数据挖掘技术(Data mining techniques),又称为资料探勘技术或数据采矿技术,是数据库知识发现(Knowledge-Discovery in Databases,KDD)的构成步骤[1]。一般是指利用计算机科学技术,依靠过去的经验法则,通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等众多方法从大量的模糊、随机的实际应用数据中自动搜索隐藏于其中有着特殊关系性且属于关联规则学习的信息的过程[2]。

2.任务

数据挖掘任务主要有两个:描述和预测[3]。描述性数据挖掘技术用来描述数据库中模糊、随机或不完全数据的一般特性;而预测性数据挖掘技术用来对当前所描述的实际应用数据库中的数据的进行推断,以进行预测。

3.功能

数据挖掘技术能够根据用户和应用的不同来进行调整,其功能主要有:首先,它能够对概念进行一般描述(描述对象的共有特征)和差别描述(描述不同对象的差别特征);其次,它能够进行描述对象的关联性分析、通过关联性分析,挖掘对象之间的关联性规则[4];其三,它能够通过对数据库的描述、关联分析,确定规则函数,进而对未知数据进行分类和预测;其四,它能够产生类标记,依据不同的规则对数据进行聚类或分组;最后,它能够对特别的数据和模型进行单独分析。

二、CRM概念、内涵及体系结构

1.概念

客户关系管理(customerrelationshipmanagement,CRM)是指企业通过互联网、数据挖掘、商务智能、电子商务、无线设备等现代化IT信息技术等工具或手段来协调企业与顾客间在销售、营销和服务上的交互,不断提升其管理机制和服务方式,挖掘潜在客户,获取新客户、提升现有客户价值以及留住可能流失的客户,从而提高客户收益率,扩大市场份额,提高市场竞争力的管理过程[5]。

2.内涵

客户关系管理CRM是一种管理理念,是一种信息行业用语,是一种新型管理机制,是一种创新的管理理念,也是一种管理软件和技术。客户关系管理CRM的核心是客户价值管理,通过对客户的资料进行分析、整理以及整合,来提高客户量。其中价值管理体现在通过协调与顾客间在销售、营销和服务上的交互,创新管理模式和运行模式,保持客户价值以及提升客户价值[6]。

客户关系管理CRM的主要内容包括:一方面,针对客户关系,首先体现在对客户关系的认识、选择以及关系建立方面;其次,对已建立的客户关系的维持方面。再次,针对有可能流失的客户关系,如何进行关系恢复以及挽回方面。另一方面,针对可采用的现代化IT信息技术等工具或手段的建设方面,如互联网、软件应用、数据库、资料分析、电子商务以及移动设备客户端等。

3.体系结构

客户关系管理CRM的体系结构主要有操作型CRM、分析型CRM以及协作型CRM[7]。操作型CRM促使企业完成市场、销售到服务的业务流程,并且采集客户数据。分析型CRM对市场、销售到服务的业务流程中的客户数据进行整理和分析。协作型CRM将多种沟通渠道获取的客户信息进行整合,确保沟通渠道的畅通。

三、数据挖掘技术在CRM中的应用

1.挖掘潜在客户

通过数据挖掘技术,按照对企业有意义的潜在客户的标准或原则,对大量模糊、不确定的客户的个性特征(年龄、性别)、消费能力以及购买记录等可得数据进行针对性分析,确定出对企业有意义的潜在客户,作为企业客户关系管理的实施对象。

2.获取新客户

针对对企业有意义的潜在客户进行分析和预测,对不同类型的客户采取不同的营销策略,并且及时根据客户对于营销的反馈情况进行调整,说服潜在的客户使用企业的产品或者服务,发展为企业有意义的确定客户。

3.提升现有客户价值

提升现有客户价值主要是指现有客户获取更过更好的产品或服务的同时,企业获取更高的销售额。通过数据挖掘技术的“交叉销售”和“一对一营销”[8],一方面,“交叉销售”能够分析出最受客户欢迎的产品或服务的最佳配比,从而增加与客户的交易次数。另一方面,“一对一营销”则可以通过专业、具有特色的产品或服务模式保证与客户的长期合作关系以及最大数量的保证每次交易的利润。

4.留住可能流失的客户

如何留住可能流失的客户,应该要对客户进行甄别、预测和分类,挖掘出优质客户并分组,对于可能流失优质客户的个性特征(年龄、性别)、消费能力以及购买记录等做出描述,采用数据挖掘技术中的关联分析等方法分析优质客户可能流失的原因,尤其要确定优质客户可能流失的原因,及时地针对企业的管理模式或经营理念做出调整。

四、数据挖掘在CRM的具体实施

1.确定与分析目标

数据挖掘在CRM的具体实施,首先要确定与分析目标,对于企业而言,也就是说要确定要达成什么样的商业目标,考虑要达成商业目标的具体参考标准或准则,如销售额度、市场份额以及客户数量等等数据。

2.数据选择与准备

对于数据的选择和准备,主要针对数据的来源、数据库的建立、是否能够使用以及有参考的数据等等进行选择,之后,对于选择的数据库需要进行必要的预处理和转换,以便后期可以通过数据挖掘技术进行分析、预测和整合。

3.模型构造

模型构造是数据挖掘技术在CRM的具体实施中的重要步骤。涉及到的具体工作主要有根据预先确定的企业商业目标,选取最合适的数据挖掘技术类型,针对选取的数据挖掘技术类型确定培训数据和测试数据,参照培训数据和测试数据,确定算法或准则,从而构造数据挖掘技术模型。

4.模型评估

数据挖掘技术模式构建以后,能否应用于确定的企业商业目标,需要进行评估。而模型评估的手段是通过测试数据,对构建的模型数据库进行基础测试和比较,计算误差和误差发生的概率。如果误差不大,达到了预期的商业目标,说明构建的模型是满意的,企业可以进行应用。若误差概率较大,没有达到预期的商业目标,则说明构建的模型是不满意的,此时应该分析数据出现出差的原因,重新选择合适的数据挖掘技术类型,确定新的培训数据和测试数据以及新的算法或准则,建立新的模型并且重新评估。但若设定的商业太不切合实际,则需要更改商业目标。

讨论

随着科学技术的发展和经济的进步,产品不断换代和升级,客户享有越来越多的选择权,而企业在市场中的竞争面临重大的挑战。客户价值的发展、保留和提升成为企业有机发展的核心。如何通过数据挖掘技术发现潜在价值的客户,保留已有价值客户以及提升客户的价值,对于提高企业在市场中的竞争实力,促进企业发展具有重要的意义。企业应该认识到数据挖掘技术在客户关系管理CRM中的重要应用价值,在企业完成市场、销售到服务的整个业务流程中,采取有效的数据挖掘技术,为企业的管理及决策提供支持,不断提升其管理机制和服务方式,挖掘潜在客户,获取新客户、提升现有客户价值以及留住可能流失的客户,扩宽市场占有份额,最终达到企业利润最大化的目的,前景广阔。(作者单位:阳光动力能源互联网股份公司)

参考文献:

[1]张天瑞,于天彪,赵海峰等.数据挖掘技术在全断面掘进机故障诊断中的应用[J].东北大学学报(自然科学版),2015,36(4):527-531,541

[2]安存红,高祥晓,韩春丽等.利用数据挖掘技术构建基于审计数据仓库的商业银行新型审计模型[J].中国乡镇企业会计,2014,(4):171-172.

[3]高燕飞,陈俊杰.试析计算机数据挖掘技术在档案信息管理系统中的运用[J].内蒙古师范大学学报:哲学社会科学版,2012,41(4):44-46.

[4]蒋红,朱敏.数据挖掘技术在教师培训需求分析中的应用――以宁波市教师培训项目数据为例[J].宁波教育学院学报,2015,17(3):73-76.

[5]薄奋勇,武瑞庆,韩世良等.基于关联规则的数据挖掘技术在煤化工行业设备中的研究及应用[C].//第22届全国煤矿自动化与信息化学术会议暨第4届中国煤矿信息化与自动化高层论坛论文集.2012:436-439.

[6]宋淑彩,祁爱华,王剑雄等.面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用[J].科技通报,2012,28(2):117-119.

挖掘技术论文篇10

[关键词]数据挖掘 电子商务 Web挖掘

[分类号]F713 TP393

1 引 言

电子商务最早于20世纪60年代初在美国等国家兴起,但直到20世纪90年代随着互联网的高速发展,以互联网为平台和依托,电子商务才真正意义上发展起来,正在或终将从根本上改变社会经济的运行模式、商务活动的运作方式以及人们的消费模式。它以电子交易为手段,借助计算机和网络等技术快速而有效地完成商品和服务的买卖,实现商务活动的数字化、网络化、自动化、智能化、无纸化和全球化,缩短商品流通时间、强化供需双方联系、减少费用、拓展市场和提高服务质量,达到树立企业形象、增强企业竞争力和提高经济效益的目的。据美国有关机构预测,Internet上的电子贸易额在2010年前后会持续猛增,最后相对稳定在10000亿美元左右。

然而,电子商务的健康、有序和迅速发展却存在着一系列十分复杂而又亟待解决的问题。除了要明确我国电子商务的发展战略和运行环境、政府在电子商务中的作用与职能、管理模式、可信赖机构的作用、对传统企业管理模式的变革、良好的信息和安全基础设施之外,还要重点解决与发展与电子商务有关的科学和技术及其应用问题,例如电子商务环境下的数据挖掘。本文即是对电子商务与数据挖掘的契合方式、相关技术及其应用、主要研究内容的系统论述。

2 数据挖掘与电子商务契合方式

数据挖掘起源于20世纪90年代中期,推动其诞生、发展的众多原因中,对商业数据背后潜在知识的迫切需求和人类分析信息的有限能力之间日益增加的矛盾是其根本动因。利用数据挖掘研究电子商务产生的不确定性海量数据中信息的分布规律,挖掘其中隐含的关系、模式和趋势,进而发现具有规律性的知识,可以帮助企业优化企业决策管理、客户关系管理、协同商务管理、营销模式管理、网站维护管理和风险控制管理,确认目标市场,获得更大的竞争优势。

要使上述数据挖掘的效果真正体现出来,理论界和实务界认为迫切需要研究和解决的问题有:①什么样的商务站点可以赢得更多用户的青睐?卖方如何根据用户的嗜好改进自己的商务站点,以吸引更多的潜在买方光临?②卖方如何有效地利用商务站点展开宣传攻势?③卖方如何充分利用用户浏览产生的信息,更好地为潜在买方提供个性化服务?④卖方如何根据自己掌握的有关信息预测客户需求趋势和潜在客户群体?⑤用户如何在浩如沙海的虚拟市场中找到自己需要的商品?⑥如何才能提高客户的满意程度?如何才能知道哪些客户是公司的主要利润来源?⑦如何防止或减少电子支付欺诈,以充分保障银行和买卖双方的利益不受损失?⑧竞争对手和自己网络营销上存在什么样的区别?

本文从数据挖掘的角度,将与电子商务的契合方式抽象为如下论题:①论题1:Web页面或资源聚分类研究;②论题2:客户群聚分类研究;③论题3:频繁访问路径挖掘研究;④论题4:交易关联性挖掘研究;⑤论题5:异常客户与异常交易检测研究;⑥论题6:互联网下供应链关系挖掘研究。下文将对这6个论题所涉及的主要技术及其应用、主要研究内容进行阐述。

3 电子商务环境下Web数据挖掘的主要技术评述

3.1 技术概述

电子商务产生的数据具备异构、不确定性、无结构或半结构、动态性和海量性等特点,复杂程度已远远超出了人类目前已有的分析能力。基于Web的数据挖掘与传统的数据挖掘有许多不同之处。上文所述论题的Web数据挖掘主要包括三种数据挖掘任务:

3.1.1 对Web内容的挖掘 互联网电子商务数据呈指数形式飞速增长,然而当用户(无论买点、卖方或任何商业关联方)面对整个Internet的海量数据时,却感觉很难找到对自己有用的商业数据。例如:当买方在互联网寻找适合自己的商品和服务、比较商品价格和交易条件时,需要尽可能搜集此商品的相关Web页面,即以商品作为Web页面聚类或者分类的依据,以此提高电子商务交易过程尤其是前期交易过程的效率。总的来说为方便客户,应该为他们提供一步到位的查询解决方案,Web页面的自动聚分类方法有助于压缩搜索空间,加快检索速度,提高查询精度,帮助客户快速找到相关信息。

3.1.2 对Web结构的挖掘 Web页面是半结构化的,在Web页面不仅有各种内容信息,而且存在特定的结构标记,其中最重要的标记就是超链接。Web页面所包含的知识不仅存在于各个页面的内容中,也存在于页面之间的相互链接中。

对于电子商务而言,一个重要的问题是要找到对某个商业主题可以当作核心信息源的一些网站和网页。通过对Web电子商务进行数据挖掘时理解和利用超文本链接结构,可以此核心信息源为基础,优化供应链和虚拟企业产生和运作的效率,有助于网络电子商务社区的发现和利用。

3.1.3 对Web访问的挖掘 对Web访问的挖掘是目前研究最深入的Web数据挖掘技术。在Internet电子商务中,电子时空下推拉互动的双向交互信息被记录在Web服务器的日志文件中。Web日志一般可分为访问日志、日志和引用日志。

对于拓扑结构已知的特定商务站点,尽管用户在不同时期可能有不同的浏览模式,但就长期而言用户行为是有一定的规律及趋势的。通过分析Web日志文件,可以发现其中蕴涵的相似客户群体、相关Web重要页面和有关客户访问模式。以频繁访问路径和相关Web重要页面为依据优化商务站点结构,实现网站自适应;以客户分类为依据为客户提供个性化服务(如电子商品推荐系统),以挖掘销售数据发现交易关联性为依据提高营销活动效率和强化广告宣传效应。这里部分理论是以市场营销学的市场细分原理为基础,基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。

3.2 具体评述

随着互联网的兴起,数据挖掘技术已开始运用到Web信息系统产生的海量数据上,在客户关系管理、金融工程、信用管理、风险预测、保险等诸多领域均得到广泛应用。

电子商务环境下Web数据挖掘技术既包括基于统计学的各类方法,也包括涉及机器学习、数据挖掘、人工智能等理论方法,这其中又以规则归纳、神经网络、案例学习、遗传算法、粗糙集等智能方法最为常见。但需指出目前电子商务环境下Web数据挖掘算法的研究尚处于起步阶段,无论在Web电子商务数据

特点的挖掘算法上,还是挖掘结果的经济学与管理学解释和挖掘结果的有效应用方面,均尚未涉及或仍有很大研究余地。

3.2.1 Web内容挖掘 文本是存储和交换信息的最自然的方式,文本挖掘具有非常高的商业前景。事实上研究表明即使在企业的电子商务信息中,也有80%的信息保存在文本中,如电子邮件、网页以及报告等。

目前Web内容挖掘多数是基于文本挖掘算法的,和通常文本挖掘的功能和算法类似,适用于商务文本的挖掘算法还没有较多的进展。但由于互联网上的数据基本上都是HTML或XML格式的文件数据流,因此可利用文档中的HTML或XML标记来提高Web内容挖掘的性能。

但Web内容的动态更新、存储方式的特殊性、Web商务数据以及文本数据本身的特点使得Web内容挖掘在处理下面这些任务中遇到很大困难:①难于处理具有主观、非精确、非确定的数据和检索要求;②现有搜索引擎没有归纳和演绎的能力;③软决策,而不是布尔代数的决策方式;④网页评价,难以按照对于查询的相关性对网页进行评价;⑤个性化,对于电子商务而言个性化的要求是非常重要的,必须根据每个用户历史访问记录等资料进行相关挖掘;⑥互联网上的数据基本上都是HTML或者XML格式的文件数据流,但利用文档中的HTML或XML标记来提高Web内容挖掘性能的研究目前尚少见。

3.2.2 Web结构挖掘 Web结构挖掘是从www上的组织结构和链接关系中推导知识,由于超文本文档间的关联关系使得www不仅可以揭示文档中所包含的信息,同时也可以揭示文档问的关联关系所代表的信息。利用这些信息可对页面进行排序,发现重要的页面。Page-Rank法就是利用了文档间链接信息来查找相关的Web页,其基本思想是:一个页面被多次引用,则这个页面很可能是重要的;一个页面尽管没有被多次引用,但被一个重要页面引用,该页面也可能是很重要的。

此外,通过挖掘网站结构和页面结构,也可以对同一商业网站内Web页面进行分类和聚类。对Web页内结构的分析,相对于普通文本结构分析,具备一些明显不同的特征:通常没有段落、句子等显要区别、文本中文字属性特征比较丰富、文本中标题性文字较多;因此主要的分类方法为基于特征的分类方法。而对于事先不知道其网络架构的目标网站,则应当运用聚类方法,而主要的聚类方法为分裂分类法。

一些研究人员提出了一些模型化Web拓扑结构的算法,如HITS算法和上文所述PageRank算法等。HITS通过给链接结构增加内容信息,同时使用了外层过滤进行改进。这些算法主要用作计算每个网页的质量和相关性,并应用到了Clover和Coogle等系统中。其他的一些应用包括发现Web上的电子商务社区等。Madria讨论了Web结构挖掘在数据仓库中的应用,包括度量同一服务器中局部链接的频率,度量数据仓库中Web文档的重复,从而在特定链接的层次结构中发现信息流对站点设计的影响等。

3.2.3 Web使用挖掘 Web服务器上的访问日志数据是Web使用挖掘的最重要的数据源,它明确地记录了站点访问者的浏览行为信息,但须指出其是不完整的数据,如缓存页的访问就不被记录在日志中,目前尚无有效的算法处理此数据不完整性;其次可通过使用远程主体或对现有浏览器代码的修改来实现客户端数据的收集;第三,日志,即Proxy数据作为客户端浏览器和Web服务器间的中间层缓存,采用Proxy跟踪可揭示从多个客户到多个服务器的HTTP请求,可用作刻画共享一个Proxy服务器的一组商业客户浏览行为的数据源。

常见的基于Web使用挖掘的客户聚分类算法包括基于模糊理论的客户群体聚类算法、K-paths聚类算法、客户群体聚类的hamming聚类算法等;此外商务站点的结构类似有向图,用户的访问行为构成其访问子图,研究该有向子图有利于发现用户兴趣所在。而对基于Web使用挖掘而言的网页聚分类,其挖掘数据的依据是Web的使用记录而不是Web网页的内容信息,其数据范围一般局限在一个或少数网站,这主要是由于很难追踪用户完整的上网访问记录;值得注意的是挖掘过程和Web内容挖掘一样常常需要一些商业背景或领域知识。

Web使用挖掘的实例包括两类:学习用户日志文件和用户导航模式。商业信息的提供者希望通过改进站点的设计和了解用户的兴趣和偏好,提供给用户适合的信息。挖掘出的信息可以应用到网页个性化、站点修改、商业智能、信息检索等领域中。

Perkowitz通过记录用户访问站点的记录改善站点的设计,帮助用户更快地浏览商业站点。路径遍历模式挖掘则是另一种用户导航模式,在分布环境下当用户寻找感兴趣的信息时,可以通过超链地址从一个对象遍历到另一个对象;很明显理解这种环境下的用户访问模式不仅能提高系统的设计水平,还能促进市场决策判断(比如在适当的地点放一个广告)。

4 目前国内外主要研究内容

4.1 Web页面聚分类应用研究

页面聚分类挖掘结果在电子商务各环节的应用问题;以Web内容挖掘为主结合Web结构挖掘和Web使用挖掘的多智能集成算法的Web页面聚分类模型的研究;如何改进文本聚分类挖掘算法以适合电子商务Web页面聚分类。

4.2 客户群聚分类应用研究

客户聚分类在电子商务各环节的应用问题,研究对营销机制的影响;以Web访问挖掘为主的多智能集成算法的聚分类模型;电子商务推荐系统的研制与开发。

4.3 客户频繁访问路径挖掘应用研究

以客户频繁访问路径挖掘结果为基础分析用户访问站点的规律、改进网站的组织结构及其性能,实现网站自适应;客户频繁访问路径挖掘算法。

4.4 交易关联性挖掘应用研究

以交易关联性挖掘结果为基础研究对企业决策管理、协同商务管理、政府监管等方面的应用问题,研究影响识别交易关联性的关键或主要数据特征;基于多智能算法的交易关联性挖掘模型。

4.5 异常客户与异常交易检测应用研究

异常监测在电子商务中的基本应用框架,异常交易或者电子欺诈所具备的数据特征,异常交易或电子欺诈的识别算法。

4.6 互联网下供应链关系挖掘研究

互联网下供应链关系挖掘的研究范畴,电子供应链和虚拟企业形成效率等的关系,电子供应链关系挖掘的基本模型、算法和应用,如何解释和应用电子供应链挖掘结果以有效地优化电子商务供应链。

4.7 电子商务数据挖掘的解释问题

电子商务数据挖掘涉及管理学、经济学、计算机科学、智能科学、数学等多领域、跨学科的理论知识,因此需研究Web数据挖掘结果的管理理论解释问题和经济理论解释问题中模型的建立机制、步骤和对挖掘结果和解释理论本身的互动影响;主要涉及管理学和经济学理论的选择;解释的立场问题;挖掘所获得新知识对解释理论本身的修正问题。

4.8 商务数据挖掘过程改进

商务数据挖掘须启动过程改进,当前国内外无成熟的商务数据挖掘的过程研究。研究商务数据挖掘或商务智能项目实施过程,定义企业在该领域的标准过程,研究如何通过企业过程的改进不断提高ERP等商业数据系统的应用价值。