数据挖掘技术探讨论文十篇

时间:2023-03-20 03:27:15 版权声明

数据挖掘技术探讨论文

数据挖掘技术探讨论文篇1

[关键词] 经济与管理;本科生;数据挖掘;教学探索

[中图分类号] G642.3 [文献标识码] A [文章编号] 1005-4634(2013)04-0082-03

0 引言

数据挖掘技术能从大量数据中发现和学习有价值的和隐藏的知识,因而近年来在国内外受到极大重视,在电信业、零售业和银行业等生产大数据的行业中正获得越来越广泛的应用[1]。因此,近几年数据挖掘这门课程已越来越多的走进了高校课堂。但是,数据挖掘又是一门综合性较强的交叉学科,它涉及到统计学、数据库技术、数据仓库、人工智能、机器学习和数据可视化等学科知识,对学生的专业知识背景和前期所学课程有较高的要求,这在一定程度上限制了数据挖掘作为一门既有理论价值又有实践价值的学科的应用和推广。笔者结合自己的教学实践研究经管类专业本科生开设数据挖掘课程的教学探索。

1 经管类专业本科生开设数据挖掘课程的必要性和可行性分析

从经管类各专业的培养目标角度分析。以南京邮电大学经管类专业为例,该专业包含信息管理与信息系统、电子商务、市场营销、经济学和工商管理等专业,这些专业的培养计划都把培养学生具备市场分析、经营和管理决策能力作为专业的基本培养要求之一。数据挖掘作为商务智能的核心技术,是辅助管理者进行决策分析的有效工具,在激烈的商业竞争中发挥的作用越来越大。因此,为经管类专业本科生开设数据挖掘课程可以更好地实现专业培养目标。

从经管类专业本科生的就业角度分析。经管类专业本科生毕业后,有相当一部分同学会从事营销岗位或者信息管理、网站设计与维护等技术岗位。对于从事营销岗位的同学来说,由于现在的市场营销概念已经发展到精细营销理念,即企业恰当而贴切地对自己的市场进行细分,对各种客户群进行深入的分析和定位,并根据不同的客户群特点,采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。数据挖掘技术是实现精细营销的重要工具;对于从事技术岗位的同学来说,学习数据挖掘课程,掌握数据挖掘的思想和方法对培养学生的系统思维和解决实际问题的能力、提高学生的信息素养很有必要。因此,学习数据挖掘课程对学生未来的工作也是非常有帮助的。

数据挖掘是一门交叉学科,课程理论性强,且对学生的计算机基础要求较高。经管类专业只有信息管理与信息系统、电子商务两个专业开设了较多的计算机课程。但是所有经管类专业都开设了统计学必修课程和数据库原理与应用必修或选修课程,这两门课程是数据挖掘的核心。因此,适当地调整教学目标,将数据挖掘作为一门选修课程为经管类专业本科学生开设是完全可行的。

2 教学过程中存在的问题

笔者在为经管类专业本科生开设数据挖掘课程的过程中,往往遇到两个问题。

1)课程较强的理论性与学生知识结构缺陷之间的矛盾问题。数据挖掘这门课程涵盖了统计学、数据库原理、机器学习、信息论和时间序列等众多内容,课程教材中有较多的公式推导和算法分析,因此课程的理论性较强。然而,经管类专业本科生之前只是学习了统计学和数据库原理与应用两门课程,机器学习等其他课程知识均没有涉及到,因此在学习数据挖掘课程时会感到内容难度较大,障碍较多[2]。

2)理论教学与实验教学学时合理分配的问题。由于数据挖掘课程通常是作为选修课安排在经管类专业本科生培养计划中,总学时数相比学位课程要少,只有32学时。正如前文所述,这门课程包含的内容多、难度大,因此必须要保证足够的理论教学学时数量。同时,数据挖掘又是一门应用性较强的课程,特别是对于经管类专业本科生来说,一定要安排足够的实验教学学时,让学生在实践中提高分析问题和解决问题的能力。在较少的总学时约束条件下,如何合理地分配理论教学学时和实验教学学时是课程教学遇到的又一个问题。

针对经管类专业本科生开设数据挖掘课程时遇到的矛盾问题,将这门课程的教学目标确定为:掌握数据挖掘基本流程和经典算法的基本原理,熟练运用数据挖掘软件工具,分析和解决商业应用问题。课程教学目标指出,为经管类专业本科生开设数据挖掘课程的目的是培养学生利用数据挖掘这种工具去分析和解决商业应用问题的能力,而不是要求学生具备数据挖掘算法设计能力。因此,对于经管类专业本科生来说,实验教学和理论教学同等重要。在课程教学大纲中应将理论教学学时和实验教学学时设置为各16个学时。

3 教学内容设计

用16个学时来介绍数据挖掘课程的理论知识点,这就要求教师能够为经管类专业本科生精心挑选知识点,“量身定做”教学内容。

1)以应用为目的设计教学内容。根据经管类专业本科生数据挖掘课程的教学目标,本门课程在教学过程中应注重培养学生应用数据挖掘分析问题和解决问题的能力,这就要求教师能够围绕数据挖掘的整个应用过程来安排教学内容。数据挖掘的应用过程包括数据收集、数据预处理、模型构建和知识评价四个主要步骤。数据收集步骤是指准备数据挖掘的对象——数据源,有的数据源是一个数据文件或者是数据库中的一张关系表,但对于具体的商业应用来说,数据源往往是来源于同一个或不同数据库中的多张关系表,或者是多个数据文件,这时需要对数据源进行集成,甚至是构建数据仓库;数据预处理步骤是指通过数据清洗、数据集成、数据变换和数据归约等操作为数据挖掘任务提供干净、准确和简洁的数据,提高数据挖掘效率和挖掘结果的质量,它是数据挖掘中非常重要的环节;模型构建步骤是指选用数据挖掘算法在预处理后的数据集上构建挖掘模型的过程,关联、分类、聚类和回归分析是数据挖掘中四个主要的挖掘任务,每个挖掘任务又对应了多个挖掘算法;知识评价步骤是指采用各种统计指标对挖掘结果进行评价,以发现有价值的知识。由于不同挖掘算法得出的挖掘结果表现形式不同,知识评价应针对具体挖掘算法进行,因此知识评价步骤要安排在每个挖掘算法介绍完之后。

2)重点介绍经典算法。针对经管类专业本科生在学习数据挖掘课程时感到内容难度较大这一问题,且考虑到课程的理论授课学时有限,笔者对原有的数据挖掘内容进行了适当的精简。数据挖掘包含数十种挖掘算法,删除复杂和难度大的数据挖掘算法,针对每种挖掘任务重点介绍其经典算法。例如,关联挖掘中的Apriori算法,实现分类挖掘的决策树算法,实现回归分析的最小二乘法以及聚类分析的k-means算法。对于神经网络、贝叶斯分类、时间序列挖掘和Web数据挖掘等难度较大或内容拓展性算法,在介绍相关章节时略提一下,并鼓励有兴趣的学生在课余时间自学。

3)增加商业案例。数据挖掘是一门技术性较强的课程,一般的教材往往注重理论,相关案例较少,因而不容易激发学生的学习热情[3]。为了帮助经管类专业本科生增加对课程中各种挖掘任务的感性认识,同时也是为了激发学生对本门课程的学习兴趣,笔者在讲授过程中增加了若干关于数据挖掘的幽默故事、经典案例和在各行业中的应用案例,通过分析案例加深学生对算法应用的理解。例如,在介绍关联挖掘任务时给学生们引入“啤酒与尿布”的故事;在介绍分类挖掘任务时讲解客户流失分析的应用案例;在介绍聚类挖掘任务时分析客户细分的应用案例。

基于上述分析,笔者为经管类专业本科生开设的数据挖掘课程教学内容具体如下。

第一章为绪论,主要是对数据挖掘技术作概括性描述,让学生对数据挖掘定义、与数据仓库的关系、研究热点以及发展趋势形成感性认识。本章内容分配2个理论教学学时。

第二章为数据仓库,主要内容包括数据仓库的定义与特征、数据仓库的数据组织、数据模型、总体结构和设计等原理性知识点,以及联机分析处理(OLAP)的基本概念和分析操作等基本知识。本章内容分配2个理论教学学时。

第三章为数据预处理,主要介绍数据清洗、数据集成、数据转换以及数据归约等数据预处理的基本步骤和常见方法。本章分配3个理论教学学时。

第四章至第七章围绕数据挖掘的4个重要任务——关联、分类、聚类和回归分析,在介绍每种挖掘任务基本概念的基础上,重点介绍经典算法的基本原理和挖掘结果评价方法,以及每个挖掘任务在具体行业的应用案例。第四章至第六章每章内容分别分配3个理论教学学时,第七章内容分配2个学时。

4 实验项目设计

数据挖掘是一门与实际应用结合紧密、实践性较强的课程。为了加深学生对数据挖掘理论知识点的理解,锻炼和提高学生的实际动手能力,必须结合实验进行教学。数据挖掘课程的理论教学和实验教学构成一个完整的整体,缺一不可[4]。实验教学要充分调动学生的主动积极性,而不是简单地让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。

笔者针对课程知识点设计了4个实验项目,每个实验项目分配4个实验学时。

第一个实验项目为数据仓库构建,实验软件是SQL Server 2000,它提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service 组件支持数据仓库的创建和应用,并提供OLAP联机分析操作。构建数据仓库的数据源来自SQL Server 2000的样例数据库Northwind,Northwind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Northwind数据库包含有这家公司的销售数据,数据内容多,数据量大,数据结构贴近企业的真实数据,符合实验要求[5]。实验包含4个步骤:(1)理解业务数据,确定分析主题。Northwind数据库中的表非常多,需要理清各关系表的内容及其相互间的关联,在此基础上确定感兴趣的主题;(2)围绕分析主题,将主题相关的关系表通过企业管理器中的DTS进行清洗和转换,为数据仓库提供合适的数据;(3)使用Analysis Server向导,建立多维数据集;(4)基于构建好的多维数据集,对数据进行切片、切块、钻取、聚合和旋转等各种OLAP分析操作。

第二至第四个实验项目均是基于Clementine12.0等数据挖掘工具,通过构建数据挖掘模型分析具体商业问题。其中,第二个实验项目为关联挖掘的综合实践,要求学生运用关联挖掘经典算法Apriori分析移动产品交叉销售;第三个实验项目为分类挖掘的综合实践,要求运用决策树算法进行电信客户流失分析;第四个实验项目为聚类挖掘的综合实践,要求运用聚类经典算法K-means进行电信客户细分分析。上述三个综合实验项目都要求学生首先能够分析具体应用问题,然后进行数据预处理、构建数据挖掘模型,并对挖掘结果进行分析和讨论,以锻炼学生数据挖掘的思维体系和数据分析能力。

5 教学方案实施

在教学方案实施过程中,着重营造活跃的课堂教学氛围,重视对课后作业的指导,以期提高课堂教学效果。考虑到经管类专业本科生的知识背景和本门课程的特点,在每次课堂上都会抛出一个思考题,要求学生们运用所学理论联系身边实际展开讨论。例如,在介绍完第一章后设计了一个讨论题:如何运用数据挖掘帮助电信企业提高竞争优势?学生讨论得很热烈,也得出了多个答案。由于本门课程课堂讲授学时较少,为了帮助学生复习、巩固及应用所学内容,课程每章节后都安排了课外作业,并就其中的难点进行指导和讲解。实验过程中,着重培养学生的独立性和数据分析能力。首先向学生讲授清楚实验具体要求和注意事项,然后放手让学生自己去做,遇到问题先鼓励学生自己思考解决,实在有困难再稍加指点。实验结束后,要认真分析实验结果,完成实验报告。选择实验数据时要考虑到数据是否符合现实情况且能够突出所分析的问题。除实验以外,其它实验项目均采用SPSS产品培训过程中所用的相关数据,数据量大小适中,适合在实验课上使用,而且这些数据与真实数据的差异小,有助于提高学生解决现实问题的能力。数据挖掘课程的教学方案已实践了5年,其间不断进行经验总结和探索,无论从近几年选修本门课程的学生人数还是从课堂上学生的反映和学习气氛看,本门课程都取得了很好的课堂教学效果。

6 结束语

数据挖掘作为一门技术性和应用性较强的课程,对优化经管类专业本科学生的知识结构、扩展学生的专业应用领域有着重要的作用。笔者结合自己的教学经验,对经管类专业本科生数据挖掘课程的教学内容和实验环节等方面进行了积极的教学探讨和实践,学生反映非常好。在今后的教学工作中,要不断实践,不断总结,进而不断改进和提高数据挖掘课程的教学质量。

参考文献

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,26(6):20-22.

[2]李志勇,王翔,喻军.信息管理专业数据挖掘课程教学探讨[J].管理工程师,2012,(4):66-68.

[3]刘昆宏.浅谈本科阶段数据挖掘课程设置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.

数据挖掘技术探讨论文篇2

[关键词]岩土工程;数据挖掘;知识发现;研究

中图分类号:TP223 文献标识码:A 文章编号:1009-914X(2014)35-0247-01

伴随着计算机技术的不断提升,岩土工程的数据处理也逐渐向信息化的方向发展。就目前的数据库系统来看,已经拥有了高效地数据录入、修改、查询、统计等等功能,但还缺少对未来数据发展趋势的预测,缺乏挖掘数据背后的知识手段,以便岩土工程的后期数据转化提供资源。实际的岩土工程施工中因存在很多的不确定性,好很多的工程设计取决于工程师的经验与判断,而为了提高工程设计与施工的效率与质量,就必须进行数据挖掘与知识发现措施,对岩土工程各个领域进行分析,扩充知识积累,构建良好的岩土工程信息化设计、施工决策平台。

一、 岩土工程中的数据挖掘技术

1.1 常用的数据挖掘技术方法

通常数据挖掘的主要对象就是结构化的关系数据库或者半结构化的网络数据,数据挖掘的任务则是特征规则、关联规则、辨识规则等规则的挖掘,根据不同的任务来分,数据挖掘主要有聚类法、决策树与规则推理法、神经网络法、遗传算法,还有关联规则算法以及粗糙集方法等等的算法。就这些方法来看,都有其一定的优越性,因此在岩土工程中要根据不同的因素来进行数据挖掘方法的选择。

1.2 数据挖掘的一般步骤

岩土工程的数据挖掘原理就是通过对岩土工程的一些历史数据进行分类与聚类、推理记忆或者归纳、拟合等,并找出这些数据、与事实之间存在的潜在知识的过程。实现数据挖掘的一般步骤主要包括以下几个。首先,需要定义问题,先确定好数据挖掘的目的是解决岩土工程实际设计与施工、预测事实间存在的规律、关系与知识问题,并提出这些问题的阶段。然后需要建立数据库并进行有效的管理,建立数据库就是以便对数据进行分期、分类以及统一管理。其次,对数据的预处理主要包括归纳、孤立点分析以及数据变幻三个方面的数据整理,也是整个数据挖掘过程中最为关键的步骤之一。实际的岩土工程中的数据肯定是不完整的、不一致的,因此这个过程需要特别的注意。然后就是进行模型的搜索与管理,利用已经选择好的挖掘工具与技术,让系统自动进行数据处理。另外,要将数据挖掘发现的知识与已有的基础理论相比较、全面进行分析、推理、检验与验证,确保其合理性并进行评价,最后才能进行知识运用。

二、 实际中的岩土工程数据挖掘应用

前面提到,岩土工程伴随着计算机技术的不断进步与发展,背后的许多重要信息也需要挖掘出来加以利用。传统的关系数据库能够满足日常的数据事物处理,但不能准确的预测未来的发展,因此,就需要取长补短,通过数据挖掘技术对地质因素进行内涵处理,彻底的改变传统的建模假设。

1、 数据挖掘在岩土工程的规律统计与关联规则中的应用。

岩土工程的勘察组要大量的工民建、市政以及桥梁、铁路等各阶段的各类测试与室内试验数据的基础。勘察工作完成后会提供给一些勘察报告,而这些勘察数据中有大量的数据没有被利用起来,而这些勘察报告中的数据其实还是存在很大的价值的,就经验取值来按,这种数据包含了不少主观的因素。对此,有一些研究者也做了很多的尝试,在基于土工试验中产生的数据上提出了应用关联规则挖掘数据预处理的技术,还有利用判定书归纳法等等方法试图发掘岩土工程报告数据潜在价值的研究。当前我国岩土工程数据挖掘与知识发现技术主要要求就是可视化、智能化发展要求,对于此,基于GIS的地震砂土液化可视化评价系统应运而生,从设计准则与系统结构来说,该系统都是可以实现这些要求的技术。此外,在工程设计中,设计方案通常还要受很多的直接或者间接因素的影响,再加上这些因素的不确定性与复杂关联性,使得数据更加难以描述与挖掘。同样,在岩土工程设计与关联规则中,也有不少的数据挖掘研究。例如,新版的《岩土勘察规范》中就提到,是通过不同于传统的随机变量理论的随机场理论,更好地去模拟土的空间变异性与相关性。在完善测定分析方法的同时,加大相关数据挖掘工作,通过适当的方法去寻找工程的风险与变形数据特征,给判别与评价工程提供依据。

2、 数据挖掘在岩土工程中的监测与检测应用。

当数据挖掘技术运用在岩土工程的边坡处理中时,因要受边坡稳定性的地质因素与工程因素的综合影响,其随机性、模糊性与可变性等不确定性影响是变化的,这些因素之间又存在复杂的非线性关系,因此数据挖掘就可以用分析边坡的稳定性与变形的预测。通过运用基于粗糙集理论数据挖掘技术,来分析边坡稳定性数据,能够实现从复杂的参数中提取有用决策规则,从而达到准确分析边批稳定性的目的。另外,在环境水文方面,当前也有相关研究是基于水文数据库的全局性多因素数据挖掘,但其研究现状还不成熟,因此,需要在此基础上,进一步对水文序列的相似性、周期性以及序列模式进行研究。总之,数据挖掘技术是融合人工智能、信息融合与数据统计等几方面的研究成功,但数据挖掘的目标必须是可靠的结果,因此要克服其他的辅助技术缺点,尽量避开这些弊端与缺陷。严格要求挖掘过程的数据样本与数据质量,保证高质高效的数据与处理技术,确保挖掘结果的准确性与可靠性、实用性。

结语:事实上,岩土工程中的数据挖掘技术是综合多年来的数理统计与人工智能与知识领域的研究成果的,数据挖掘不仅是一个集成数据库、人工智能、信息融合、可视化的计算机技术,也是挖掘岩土工程背后隐藏知识的一种重要手段。对于数据挖掘的未来发展,仍然需要我们不断的研究与探索,为岩土工程研究提供更准确、可靠的依据。

参考文献

[1]薛祥,孙宏伟,沈滨,于玮,张权益. 岩土工程中的数据挖掘和知识发现探讨[J]. 工程勘察,2007,10:11-16+28.

[2]李德仁,王树良,史文中,王新洲. 论空间数据挖掘和知识发现[J]. 武汉大学学报(信息科学版),2001,06:491-499.

[3]梅时春,李人厚,罗印升. 过程监控中数据挖掘与知识发现理论及应用[J]. 微计算机信息,2002,02:1-3.

数据挖掘技术探讨论文篇3

数据挖掘技术已广泛应用于中医病证规律研究领域,其基本流程为针对所研究疾病或证候整理相关文献资料,搜集具备中医诊疗信息、处方信息的海量数据,运用数据挖掘技术相关算法及其程序系统进行数据分析[5],总结该病或该证候的核心理论、诊疗方法及特色方药,提炼具有中医特色的个性化诊疗方案。由于疾病及中医证候种类繁多,笔者通过中国知网信息检索平台,搜索关键词“数据挖掘”,查找并学习2010—2014年相关期刊文献,汇总中医病证诊疗方面的数据挖掘技术的应用成果,旨在为内、外、妇、儿等常见学科疾病的临床诊疗提供参考。

1.1内科疾病在心血管疾病方面,杨静等对冠心病的证候用药规律进行数据挖掘,结果显示冠心病以气虚血瘀证多见,另有心血瘀阻证、气阴两虚证,丹参、黄芪、葛根等为核心用药。崔松等通过挖掘何立人治疗心悸的用药分析,总结其治疗心悸的基本方,归纳出以心悸为主重用淮小麦,以心律失常为主重用生黄芪等因症施药的特点。赵健等通过对严季澜辨治的109例高血压病患者用方数据进行挖掘,总结出严季澜自拟调肝理血汤的用方要点与学术思想。在消化系统疾病方面,王萍等挖掘整理了唐旭东治疗慢性萎缩性胃炎的辨证证型及用药规律。Liu等[10]应用支持向量机技术研究中医舌诊舌象在胆囊炎患者中的分类,为数字化辨病辨证提供了可靠依据。吴嘉瑞等[11]应用关联规则和复杂系统熵探索颜正华治疗泄泻用药经验。杜斌等通过检索现代治疗溃疡性结肠炎的文献,挖掘出常用灌肠方药及药对。在肾病及内分泌疾病方面,展俊平等[13]采用文本挖掘技术对慢性肾小球肾炎的证治方药规律进行总结分析,发现该病证候以气阴两虚、肝肾阴虚、脾肾阳虚为主,核心治法以益气养阴、化湿利水为主。凌颖茹等挖掘了黄春林治疗肾病综合征的方药使用经验。霍保民等[总结了戴希文教授分期诊疗慢性肾脏病的辨证及用药规律。袁敏探析魏子孝教授诊治糖尿病善补气、活血的用药特点。方朝晖等通过数据挖掘技术,探索糖尿病主要证型分类,以及使用频数最高的药物及药对,为临床辨证施治及用药提供参考依据。在风湿免疫疾病方面,沈姗姗等运用数据挖掘技术对类风湿性关节炎文献进行分析,发现该病常见痰瘀痹阻、寒热错杂等5个证型,涉及肝、脾、肾等多个脏腑;并客观总结了其用药规律。李玲等探讨周仲瑛诊治类风湿性关节炎的临床经验,挖掘名医用方用药特点。刘本勇等挖掘冯兴华治疗干燥综合征的用药规律。孙益等通过网络检索有关中医药治疗痛风的文献,对痛风病程分期、证型、方药进行挖掘,结果发现,痛风可分为湿热蕴结型、痰湿阻滞型、瘀热阻滞型、肝肾阴虚型4种证型,用药侧重清热利湿、化痰通络、补益肝肾。在肿瘤方面,研究人员应用数据挖掘技术对名医名家辨治肿瘤病机、治法、用药进行分析,为肺癌、胃癌、直肠癌等的中医学认识提供参考。其他疾病方面,如对再生障碍性贫血、癫痫、广泛性焦虑症等治疗的数据挖掘整理,对名医名家治疗慢性前列腺炎[28]的经验总结,探讨了疾病的主要治则治法及用方用药规律,以指导临床应用。

1.2妇科疾病马红丽等[29]通过对多囊卵巢综合征的病因、病机、辨证分型的现代文献信息进行挖掘,分析出肾虚、痰湿、血瘀为该病的主要病机,并从邪正关系角度将其分为5个证型。宋亚南等[30]通过挖掘现代文献有关多囊卵巢综合征的用药,总结其用药频数最高的5个中药:菟丝子、茯苓、当归、仙灵脾和香附,并归纳出11组核心药物组合,为临床对该病的病因病机以及方药认识提供了思路。为探索不孕症的古代医家用方用药特点,伏荣红搜集明清时期的种子方108首,经数据挖掘发现明清医家善用补益药物以补益肝脾肾,且药性以温通为主,并总结出使用频率最高的中药,以指导临床不孕症的治疗。秦莉花等运用聚类分析方法对绝经综合征妇女的情志变化与中医证型分布关系进行了研究。张素等通过挖掘围绝经期综合征的中药复方使用规律,发现该病用药涉及滋补、清热、温补、补气、安神、疏肝等多种治则,其中尤以滋补肝肾类药物最为常用。张焱等挖掘何立人治疗女性围绝经期高血压的用药规律,总结出何立人使用频数最高的药物为天麻、丹参、枸杞子、知母、黄柏等,常用药对为何首乌配伍枸杞子、仙鹤草配伍十大功劳叶等,体现了何立人辨治围绝经期高血压善于调补肝肾阴阳,“以平为期,以和为贵”的学术特点。

1.3儿科疾病王继军等[35]通过对《小儿痘疹方论》中治疗小儿痘疹的78首复方用药规律的挖掘分析,发现治疗以补虚药、清热药、解表药、利水渗湿药等中药为主,单味中药以甘草、人参、茯苓、当归、白术等药物为主,为现代临床辨证施治提供更科学合理的理论依据。王进进等]通过对900余例小儿感冒的信息进行挖掘,总结出小儿感冒的常见病因、9种分类证型,以及使用频数最高的方剂和药物,为中医儿科临床辨证施治提供参考。郑燕霞等为研究小儿慢性咳嗽的中医证素特征,采用数据挖掘方法对所得数据进行分析,结果表明病位证素主要在肺、表、脾,病性证素主要为风、痰、气虚。潘芳等运用支持向量机方法对孔光一教授诊治小儿外感咳嗽风热犯肺证医案进行了挖掘,提炼出宣肺、解毒为主的治法,并归纳出桑叶、金银花、连翘、黄芩为主的用药规律。郝宏文等通过信息挖掘技术对王素梅诊治的757例多发性抽动症患儿的证候要素分析,通过对其常见证型、证素、病机的归纳,总结出王素梅治疗多发性抽动症之健脾平肝、熄风通络的治则大法。

1.4外科、眼科及皮肤疾病脱疽多对应于西医学之血栓闭塞性脉管炎、动脉硬化闭塞症、糖尿病足等周围血管病。谢宇霞等运用数据挖掘技术对古今脱疽医案的方药进行分析,分别总结出3类疾病的辨证分型及常用方药,为临床应用提供帮助。赵亚男等对文献涉及臁疮的四畔证型进行研究,经数据挖掘分析其常见证型及各证型的常见症状表现,丰富了臁疮的辨证内容。角膜炎属中医“翳”“翳膜”“凝脂翳”“聚星障”等范畴,朱晓林等通过对自公元3世纪末至21世纪初的文献的搜集汇总,经聚类分析进行统计,发现角膜炎以“热、风、痰、瘀、湿”为常见病因。用药以祛邪扶正为主,祛邪以清热疏风等为法,扶正以明目、补肝肾为主。结合陈彤云教授治疗痤疮的207个处方,仓田等总结出痤疮的病位在肝、胃、肺三经,治疗以清热解毒燥湿与活血化瘀并举,兼养阴、理气之法。宁江等通过对近30年治疗寻常型银屑病医案的用药规律分析,挖掘出频数最高的中药及药对,支持众多医家“从血论治银屑病”的观点,以清热凉血法为治疗的根本大法。姜春燕等对2012年之前有关湿疹的文献进行收集整理,挖掘湿疹的证型及用药规律,总结出以湿热证型为主的核心用药,为湿疹中医治疗的规范化提供客观依据。

1.5传染性疾病田景平等基于文本挖掘方法对流行性乙型脑炎的临床用药规律进行系统研究,结果发现,中药以大青叶、地黄、板蓝根等清热解毒药使用频率最高,中成药以“温病三宝”安宫牛黄丸、紫雪丹、至宝丹的运用最为广泛,另外发现临床上干扰素、利巴韦林等西药常与中成药联合应用。利用中国中医科学院的中医临床科研信息共享系统的技术平台,胡铁骊等对乙型肝炎相关性肝衰竭进行数据挖掘,以期探索一条中医临床服务与科研需求相统一的新路径。唐仕欢等研究防治流感、肺痨的方剂组方及配伍规律,应用复杂系统熵方法挖掘隐藏于方剂配伍中的核心方药,提炼出有效方药,并融合多种数据挖掘工具应用到中药新药的研发工作中。妮等利用复杂网络分析方法,分析李发枝治疗艾滋病咳嗽的用药规律,总结李发枝从“肺脾气虚”论治的理论依据,以及治疗艾滋病咳嗽常用方药。

1.6散在中医证候数据挖掘技术不仅广泛应用于内、外、妇、儿等各科疾病,对于散在中医证候挖掘的应用也逐渐增多。有学者针对头痛进行研究,采用数据挖掘技术搜集古今医籍、名医经验中有关头痛的用药经验,总结治疗头痛的常见组方用药、药物性味归经规律;也有学者将传统中医病证与数据挖掘技术相结合,通过对燥证、盗汗、多汗证、眩晕、呕吐、失眠、肺胀、内风等传统中医病证的方药规律进行挖掘分析,为临床病证用药提供参考。

2总结与展望

数据挖掘技术主要应用于中医疾病及散在证候的四诊信息、辨证分型、核心方药等的研究中,对古籍或名医名家的学术思想、治疗经验的整理与传承提供全面的信息支持。数据挖掘技术的应用解决了以个体化诊疗为特色的中医临床研究的技术瓶颈问题,引入了中医临床循证思想,从而推动中医药信息化的进程。然而目前中医病证规律研究领域中数据挖掘技术的应用仍存在一些亟需解决的问题。首先,应规范中医药学名词信息,这是数据预处理的关键。由于中医药学的特殊性,中医药名词种类纷繁复杂,存在描述重复、歧义、不确定等问题,直接影响挖掘结果的质量。其次,中医药同一领域、同一类型的数据挖掘方法未形成统一,以致挖掘结果的可靠性及效用度尚有待考量。再者,大部分数据挖掘方法只是被单一采用,多重方法综合运用的分析研究尚不成熟,或许可以成为数据挖掘在今后中医药研究中被采用的模式。最后,数据挖掘的结果需与客观实际相结合,单纯依靠计算机信息技术得出的结果,不能完整反映名医名家的内在思维活动,仍然要结合个体以做出评估。

数据挖掘技术探讨论文篇4

统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。

数据挖掘技术探讨论文篇5

关键词:数据挖掘;孤立点分析;

中图分类号:TP311 文献标识码:A

0 引言

进入信息时代从来,随着计算机技术、数据库技术及互联网技术的发展,数据库中的数据量急剧增长,目前的数据库系统能够实现数据的录入、查询统计等功能,但无法根据数据进行预测未来发展趋势,不能发现数据之间存在的关联规则,缺乏挖掘数据中隐含的知识的手段,出现了“数据爆炸式增长,知识贫乏”的现象,同时这些技术在给人们的生产、生活带来方便的同时,也带来了不少的问题,如信息过量导致人们无法处理,信息的真实性难从确认,信息的安全性得不到保障,信息的形式不一致,难以处理等,面临大数据时代,迫切需要一种技术来准确、快速地获取有用的、隐含的信息,在这种形势下,数据挖掘应运而生。

1 数据挖掘(Data mining)

1.1 概念

数据挖掘技术融合了数据库(Database)、统计学(Statistic)、机器学习(Machine Learning)、模式识别(Pattern Recognition)、专家系统(Expert System)、人工智能(Artificial Intelligence )、数据可视化(Data Visualization)等多种学科,是一种交叉学科,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的人们事先不知道的、潜在的有用的信息和知识的过程。

1.2 过程

数据挖掘是一个迭代的人机交互过程,主要经过问题定义、数据整理、数据挖掘、结果解释评估四个过程。

1.问题定义

问题定义是指清晰定义挖掘目标以防盲目挖掘,在这个阶段要明确对数据挖掘的要求;寻找合适的算法为从后工作奠定基础。

2. 数据整理

作为数据挖掘的基础,数据整理是一个非常重要的阶段,直接影响数据挖掘的结果及挖掘质量。首先选取目标数据,明确对哪些数据挖掘,数据形式是什么样的,其次通过消除“脏”数据、填充丢失数据、滤除冗余数据、数据变换等方式对数据进行处理。

3.数据挖掘

数据挖掘是整个挖掘步骤中最重要的部分,挖掘的实现离不开算法,关联规则、聚类分析,孤立点分析,时间序列模式挖掘等都有各自的挖掘算法,所以在这个阶段需要根据数据的特点及挖掘任务选取或改进算法以适应现有工作的需要。

4.结果解释评估

数据挖掘阶段发现的知识,为分析其结果的可用性,需要对挖掘结果进行评估,剔除无关的模式,不能满足要求的模式要进行回退。

2 孤立点分析技术及应用

数据挖掘技术包括关联规则分析、聚类分析、序列模式分析、孤立点分析等技术,孤立点分析作为数据挖掘的一种技术,是指由于度量、执行错误或固有数据变异所导致的那些小模式数据,它能用于欺诈监测,在金融行业探测不寻常的信用卡使用或电信服务,在商业市场分析中用于确定极低或极高收人的客户的消费行为,在医疗分析中用于发现对多种治疗方式的不寻常的反应。

3 展望

数据挖掘技术作为人们获取知识的一种手段,能够帮助人们发现有用的信息及知识,相信在不久的将来数据挖掘技术会更加智能化,在展现形式上更加人性化,满足人们多方面的需要。

参考文献:

[1] 毛国君, 段立娟, 王实等. 数据挖掘原理与算法. 北京: 清华大学出版社, 2005.7.

数据挖掘技术探讨论文篇6

空间数据挖掘方法在测绘实际生产领域具有良好的运用前景,特别是在“数字地球”的应用中初见成效。从数据挖掘及空间数据挖掘的定义入手,分析研究数据挖掘及空间数据挖掘现状,探讨对空间数据进行数据挖掘的方法。

关键词:

空间数据挖掘;数字城市;空间信息学

1引言

上世纪60年代,随着数据库的产生及大量原形数据库的建设,人们对数据库的研究热情不断加强,对数据库技术的研究也不断深入。上世纪70年代,研究人员已经把研究的视角从层次、网络数据库的方向转向了关系数据库,大力发展了数据库建模工具、数据库索引及其他分析工具等。进入上世纪80年代,研究者已经能够在数据模型分析方面,譬如基于对象的模型、基于演绎的模型数据库等等都得到广泛应用及深入研究。而后随着互联网的不断发展,数据库技术的更新也日新月异。但是,数据库技术的发展随之也进入一个体量越来越大了、信息获取难度不断增加的程度。特别在于,获取能够运用于决策层的关键信息却没有随着数据库本身的体量扩大而进一步增加。因而针对数据库的信息分析与数据挖掘的研究进入研究者的视野。进而,开发能够从超大体量的数据库资源中获取我们所需的关键信息的技术工具成为数据库研究人员的一个重要方向,数据挖掘技术进入了一个全新的时代,数据挖掘技术是一个针对数据库本体的研究手段,从数据库本体中发掘高效的有用信息,从而减少了数据资源的采集工作,增加了数据资源的利用效率。

2数据挖掘与空间数据挖掘的定义与研究现状

数据挖掘,又译为资料探勘、数据采矿。如图1所示,即是一个典型的数据挖掘系统的结构图。数据挖掘是数据库知识发现中的一个步骤。所谓KDD是在1989年于美国密歇根州底特律市举行的第11届国际联合人工智能学术会议上提出来的一种新型的技术手段。KDD是一个“从数据库中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”[1]。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标[2]。现阶段,数据挖掘系统已经发展了四代,第一代数据挖掘系统设计相对简单,一般运用一个或者几个算法,仅用来挖掘向量数据,而且在进行数据挖掘的工作是,一般一次性调进内存进行处理。第二代数据挖掘系统能够支持大体量的数据库和数据仓库,一般是针对数据库的接口进行设计,对数据库中的众多数据模型能够良好支持并拥有较强的高维数据、大数据集、复杂数据集的挖掘能力。第三代数据挖掘系统则能够对网络数据、高度异质的数据进行挖掘工作,这代数据挖掘系统的关键技术在于能够对异质数据进行相对复杂的预言模型构建及管理这些预言模型的元数据。第四代数据挖掘系统则是在一定程度上对移动系统、嵌入式系统、甚至普遍存在的数据进行复杂程度更高的数据挖掘工作。如图2所示,四代数据挖掘系统的特征与相关信息。从数据挖掘的定义我们可以很容易得到空间数据挖掘的定义的关键所在:即针对空间数据库的探索,发现空间数据库的中隐含的、用户感兴趣的或者是空间数据模式亦或者是非空间数据模式的一种数据挖掘技术。随着研究人员对空间数据库及数据挖掘技术的不断深入研究,空间数据挖掘技术取得了长足的进步。这里以加拿大SimonFraser大学开发的数据挖掘软件DBMiner中的空间数据挖掘扩展模块———GeoMiner为例,GeoMiner系统包含三大子模块,分别是空间数据立方体构建模块、空间联机分析处理模块及空间数据挖掘模块。GeoMiner系统采用人机交互式挖掘模式,在完成数据挖掘工作后能够即时显示挖掘结果。GeoMiner系统已经能够在一定程度上实现数据的自动挖掘工作,但其实现过程仍需要工作人员的不断干预,因而在自动化方面是研究人员未来重要的探索方向。

3空间数据挖掘常见算法空间

数据挖掘方法按功能的方式可以分为:描述、解释、预测。下面介绍几类常用的空间数据挖掘算法[3]:

1)基于概率论的方法基于概率论的方法这里主要是指通过计算不确定性属性的概率来对空间数据进行数据挖掘的方法。

2)空间分析方法空间分析方法是指采用综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等在内的分析模型和方法,用以发现目标在空间上的相连、相邻和共生等关联规则,或挖掘出目标之间的最短路径、最优路径等。

3)统计分析方法统计分析方法则主要表现在通过对空间对象的信息采用统计学的方法进行评估、预测等方式进行数据挖掘。

4)归纳学习方法归纳学习方法即运用一定的知识背景的手段,分析提取空间数据库中的隐含的相关数据。

5)空间关联规则挖掘方法关联规则挖掘方法即运用空间数据库中的数据关联规律分析其一般的规则和运行模式。

6)聚类分析方法聚类分析方法即根据空间实体特征的一般性总结整个空间的分布规律及其典型运行模式的方法。

7)神经网络方法神经网络方法则是通过构建神经元网络的方法来实现适应非线性动态系统,从而构建其分布存储、联想记忆等功能,并使得系统具有自行学习、并行处理的能力。

8)决策树方法决策树方法采用的是一种基于树形表示分类结构的方法,从中发现规律,进而展示规则的数据挖掘算法方案。

9)基于模糊集合论的方法基于模糊集合论的方法主要是利用模糊集合理论中描述带有不确定性的研究对象来对实际的不确定性问题进行处理的手段与方法。

10)基于云理论的方法基于云理论的方法,主要是利用云理论中关于云模型及不确定性的研究方法对空间数据进行定性分析及定量计算结合处置的方法。

11)遗传算法遗传算法则是一种基于生物进化理论的数据挖掘算法,该算法突出的表现在对空间数据的高效并行计算及在处置过程中的自动获取知识、积累相关参数并实时适应挖掘过程从而得出最优的处理方案。除了以上算法之外,常用的还有数据可视化方法、计算几何方法、空间在线数据挖掘等等方法,均在一定程度上可以对空间数据挖掘产生有利作用。

4小结

从以上的各种方法分析,我们可以看到数据挖掘工作对空间数据利用非常重要。空间数据的体量及其大,数据结构及其复杂,通过简单的方式根本不能对空间数据的关键信息资源进行利用,只有通过空间数据挖掘的方法,才可以在更加直观的、立体的平台上对空间数据进行广泛而有效的利用。

参考文献:

[1]百度百科《KDD》

[2]百度百科《数据挖掘》

数据挖掘技术探讨论文篇7

【关键词】 现代商业领域 计算机 web数据挖掘技术 应用实践 略述

现代商业领域经营实践规模的不断增大以及信息技术形态发展事业的蓬勃推进,使得现代商业领域的实务人员,在开展基本化的日常经营实践活动的过程中。难以避免地要时刻面对规模不断加大的数据信息资源对象,这种现实发展条件,使得探索和应用行之有效的大规模数据信息处理技术实现路径具备了极其重要的实践意义。近年来,web数据挖掘技术的应用为现代商业领域的稳定有序发展发挥了不可替代的实践助力作用,有鉴于此,本文将围绕现代商业领域中计算机web数据挖掘技术的应用实践展开简要的分析论述。

一、计算机Web数据挖掘技术的概况分析

所谓的Web数据挖掘技术,就是基于现实存在的Web数据信息资源,实现对所需求的特定知识或者是信息对象的抽取操作。这一技术实现了传统数据信息挖掘基本思想以及实施方式在现代Web技术形态体系中的有效应用,能够将Web活动或文档记载结构存在的有用的、隐藏的、或者是潜在的信息资源对象,完整而有序地提取出来。

将Web数据挖掘技术应用于现代电子商务事业的发展过程中,能够实现对用户群体基本特征的分析和理解,举例而论,可以通过对客户访问电子商务网站过程中的内容、频率,以及行为等记录信息的分析和研判,初步实现对特定用户对象消费行为特征的提取和研判,从而针对特定客户实施有针对性的产品推销行为。

二、Web数据挖掘技术在现代商业领域中的应用

2.1针对对潜在客户群实施查找和分析

想要针对Web访问日志记录里中呈现的数据信息规律,展开科学而系统的研究和解析,应当预先对已经保存的电子商务访问者的基本线上行为信息展开分类,并将分类过程中实际面对的关键属性以及数据关系结构进行有针对性的明确化处理行为。

对于电子商务网站的新访问者,技术人员在实际开展Web访问日志记录信息分类的过程中,必然能够通过对已有信息结构的对照而实现及时地捕捉和发现,并实现对新访问者个体基本网络实践行为属性特征的正确归类。针对可能成为潜在化新客户的新访问者实施有针对性的商品线上推销实务行为。

2.2实现已有客户对象的保留操作

在电子商务模式的发展路径中,销售商与消费者之间的空间距离已经不再明显,在网络销售平台背景之下,所有销售方开展的商品销售对象的呈现和展示行为,在消费者的观察视野之下都具备着明显的平等性,电子商务销售方想要切实提升访问者在自身商品呈现网页中的停留时间,就必须对网页访问者实际具备的网页浏览实践行为习惯实现真切而科学的了解,并在此基础上真切感知潜在客户的消费需求特征以及兴趣指向,并有针对性地改变商品推销的呈现内容与呈现模式,提升商家对客户的保留时间。

2.3实现对客户的聚类操作

针对客户群体中的个体化对象展开聚类操作,是现代电子商务产业发展实务过程中的一个极其重要的实践环节,透过针对具备相似化网页浏览访问实务行为的线上浏览者,进行分组归类操作行为,并针对分组之后各组内部组成成员的消费行为特征的具体分析,商务销售组织的有关人员,将会逐步实现对潜在消费者构成群体的深切了解,从而能够极具针对性地给客户提供更加全面且更具针对性、以及适当性的产品销售和售后保障。

举例论之,网站访问记录日志数据信息分析实务技术人员,如果发现某一类型的网站访问者有意识地将其网络浏览时间用于特定网络信息界面的浏览和分析行为之上,通过将这一类型的网站信息浏览者划分为一个独立小组,并依照科学化的分析方法,获知这一小组内的网页信息访问者实际具备的聚类信息,销售商便可将这一人员小组视作潜在客户群,并在针对这一小组的构成人员,开展实际化的商业交易活动的过程中,施加专门性的区分处理操作,对商品推销网络页面的内容和呈现模式,及时开展有针对性的调整实务行为,实现对消费者实际消费需求的充分满足。

结束语:针对现代商业领域中计算机web数据挖掘技术的应用实践问题,本文选取两个具体角度展开了简要的论述分析,文中涉及了较多的技术性与应用性内容,预期为相关领域的实践人员提供借鉴意义。

参 考 文 献

[1]牛红惠,金显华.Web数据挖掘技术在电子商务中的应用[J].濮阳职业技术学院学报,2006,03:16-17+24.

数据挖掘技术探讨论文篇8

关键词:数据挖掘 高校教务管理 实践应用

中图分类号:TP311.1 文献标识码:A 文章编号:1007-9416(2013)04-0145-01

随着现代信息技术在各领域各行业的渗透与应用,给现代人们的生活与工作方式都带来了极大的改变。高校也不例外,在近年来高等教育信息化建设的背景下,诸多高校积极推进数字化校园的建设。教务管理是高校常规管理工作中的核心组成部分,也是各类数据和信息庞大的聚集地。因此如何运用现代信息技术来提高高校教务管理工作效率,更好地为学校发展服务,是一项赋有现实意义的课题。基于此,笔者结合工作实践,就数据挖掘技术在高校教务管理中的应用,作以下探讨与分析:

1 数据挖掘概述

以计算机为基础的现代信息技术的发展,推动了各种新技术、新手段的应用。数据挖掘(Data Mining)是一门融合了机器学习、统计分析和数据库技术的作为一门交叉学科。其应用价值在于把对数据的应用从低层次的简单查询,提升到有价值信息的挖掘,从而为决策提供支持。作为一种全新的信息处理技术,数据挖掘已被广泛应用于各行业、各领域,并展现出其强大的应用优势。在已有的研究和实践证明,在高校教务管理系统中应用数据挖掘技术有助于提高工作效率,能为教务管理决策提供有益帮助,从而推动高校教育教学工作的快速发展。

2 系统分析及设计

从当前多数高校教务管理系统的建设实践来看,一般的教学管理系统都属于操作型的管理系统,往往只具备基本的查询和分析功能,而在决策支持方面局限性很大。比如只能对某课程考试学生的及格率,或者某一届学生在共同英语、计算机考试的通过率等。教师和学生的基本情况进行查询或分析功能。并且这种数据的显示或报告也是二维报表形式,教务管理工作者难以从中发现其动态变化。由于高校教务管理信息会随时间的推移而不断积累,因此这些数据会不断的堆积,而得不到有效利用,因此,在教务管理系统决策过程中其利用率是极低的。在进行高校教务管理系统的数据挖掘之前,需要确定合适的数据挖掘组织结构。当前应用较多的数据挖掘体系结构模式是采取用户访问层、业务逻辑层和数据层三层构架模式,在各层之间数据和消息的传输借助相关接口来得以实现。

3 数据挖掘技术在教务系统中的应用

基于上述目的,那么在具体的高校教务管理中,采取怎样的数据挖掘技术手段就是应当解决的问题。笔者结合实践经验,就应用分类、回归分析、聚类、关联规则、特征、变化和偏差分析等数据挖掘技术手段在教务管理信息系统中的应用,作以下介绍:

3.1 分类分析法的实践应用

当前各高校推动教育教学改革的过程中,人才培养方案是其重要构成内容。高校如何根据学生的实际情况,结合人才市场的需求,从而制定出科学合理的培养方案,是诸多高校亟需解决的问题。而在这一决策过程中,就可以利用数据挖掘的分类分析法了。具体来说,可以对学生的性格特征、学习兴趣与方法、课程设置、教学资源配置等信息数据建立起一个量的模型,进而对其进行分析、归纳和总结,找出它们共同的特点,按照分类的模式将其进行划分、归类,将学生个性化培养方案概括到某个给定的范围,既可以为学生自主性个性化学习提供更为科学有效的指导,又可以对学校的学科课程设置提供建设性意见,从而更好地实现培养多样化、个性化、创新性人才的培养目标。

3.2 关联分析的实践应用

关联分析是用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。在高校教务管理系统中,运用关联分析可以获得良好的效果。以教学计划编制为例,可以通过对学生选课关联关系进行识别,以寻求最佳排课方式;同时还可以对排课的数据进行分析,以优化课时的具体分配问题。

3.3 聚类分析算法的实践应用

聚类分析其实是无监督分类,其目的在于实事求是地按被处理对象的特征分类,有相同特征的对象被归为一类。高校教务管理实践中,运用聚类分析算法,可以在命题质量分析方面获得良好的应用效果。在高校教学管理中,课程的命题考试是在很大程度上体现了该课程的教学情况如何,也反映了学生学习情况和达标情况是怎样。因此,在进行命题考试完成以后,就要对成绩进行分析。按照一般规律,学生学习成绩应呈正态分布。只有当分数较高和分数较低两头比例小,中间部分比例大,说明这次命题的试卷质量好,试题编制较为成功。

3.4 异常检测的应用实践

异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。通过异常检测算法,就能发现系统中存在的异常点,有效地避免出现对信息的误判或遗漏的现象。在高校教务管理实践中,应用异常检测来行学籍预警,就能取得良好的效果。比如我们可以对教务系统里面学生对应的信息特征进行提取,类似于“登陆教务系统的频率”、“考试成绩”、“补考/缺考记录”、“网上选课记录”等数据,当特征值低于某一阈值的时候,学生即有可能处于“离校而未办理学籍”等异常状态。以此来加强对学生学籍问题的管理。

4 结语

综上所述,由于高校教务管理系统的数据随时间的推移而不断的增长,致使这一数据越来越庞大,越来越复杂。面对这种情况,运用数据挖掘技术能是其中蕴含有价值的关联起来,发现其中的利用价值,从而更好地服务于高校发展的需要。这就需要高校在这方面引起足够的重视,采取可行的措施,进而不断提高数据挖掘的技术水平,以实现推动高校的快速、健康发展。

参考文献

[1]Dunja M.Text-Learning and Intelligent Agents.1998.

数据挖掘技术探讨论文篇9

随着科学技术手段的不断发展,软件工程数据挖掘技术已被广泛地应用于社会生活的各个领域中。与传统数据挖掘技术相比,当下的数据挖掘技术主要是从大量的数据中识别出有价值的数据,挖掘出的结果也具有多元化的评价。而软件测试的结果和测试阶段的数据结果分析成为了软件工程数据挖掘技术的难点。软件工程数据挖掘技术的特点有很多,但是我国还未有广泛的应用。本文主要是通过借鉴相关资料和文献来具体分析软件工程数据挖掘技术的概念、特点、应用现状及未来发展趋势,希望能对我国广大软件工程数据挖掘技术研究学者们提供一些小小的帮助。

【关键词】软件工程;数据挖掘;研究;进展

软件工程的数据挖掘技术是数据库知识发现的重要组成部分,具有复杂性、挖掘结果的特殊及多元化等,能在一定程度上可以促进信息产业的进一步发展。软件开发阶段的数据挖掘主要是编写程序。虽然我国数据挖掘技术有了较大的发展,但是此技术还未得到广泛的应用,主要原因是应用软件可以有效提供需要分析的数据。由于大量的数据挖掘法得到了较大的发展,软件的开发水平也有了很大的提高,因此,对于软件工程数据挖掘技术的应用还需要大家对其加强一定的重视。本文具体介绍了软件工程数据挖掘的掘应用现状及发展趋势。

1 软件工程数据挖掘研究的概念及特点

1.1 软件工程数据挖掘的定义

软件工程数据挖掘技术是软件工程开发和策略中所存储的各种设计文档、测试结果等数据,又被称之为数据采矿或资料勘探,主要通过一种新的计算机方式来寻找到想要获取的数据软件工程。数据挖掘技术主要致力于智能技术和自动化技术之中,能处理更为庞大的数据系统,可以有效满足当代数据分析的要求,可以说是一种新型的数据分析模式。

1.2 软件工程数据挖掘技术的特点

软件工程数据挖掘技术的特点有很多,比如,数据具有复杂性、挖掘结果特殊、挖掘结果多元化等。与传统的数据挖掘技术相比,软件工程的数据挖掘具有一定的复杂性,主要是由于软件工程数据中不仅有软件版本和报告的信息,还有代码和注释等数据,且挖掘出的结果有一定的特殊性。数据挖掘技术是在大量的软件工程数据中经过处理、表示、提取及分析等程序来发现一些有用的信息,但是在进行软件测试中会有一定的缺陷,这主要是由其自身的特性决定的。此外,对于软件工程数据挖掘就技术的人员也有一定的严格要求,最终的数据结果也有着非常复杂的特性,因此,所需采用挖掘的方法也相对复杂。

2 软件工程数据挖掘应用现状及发展趋势

2.1 软件工程数据挖掘的应用现状

由于传统的数据挖掘技术还存在一定的缺陷,缺乏健全的定位系统,也并没有开发出更高性能的数据挖掘技术,早已不能满足当下时展的需要,所以,它成为了我国急需解决的一大难题。随着现代化信息技术的不断发展,大家对计算机技术的需求日益加大,大家开始期盼能够出现一种新的数据分析模式,从而能够有效来整理数据信息,因此,软件工程数据挖掘应运而生了。软件工程的数据挖掘技术可以明显的改善传统软件工程中存在的缺陷问题,还有着简单、方便、低成本的优势,不需要依附于特定的技术平台。眼下,我国一种基于软件工程的数据挖掘技术有了相对广泛的应用。目前,我国对软件工程的数据挖掘技术有了更深入的研究。软件工程数据挖掘在在测试阶段的应用研究分析的结果评价并不完善,数据挖掘技术的性能还有待于进一步开发。

2.2 数据挖掘技术中存在的问题及解决办法

数据挖掘技术在进行软件测试中会有一定的缺陷,由于软件工程自身的数据非常庞大,还具有一定的复杂性,在软件测试运行中有着一定的缺陷分派,在进行解决一些代码问题的同时也增加了技术分析的难度,主要是因为软件在安装和运行的过程中很有可能会出现相关缺陷,而相关维修人员需要分析其原因,且对其进行定期的维修和处理,这在某种程度上大大增加了工作的难度,这也是数据挖掘技术所面临的主要难题之一。

为了能解决传统的数据挖掘其中存在的问题,还需通过针对软件工程数据的复杂性、非传统分析的需求及挖掘结果的评价三方面来进行完善和解决,通过对开发和维护软件工程的数据挖掘来分析和评述软件工程数据挖掘技术,开发出更高性能的数据挖掘技术。软件工程数据的复杂性包括了三重内容,数据类型的复杂、数据之间复杂的联系和数据中的噪音等,但是,可以通过采用改进现有算法来应对;对于非传统分析的需求可以将数据挖掘技术与新的信息方法结合来满足对非传统分析的需求;挖掘结果的评价有时候可能出现偏颇的情况,因此,需要建立一套客观城市的体系进行评价等。

2.3 软件工程数据挖掘技术的未来发展趋势

我国软件工程数据挖掘技术是朝着提高软件的开发效率和质量这个方向发展的,为了能有效实现这一目标,还需准确、高效地为软件开发者提供各种信息资源。虽然软件工程数据挖掘技术能够寻找到想要获取的数据软件来满足当代数据分析的要求,还需开发出更高性能的挖掘算法,提出复杂的软件工程数据挖掘问题和解决措施,对于海量软件工程的数据进行高效的预防处理和挖掘算法,针对新的软件工程连年和方法的软件工程数据挖掘,充分利用人工智能、数据挖掘领域的新技术进行高效的学习。由于大家对软件工程及数据挖掘的需求日益加大,为了能进一步满足当下时代的发展要求,还需加强对数据挖掘技术的关注、重视,确保该技术朝着更加成熟、完善的方向发展。

3 结束语

针对上述所论述的问题,我国数据挖掘技术还面临着众多的难题,软件测试的结果和测试阶段的数据结果分析成为了广大数据挖掘研究学者们研究的重点。由于传统的软件工程没有开发出更高性能的数据挖掘技术,不能够完全找到软件工程的缺陷,而高效的挖掘算法可以有效发现出比较复杂的软件重用规则,可以更加全面的表现出软件内部各种复杂多样的关系,所以,还需进一步开发数据挖掘技术的性能、完善测试阶段的应用研究分析的结果评价等。

总的来看,我国软件工程的数据挖掘技术未来发展必将会呈现较为良好的发展趋势,有着更大的发展空间,数据挖掘技术也会愈加完善。由于笔者对软件工程数据挖掘技术的研究还不太全面,所以研究还有部分不太严谨的地方,这也是笔者以后继续要努力、探索的方向。

参考文献

[1]李芳.软件工程数据挖掘研究进展研究[J].信息技术,2011.

[2]魏敏.数据挖掘技术的持续改进[J].今日科技,2013(23).

[3]林华.软件工程数据挖掘技术的探讨[J].中国科技信息,2010.

数据挖掘技术探讨论文篇10

关键词:大数据 大数据分析方法 情报研究 适用性

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDA的定义及过程来看,BDA与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDA方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。

1 大数据分析的方法分类

到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。

1.1 相关研究

不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。

Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。

针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。

Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Analysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-Event Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Mash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(Text Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。

Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、ETL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在QA系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。

(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。

美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。

(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分类――面向层次的BDA方法框架

上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。

本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。

2 BDA方法在情报研究中的适用性探讨

如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。

2.1 可直接移植的方法

可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。

(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。

(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。

(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。

(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。

(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。

(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。

(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。

2.2 调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。

(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。

2.3 不适用的方法

考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。

(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。

2.4 需要继续关注的方法

基于MapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,MapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、ETL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过BI系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。

因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。

3 结语

大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDA方法框架,归纳总结了其中的17种BDA方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDA相关方法提供参考,促进情报研究的理论与实践发展。

参考文献:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]严霄凤,张德馨. 大数据研究[J].计算机技术与发展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50(1): 146-169.

[12]覃雄派,王会举,杜小勇,等. 大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王炼,武夷山. 方法移植对科学计量学研究的方法论启示[J]. 科学学研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报,2014,(1):39-49.

[18]张树良,冷伏海. 基于文献的知识发现的应用进展研究[J]. 情报学报,2006, 25(6): 700-712.

[19]李楠,张学福. 基于关联数据的知识发现应用体系研究[J]. 图书情报工作,2013,(6):127-133.

[20]王辉,王晖昱,左万利. 观点挖掘综述[J]. 计算机应用研究,2009,26(1):25-29.

[21]黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009:(1): 94-99.

[22]赵洁,温润. 基于新词扩充和特征选择的微博观点句识别方法[J]. 情报学报,2013,32(9): 945-951.

[23]单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报,2010, 24(6): 43-49.

[24]贺亮,李芳. 科技文献话题演化研究[J]. 现代图书情报技术,2012,(4): 61-67.

[25]查先进.信息分析[M].武汉:武汉大学出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡洁. 高维数据特征降维研究综述[J]. 计算机应用研究,2008,(9): 2601-2606.

[28]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,(8):2832-2835.

[29]陈涛,谢阳群. 文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6): 690-695.

[30]白如江,冷伏海. “大数据”时代科学数据整合研究[J]. 情报理论与实践,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情报理论与实践,2013,(11): 16-19.

[32]李建中,刘显敏. 大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[33]王延飞,王林兰. 论情报研究质量[J].图书情报工作,2010,54(10):35-39.

[34]王阅,高学东,武森,等. 时间序列周期模式挖掘的周期检测方法[J]. 计算机工程,2009, 35(22): 32-34.

[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J]. 计算机科学,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.