数据挖掘技术探讨论文范文
时间:2023-03-20 03:27:15
导语:如何才能写好一篇数据挖掘技术探讨论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文
摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。
关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩
为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。
一、数据选取
回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。
选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。
二、建立多元线性回归模型1及数据分析
运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:
(1)
线性回归模型通常满足以下几个基本假设,
1.随机误差项具有零均值和等方差,即
(2)
这个假定通常称为高斯-马尔柯夫条件。
2.正态分布假定条件
由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。
从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。
回归分析期末成绩y1的多元回归模型1为:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。
三、后退法建立多元线性回归模型2及数据分析
从模型1中剔除了x2变量,多元回归模型2为:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。
四、结束语
通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。
通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。
统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文
摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。
关键词:统计学专业;数据挖掘;大数据;教学
一、引言
通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。
二、课程教学探讨
针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。
(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。
(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。
(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。
(4)充分考虑前述提到的三点,课程内容计划安排见表1。
(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。
三、教学效果评估
经过几轮的教学实践后,取得了如下的教学效果:
(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。
(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。
(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。
(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。
教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。
篇2
【摘要】
介绍了数据挖掘的意义和任务,综述了近几年来数据挖掘在中医各领域中的应用,分析了目前存在的问题,并探讨了今后的发展趋势。
【关键词】 数据挖掘 中医
随着计算机技术和网络技术的快速发展,在中医药的现代化过程中建立了很多的数据库。堆积在数据库中的信息呈超指数爆炸式增长。例如中医药科技信息数据库就有50个子数据库、110个表单及数百个自动生成的中间表、800余个著录项目,涵盖所有中医药有关医、药及学术的内容。而数据挖掘技术的发展使我们有可能从这些海量数据中发现新的知识,发现数据背后隐藏的关系和规则,还可以对未知的情况进行预测。多学科交叉目前正成为增强科技创新的重要途径,数据挖掘正是从统计学、数据库、机器学习等多门学科中发展起来的。
1 数据挖掘介绍
1.1 数据挖掘的定义
数据挖掘(datamining)也称为数据库知识发现,为解决上述矛盾提供了强有力的工具[1]。数据挖掘这一术语出现于1989年,其定义几经变动,本研究中引用Frayyad UM等提出的对数据挖掘的定义[2]。
数据挖掘是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。其中:
① 有效性要求挖掘前要对被挖掘的数据进行仔细检查,具备该特性,才能保证挖掘出来信息的可靠性。
② 新颖性要求发现的模式应该是从前未知的,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
③ 潜在有用性是指发现的知识将来有实际效用,即这些信息或知识对于所讨论的业务或研究领域是有效的、是有实用价值和可实现的,常识性的结论或已被人们掌握的事实或无法实现的推测都是没有意义的。
④ 最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。发现的知识要可接受、可理解、可运用,最好能用自然语言表达所发现的结果。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的。
⑤ 非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的、可能的有用的信息。要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。
数据挖掘的结果通常表示为概念(concepts)、规则(rules)、规律(regularities)、模式(pattern)、约束(constraint)、可视化(visualization)等形式。这些知识可以直接提供给决策者,用于辅助决策过程;或者提供给领域专家,修正专家的已有的知识体系;也可以作为新的知识转存到应用系统中,作为实际事务处理中决策的依据[3]。
2 数据挖掘的任务
数据挖掘的任务主要是预测和描述。预测是指用一些变量或数据库的若干已知字段预测其他感兴趣的变量或字段的未知的或未来的值。描述是指找到描述数据的可理解模式。预测方法有统计分析、关联规则和决策树预测、回归树预测等。其中关联规则反映了一个事务与其他事务之间存在关联,那么就能根据其他已知事务预测到另一个事务。描述性方法主要有数据分类、回归分析、聚类、变化和偏差分析、模式发现等。
3 数据挖掘在中医药中的应用
中医药的发展也需要多门学科的交叉应用。数据挖掘最初在生物医学中的应用是在对基因组测序数据的分析,因为人类基因组计划研究中产生了数十亿的核苷酸和上百万的氨基酸,传统的统计方法无能为力。中医学具有系统性、整体性、复杂性、不确定性等特点,不适宜运用传统的还原论的方法研究,而适宜与数据挖掘类似的从整体观上入手的研究方法。数据挖掘可以从海量数据中挖掘出潜在的规律,数据挖掘的结果一部分可能与传统的诊疗规律相符,不符合的部分可能是潜在的新知,也可能是没有意义的,这都需要在相应目标领域专家的指导下进行解释和评价。将数据挖掘(DM)和知识发现(DMKD)应用于中医药领域的研究,是中医药现代化研究的重要组成部分[1],必将促进中医药的发展。而数据挖掘在中药药谱研究和新药开发中取得了一定进展,本研究主要对其在中医以下领域的研究作一介绍。
3.1 证实质的研究
中医的“证”又称“证候”,是疾病在某一阶段病变的本质反映,是由一组能反映疾病本质的症状组成的,能揭示病因、病位、病性、病势,为论治提供依据。证候是中医诊断的核心概念和理论精髓,具有整体性、抽象性、时间性和相对稳定性的特点。现在对证实质的研究多从西医的生理理化指标来揭示证的实质,但实践中却发现缺少证的特异性指标。如果从分子生物学的角度,利用数据挖掘技术对中医证与相关基因的对应关系,可能取得更好的结果。通过研究“证”和基因多态性之间的内在联系,从基因多态性所带来的该基因功能上的变化,由此探寻“证”的相关基因表达谱。
3.2 中医诊断
中医诊断过程主要是对证的判定。而现在证的标准不太规范,缺乏定量的标准,而且其分类与描述也存在不同的观点。数据挖掘则可能完成证的规范化研究,也可辅助临床医生对病人进行证的判定。
陈明等[5]尝试运用关联规则发现诊断模式,他把《伤寒论》中的病名、症状、舌脉分别作为数据表建立数据库,挖掘得出规则:发热、恶寒、脉浮太阳病(支持度65%,置信度5%),可以认为发热,恶寒的确是太阳病的诊断依据。
秦中广等[6]运用粗糙集进行中医类风湿证候的诊断,共收集了224个病例,每个病例有81个属性,并从这224个病例中随机抽取学习样本180例,进行预测诊断44例。他们利用属性约简得到寒湿阻络、湿热阻络、痰阏阻络、气阴两虚、寒热错杂5种证的必定规则和可能规则。在44例预测诊断中诊断正确率达到90%以上,高于传统的模糊数学方法,并认为粗糙集有可能是中医诊断研究的动态理想工具。
刘晋平[7]运用数据挖掘的手段对中医脉象进行研究,并开发出初步的软件。以明清、近现代3000余例病案为研究分析对象,将病案分为病名、证型、脉象、舌象及症状几项,然后进行统一化及规范化处理,得出医案中细脉出现频率最高,占34.39%。其脉象软件可以进行脉象与病名,脉象与证型之间的相互关联分析,发现其内在的规律。
4 方剂配伍规律的研究
方剂配伍理论是中药方剂理论的核心,也是研究方剂的关键问题。采用数据挖掘技术进行基于中医药理论的方剂配伍规律研究,既能为中医新药的临床和实验研究提供目标和思路,减少盲目性,缩短研究周期;同时又为大量古今验方研究探索出一条有价值的研究途径和方法[8]。
何前锋等[9]运用高频集挖掘的方法,对中国方剂数据库、中药新药品种数据库、中药成方制剂标准数据库中各方剂药物组成数据进行了分析,分别得到3个库的前20味高频药,可以看出古今用药频率的变化。并把高频用药组合与经验药对进行比较分析,提示可能成为新药对的组合。
姚美村等[10]应用关联规则分析技术,以文献中收录的106个治疗消渴病的中药复方为对象,经解析后建立复方特征数据库,以数据挖掘系统Enterprise Miner为平台,关联规则分析为工具,在单味药层次上进行消渴病复方组成药味之间的关联模式研究。得到了药物与上中下三消的关联以及药物之间的关联,与中医专家对于消渴病的治疗在主要药物的配伍方面基本一致,这在一定程度上反映出历代中医在消渴病治疗方面认识和治疗的整体规律性。
陈波等[11]应用关联规则对李东垣的脾胃方从药物间关联、症状间关联、处方结构与症状关联进行分析,得出当出现当归、黄芪、升麻时,同时出现柴胡的次数为60次,支持度为10.91%,可信度为84.51%;当出现当归、黄芪、柴胡时,同时出现升麻的次数为60次,支持度为10.91%,可信度为84.51%。两者的支持度和可信度都较高,提示他们常共同使用。此反映出李东垣补气与升阳同用的学术思想,此药组也是补中益气汤的基本组成部分。
现在的研究中存在着方法比较简单,频繁模式、关联规则为其主要方法。方剂配伍不仅是各药味之间的组合,还包含着各药剂量比例的搭配,这也是临床组方的关键,但现在对其进行数据挖掘的研究还很少。
数据挖掘的方法不仅可以运用于中医基础理论中的伤寒、温病等研究,也可用于临床各科的研究。但高质量的数据挖掘不仅需要有被处理数据的质量,更要在中医药专业背景知识引导下,针对具体问题,选择合适的数据挖掘方法,利用各种工具的效能和应用的可能性,取长补短。
对中医药知识进行规范化、数字化、信息化是促进中医药国际化和现代化进程的重要内容[12]。通过数据挖掘,就可以对中医药发展过程中某些缺失的信息进行预测完善并可以避免主观性的干扰。数据挖掘还可以发现一些新的模式和规则,为中医药知识的创新和发展提供一条新途径。
参考文献
1 乔延江.中药(复方)KDD研究开发的意义.北京中医药大学学报,1998,21(3):15~17.
2 Frayyad UM, PiatetskyShapiro G,Smyth P, et al. Knowledge Discovery and Data mining:Towards a Unifying Framework ProcKDD96,Menlo park, CA:AAAIPress,1996,82~88.
3 胡文丰,张正国.生物医学数据挖掘.国外医学生物医学工程分册,2003,26(1):11~15.
4 周雪忠,吴朝晖,刘保延.生物医学文献知识发现研究探讨及展望.复杂系统与复杂性科学,2004,1(3):45~55.
5 陈明,张书河.关联规则在中医疾病证候诊断中的应用.中华医学丛刊,2004,4(5):14~16.
6 秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的应用.中国生物医学工程学报,2001,20(4):354~363.
7 刘晋平.数据挖掘在中医脉诊研究中的应用.天津中医药大学硕士论文,2002.
8 蒋永光,胡波,刘娟,等.方剂配伍的数据挖掘可行性探索.四川中医,2004,22(8):25~28.
9 何前锋,崔蒙,吴朝晖,等.方剂中配伍知识的发现.中国中医药信息杂志,2004,11(7):655~658.
10 姚美村,艾路,袁月梅,等.消渴病复方配伍规律的关联规则分析.北京中医药大学学报,2002,25(6):48~50.
11 陈波,蒋永光,胡波,等.东垣脾胃方配伍规律之关联分析评述.中医药学刊,2004,22(4):611~612.
篇3
1知如何能够投其所好,为用户实现主动推荐,提供个性化服务;这些都是电子商务成败的关键问题。在这种新型的商务模式下,如何对网络上大量的信息进行有效组织利用,帮助海量数据的拥有者们找出真正有价值的信息和知识,以指导他们的商业决策行为,成为电子商务经营者关注的问题。迅速发展的基于Web的数据挖掘技术,为解决电子商务所面临的问题提供了有效途径。
2 Web数据挖掘
2.1 Web数据挖掘概述
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。
Web数据挖掘(Web Mining)是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从WWW中提取知识。Web数据挖掘可以分为Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)、Web使用记录挖掘(Web Usage Mining)三类。Web内容挖掘是指从文档内容或其描述中抽取知识的过程,又可以分为基于文本的挖掘和基于多媒体的挖掘两种。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。Web结构挖掘是指从Web组织结构和链接关系中推导知识。通过对Web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。Web使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。
基于Web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。
2.2 电子商务中Web数据挖掘的步骤
电子商务中Web数据挖掘的步骤如下:
① 明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;
② 将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;
③ 对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的整理。
④ 根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;
⑤ 利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。
在整个Web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个Web数据挖掘的全过程; 同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。
2.3 电子商务中Web数据挖掘的数据源
在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于Web数据挖掘技术产生各种知识模式。
① 服务器数据。客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括servers logs、error logs、cookies logs等。
② 查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。
③ 在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。
④ Web页面。主要是指HTML和XML页面的内容,包括文本、图片、语音、图像等。
⑤ Web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。
⑥ 客户登记信息。客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。
2.4 Web数据挖掘能够获取的知识模式
运用Web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。一般运用Web数据挖掘可以在站点上挖掘出来的知识模式有以下几个:
① 路径分析。它可以被用于判定在一个Web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。
② 关联规则的发现。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以减少用户过滤信息的负担。
③ 序列模式的发现。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选择有针对性地页面,以满足访问者的特定要求。
④ 分类和预测。分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。分类的目的是通过构造分类模型或分类器,把数据库中的数据项映射到给定类别中的某一个,以便用于预测;也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对未来数据进行预测,进行适合某一类客户的商务活动。
⑤ 聚类分析。聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场策略。这种市场策略包括自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户提供个性化的服务。
⑥ 异常检测。异常检测是对分析对象的少数的、极端的特例的描述,以揭示内在的原因,从而减小经营的风险。异常检测在电子商务中的应用可以体现在信用卡欺诈甄别、发现异常客户和网络入侵检测等方面。
Web数据挖掘的各项功能不是独立存在的,而是在挖掘过程中互相联系,发挥作用。
3 Web数据挖掘在电子商务中的应用
3.1数据抽取方法在电子商务中的应用
与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。Web数据挖掘要解决的问题就是如何从零散的无规则的网络数据中找到有用的和有规则的数据和知识,基本方法之一就是进行数据抽取,以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值或用直方图等图形方式表示,从数据泛化的角度讨论数据总结,把最原始、基本的信息数据从低层次抽象到高层次,以便于企业决策。
3.2 基于Web数据挖掘的智能化搜索引擎
电子商务企业在活动过程中面临的问题之一是如何通过Internet全面、准确、及时地收集到企业内、外部的环境信息,尤其是一些隐性的、关系到企业经营成败的关键信息,以提高竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的问题,使企业无法得到优质的信息。鉴于此,将Web数据挖掘技术应用于搜索引擎,使之成为智能搜索引擎,从而提高性能,满足电子商务企业的需要。Web挖掘技术主要在以下几个方面对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。经过文档的分类处理,可以对搜索结果进行分门别类,可以通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位,从而提高用户进行网上信息搜索的效率;自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、快速、方便地了解检索信息;通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,从而远离那些不相关的文档,将处理以后的信息以超链结构组织的层次方式可视化地提供给用户,由用户选择他所感兴趣的那一簇,将大大缩小所需浏览的页面数量;将Web使用挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求,或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。通过借鉴Web挖掘技术可以提高查准率与查全率,改善检索结果的组织,从而使检索效率得到改善。
3.3 Web数据挖掘在客户关系管理中的应用
① 客户关系管理的核心
客户关系管理(Customer Relationship Management,简称CRM)的核心是通过客户和他们行为的有效数据收集,发现潜在的市场和客户,从而获得更高的商业利润,通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户的终生价值。可以说 CRM 能给传统企业带来在网络经济时代谋取生存之道的管理制度和技术手段。它要求企业从“以产品为中心”的模式向“以客户为中心”的模式转移。
② Web数据挖掘在客户关系管理中的应用
Web数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。将Web数据挖掘用在电子商务CRM中主要体现在客户的获取和保持、价值客户鉴别、客户满意度分析及改善站点结构等几方面。
通过Web数据挖掘,可以理解访问者的动态行为,据此优化电子商务网站的经营模式。通过把所掌握的大量客户分成不同的类,对不同类的客户提供个性化服务来提高客户的满意度,从而保持老客户;通过对新访问者的网页浏览记录进行分析,就可以判断出该访问者是属于哪一类客户,是有利可图的潜在客户还是毫无价值的过客,达到区别对待、节省销售成本、提高访问者到购买者的转化率的目的,从而挖掘潜在客户;通过对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,这可以帮助电子商务企业更好地了解客户的兴趣、消费习惯和消费倾向,预测他们的需求,有针对性地向他们推荐特定的商品并实现交叉销售,可以提高交易成功率和交易量,提高营销效果。
此外,站点的结构和内容是吸引客户的关键。利用关联规则的发现,针对不同客户动态调整站点结构和页面内容,把具有一定支持度和信任度的相关联的物品放在一起以有助于销售;通过路径分析等技术可以判定出一类用户对Web站点频繁访问的路径,这些路径反映这类用户浏览站点页面的顺序和习惯,将客户访问的有关联的文件实现直接链接,让客户容易地访问到想要的页面。这样的网站会给客户留下好印象,提高客户忠诚度,吸引客户,延长他们在网站上的驻留时间以及提高再次访问的机率。
通过挖掘客户的行为记录和反馈情况,进一步优化网站组织结构和服务方式以提高网站的效率。通过Web数据挖掘,可以得到可靠的市场反馈信息,评测广告的投资回报率,从而评估网络营销模式的成功与否;可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率,降低公司的运营成本。
③ 维护客户的隐私权
维护客户的隐私权是商家在商业运作过程中不能忽视的一个基本组成部分。因此,作为电子商务企业,应该尽量避免对单个客户数据进行挖掘。企业管理客户隐私权的保护应该从技术和管理两个方面来实现:技术上,通常是采用加密标志符,并且尽量避免对单个客户数据进行挖掘;管理上,很多电子商务企业现在已经增设了首席隐私官(CPO,Chief Privacy Officer)职位,隐私官将能在个人对隐私的需求和公司以合理手段使用隐私材料的权利之间,建立适当的平衡关系。这种平衡关系的大成,需要以长期的实践和经验为基础。除了电子商务企业以单独的主体身份进行客户隐私权保护的管理之外,行业自律也是保护客户隐私权的一个行之有效的手段。目前,电子商务网站越来越倾向于通过行业自律的方式来树立其在客户心目中的形象,让客户放心地提交数据。
3.4 Web数据挖掘在个性化服务推荐系统中的应用
电子商务个性化服务推荐系统是向站点企业提供在电子商务中更好地运作CRM,建立良好客户关系的一种解决方法,是“以客户为中心”、“一对一”的行销的坚实执行者。
该系统主要是将数据挖掘的思想和方法应用到Web服务器日志及Web数据库等资源上,挖掘出客户的访问规律;然后将在线访问客户归结到某一类中去,根据该类用户的访问规律进行Web页面的推荐;并且系统还可以通过不断地跟踪用户的当前访问,实时调整推荐集,为用户提供个性化的访问。该系统由五大模块组成:数据收集模块、数据预处理模块、数据存储模块、离线挖掘模块和在线推荐模块。其系统结构模型如图1所示:
图1 基于Web数据挖掘的个性化服务推荐系统结构模型
数据收集模块主要用于收集Web数据库、使用日志等数据,形成数据采集库,为以后的挖掘做准备;数据预处理模块主要是对所收集的数据进行预处理,数据预处理的质量与挖掘的效率和结果紧密相关;数据存储模块将预处理后的数据存入用户事务库;离线挖掘模块中的挖掘引擎使用挖掘算法库中的数据挖掘技术如统计分析、关联规则、聚类分析、序列模式等,来发现用户浏览模式,并通过模式分析对其进行分析与解释,根据实际应用,通过观察和选择,把发现的统计结果、规则和模型转换为知识,经过筛选后得到有用的模式用来指导实际的电子商务行为;在线推荐模块在Web服务器前端设置了推荐引擎,它将用户当前的浏览活动与浏览出的页面推荐集结合起来考虑,生成相应推荐集,然后在用户最新请求的页面上添加推荐集的页面,再通过Web服务器传递到用户端的浏览器,为用户实现实时个性化服务;同时将推荐结果送往网站管理中心,以便调整网站设计,优化网站结构,提高网站效率。
总的来说,在个性化服务推荐系统中运用数据挖掘技术有两个阶段:第一个阶段是学习阶段,离线进行。第二个阶段是模式的使用阶段,在线进行。挖掘和在线推荐的特征获取和规则生成是离线处理的,而当用户访问该网站时通过在线推荐引擎进行在线服务。离线模块和在线模块相互联系,在线模块主要是利用离线模块提供的规则模型对在线用户推荐(推荐引擎);离线模块主要是利用在线模块积累的数据运用系统推荐算法形成相应的规则。挖掘算法和推荐策略可以根据不同类型站点的要求来具体选择,挖掘结果和推荐集通过推荐引擎反馈给用户。电子商务网站的客户登录网站以后,其访问信息将会被记录到服务器端。这些数据将在经过预处理后,在专用的数据挖掘模块中,通过具体的挖掘算法和推荐策略来进行模式识别和模式分析。用户访问信息也会传到推荐引擎,推荐引擎根据客户的会员标识,向挖掘模块抽取对应客户的挖掘结果和推荐集,将其可视化地反馈给用户,达到个性化服务的目的。
3.5基于Web的数据挖掘在商业信用评估中的应用
发达的社会信用水平是发展电子商务的重要基础,通过Web数据挖掘对站点数据统计和历史记录之间的差别,结果与期望值的偏离以及反常实例进行充分的分析,可以有效地防范投资和经营风险。另外,通过数据挖掘技术对企业经营进行跟踪,开展企业的资产评估、利润收益分析和发展潜力预测,构建完善的安全保障体系,实施网上全程监控,监督网上言论,维护企业信誉,强化网上交易和在线支付的安全管理,利用数据挖掘的信用评估模型,对交易历史数据进行挖掘发现客户的交易数据特征,建立客户信誉度级别,有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。
4 结论
本文对Web挖掘技术进行了综述,介绍了其在电子商务中的典型应用。Web数据挖掘高度自动化地对电子商务中的大量信息进行分析和推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。Web数据挖掘是近几年来数据挖掘领域的探讨热点,利用它的技术知识将它运用到电子商务,将会解决许多实际问题,具有丰富的学术价值。将Web数据挖掘技术和电子商务两者有机结合,将会为企业更有效的确认目标市场,改进决策,获得竞争优势提供帮助,有着很广阔的应用前景,使电子商务网站更具有竞争力,从而为企业带来更多的效益。面向电子商务的Web数据挖掘能发现大量数据背后隐藏的知识,指导商家提高销售额,改善企业客户关系,提高网站运行效率,改进系统性能,具有良好的发展和应用前景,必将得到越来越多的关注。
参考文献
[1] 毛国君.数据挖掘原理与算法[M].清华大学出版社.2005(07).
[2] 张冬青.数据挖掘在电子商务中应用问题研究[J].现代情报.2005(09).
[3] 李凤慧.面向电子商务的Web数据挖据的研究[D].山东科技大学硕士学位论文. 2004(06).
[4] 杨风召,白慧.异常检测技术及其在电子商务中的应用[J].情报杂志. 2005(12).
篇4
关键词:区域发展;面板数据质量;信息熵;FCM;可行性论证
中图分类号:F224.9
文献标识码:A文章编号:
16721101(2015)02003605
Abstract: Based on information entropy from the perspective of data quantity under index system of regional development, this paper establishes the way of evaluation by the standard of information entropy, explores how to improve the information of data using fuzzy c-means algorithm, and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information, which lays good basis of better data quality for consequent data mining.
Key words:regional development; quality of panel data; information entropy; fuzzy c-means algorithm; feasibility demonstration
在现代信息技术迅猛发展的背景下,越来越多的领域都采用数据驱动的方式进行研究。应运而生的数据技术从传统的统计分析到数据挖掘,再到现今的云计算和大数据都很好的给生产生活带来更多的价值。但是随之而来的数据量度和尺度都变得纷繁复杂,再加上各行业所取观测指标的不同使得数据在单位、量纲和指标含义等客观情况下呈现很大差异性和不确定性,特别是经济数据指标的数值差距过大,因此给数据技术方法本身的可行性以及所得结果的可靠性带来很大挑战。传统的数据预处理中多采用清理、变换和规约等方法来提高数据质量[1,2],在大多数文献中多采用Min-Max标准化[3,4]、Z-score标准化[4]、Decimal scaling小数定标标准化[5]以及Log和Atan函数转化[6]来处理数据,并不着重讨论数据达到的质量程度。但是由于标准化方法的一些理论局限性,容易在处理中降低数据的信息量。所以在研究中如何能够判断标准化后数据信息量的改变程度,这对采用的技术方法本身和后续结果分析将起到重要的作用。本文将尝试探讨数据信息量衡量熵标准,并从理论层面和结合皖北沿淮区域经济发展数据做相应的实证分析。
一、构建熵标准下FCM分类改进模型
(一)信息熵与FCM准备
1.数据质量的信息熵标准
热力学第二定律表明孤立系统中任何变化都不可能减少熵值,1948年Shannon定义通信信号中平均信息量为熵[7],从此熵作为衡量信息量的一种方式被广泛应用。信息熵是数据含载信息程度的一种度量方式,当信息熵越大时表明数据越无序,需要理清数据所需信息就越多,也说明数据的信息量越大。离散随机变量的信息熵定义为自信息的平均值
H(X)=Ep(x)[I(x)]=-∑xp(x)logp(x)
其中I(x)为事件的自信息,Ep(x)表示对随机变量的概率取平均运算。其具有熵的非负性、对称性、扩展性和可加性等相关性质。
2.模糊C均值聚类FCM
模糊C均值聚类[8,9](FCM)是由Bezdek在1981年提出的一种模糊分类方法,FCM需要根据类中距和类间距构造分类准则,利用预先给定的分类数C对所给样本点进行分类。即求解规划问题:
minJm(U,Z,c)=∑ci=1∑Nk=1μhikd2ik,
s.t.∑ci=1μik=1,l≤k≤N;0≤μik≤1;
通过求解上面规划问题,利用得到的隶属矩阵Uik=∑cj=1(dikdjk)-2m-1和聚类中心
Ci=∑nk=1umikXk∑nk=1umik,进行迭代运算得到分类结果。
(二) 熵标准下FCM分类改进模型
由于熵值代表了数据的信息量,而通过衡量信息量可以产生评价策略,陈衍泰等在综合评价方法分类的研究中总结了信息熵方法应用在评价领域的情况[10],张树森等将熵与聚类算法结合提出改进的模糊聚类算法EFC[11],韩宇平等将最大熵原理用于评价区域水资源短缺问题[12],刘红琴等将信息熵应用到能源消费的分配衡量中[13],本文考虑将信息熵引入到数据质量的评价中。
再由于区域发展数据在数值上差距过大,如果仅仅统一进行z-score标准化处理则可能带来信息损失,本文考虑利用FCM方法将数据进行分类标准化,这样也同时带来数据扁平化特征,而由离散最大熵定理[7]可知,数据出现概率越相同,那么数据的信息熵越大。
设n维数据集{xi}ni=1进行z-score标准化后{xi-μσ}ni=1在D段中出现的概率为{Pj(x)}Dj=1,利用FCM对数据分C类后原始数据重新组合变为{xij}i=1,…C,j=1…ni,在每个数据集中表转化得到数据集{xij-μiσ}i=1,…C,j=1…ni在D段中出现的概率为{Qj(x)}Dj=1,当分段数D足够体现数据概率分布时Q(x)比P(x)更加趋近相同概率。利用P(x)对Q(x)的散度D(P//Q)非负特征,有如下推导:
D(P//Q)=∑xP(x)logP(x)Q(x)=
∑xP(x)logP(x)-
∑xP(x)logQ(x)≥0
Hp(x)=-
∑xP(x)logP(x)≤
-∑xP(x)logQ(x)≤-
∑xQ(x)logQ(x)=HQ(x)
因此在分类标准化后的数据信息量比直接标准化的信息量要大。从分类的角度来看,分类后数据标准化数值会产生比整体标准化更多的多样性,从而带来的信息量的增加,而数据信息量的增加也给后续的研究方法提供更好的数据质量。
二、基于区域发展面板数据的实证分析
(一)指标体系构建与数据来源说明
1.区域发展指标体系构建
结合前期工作制定指标体系[14]21,指标的选取原则兼顾经济、生活、环境、社会、特征产业和可持续发展的指标体系,构建一级指标,细化二级指标共选取5个一级指标和69个二级指标如图1所示,并由此构建整体指标模型和各级别体系。
具体指标表现为:(1)在经济发展与产业结构方面:GDP;城镇固定资产投资额;出口总额;进口总额;农业总产值;工业总产值;建筑业乡村从业人员数;交通运输、仓储及邮政业乡村从业人员数;乡村私营企业从业人员数;农、林、牧、渔业乡村从业人员数;乡村个体从业人员数;工业从业人员年平均人数;城镇房地产开发投资额;(2)民生能力与生活质量:职工工资总额;总户数;农民人均纯收入;城乡居民储蓄存款余额;社会消费品零售总额;城镇居民最低生活保障人数;新型农村合作医疗参合率;建成区绿化覆盖率;城市出租汽车数;公共汽(电)车客运总量(市辖区);人口自然增长率;城市公共汽(电)车客运总量;城市每万人拥有公共交通车辆数;城市人口密度;人口密度;基本养老保险基金支出;基本医疗保险参保人数;人均公园绿地面积;(3)政府管理与社会服务:财政收入;财政支出;财政用于教育的支出;财政支出中卫生经费;等级公路里程;公路货物周转量;公路旅客周转量;公路客运量;铁路客运量;城市道路长度;城市供水总量;城市清扫保洁面积;城市天然气供气量;地质灾害防治投资;城市公园数;街道办事处数量;(4)资源实力与可持续发展:降水量;人均水资源量;土地面积;林业用地面积;水田耕地面积;城市污水排放量;生活垃圾无害化处理率;城市排水管道长度;城市污水处理率;工业废气排放量;工业废水排放量;“三废”综合利用产品产值;(5)教育产业与创新科技:财政用于教育的支出;普通高等学校数;普通高等学校在校学生数;普通高中在校学生数;普通小学在校生数;发明专利申请受理量;发明专利授权量;科技活动人员数;
图1综合区域发展指标结构图
基于以上初步指标体系充分涵盖从经济发展到人民生活,从政府能力到社会服务,从可持续发展到特色产业的方方面面,兼顾发展的效率、速度、质量、潜力和能力。但是在数据收集中往往遇到很多实际情况需要做修正,对于少部分的数据遗漏采用数据拟合回归和缺省值补充等传统数据预处理方法进行修整[1],对于大部分的数据遗漏则采用指标替换的方式进行变通。
2.面板数据来源说明
本文依托皖北沿淮地区6市39县区的区域发展研究,因为在皖北沿淮地区中蚌埠市和淮南市具有相同的地缘特征和相似生活特征,所以对两个地区指标的衡量具有很好的实际意义,故而采用2005年到2012年蚌埠市和淮南市数据,数据来源于中国知网提供的《中国统计年鉴》、《中国城市统计年鉴》和各地区发展统计年鉴等。同时本文数据属于面板数据,可以克服时间序列分析受多重共线性的困扰,能够提供更多信息、变化、自由度和估计效率。
(二)具体实证分析
本文的具体实证分析分为以下三个方面:(1)对于原始数据的处理过程:按照论文前面介绍的科学指标模型和数据采集来源,将两个城市69个属性从2005年到2012年共8年的数据进行矩阵化,得到一个138行8列的原始数据矩阵,对于原始数据矩阵中的缺省值采用外插和内插法进行相应的差值拟合得到完整的使用数据。(2)对于使用数据的分析过程:第一步根据本文前期工作[14]22通过对数据进行谱系聚类、HCM和FCM三种聚类方法,采用Matlab2012b进行编程,比较从分2类到分10类的由R方统计量和伪F统计量得到的半偏相关统计量SPRSQ数值,发现当分三类时谱系聚类方法和HCM的SPRSQ数值达到最高值分别为0.400 1和0.023 9,而FCM的SPRSQ数值在分四类时达到最高值0.027 0,因此在进行分类构建信息熵时,将分三类和分四类的情况均予以考虑。第二步根据论文前面讨论的信息熵构建过程进行分类信息熵构建,首先将利用FCM对数据分三类和分四类得到的数据集
{xij}i=1,…C,j=1…ni(其中C=3或者4),在每个数据集进行z-score标准化:{xij-μiσi}i=1,…C,j=1…ni;然后讨论这些数据在分D段中出现的概率{Qj(x)}Dj=1,其中分段数D的大小要足够体现数据概率分布特征 [7,11]取D分别为10和20两种情况,计算相关信息熵数值H(X)=
EQ(x)[I(x)]=-∑xQ(x)logQ(x)
;最后通过和没有进行分段改进的原始数据集的未标准化和统一标准化两种情况进行比较得到相关结论。(3)对于数值比较的分析结果:通过比较未标准化、普通的列统一标准化和采用FCM分三类和四类的类标准化的三种方法在取分段数为10和20下的信息熵大小,得到了相关的数值结果表1。
对表1中的相关数值做图进行直观的表达,可以得到在分10段情况下的图2和分20段情况下的图3,其中横坐标为从2005年到2012年每一年的数据情况,从图中可以发现不论哪一年的数据数值在分类标准化后的熵值都高于图中最下面的线,即统一标准化的数据熵值。
从以上图表的结果来看,采用FCM算法对于数据分类标准化后得到的信息熵提升效果是明显的,具体可以概括为以下的一些结论:
1.未标准化和统一标准化的结果数值完全一样,这是因为z-score标准化过程并不改变数据分布特征,因此他们拥有相同的概率分布,则信息熵也完全一致,故而数据所含信息不变,因此在作图阶段就不体现未标准化的结果图形。
2.分段标准化后所有的数据结果均大于统一标准化的数据值,即信息熵在分段标准化后都有显著提高,这和理论推导的结果一致。故而分段标准化的方法可以有效消除量纲差异,同时还能有效的提高数据信息熵,从而使得数据含有更好的信息量。
3.就分段标准化而言从所有列信息熵的总和数值可以发现,在两种最佳聚类数时信息熵的总和情况分别可以表示为:分10段3类时的9.07高于4类时的7.8,分20段3类时的12.19高于4类时的11;同时数据信息熵随着分段的增大数值也在增大,这是信息熵本身性质所决定的,因为分段越多概率分布越接近均匀分布,由离散最大熵定理以及本文理论推导可知数据信息熵在增加。但是如果分段过多,甚至达到数据总量的一定比例,此时再高的信息熵数值也并不能够说明很好的信息量,所以在分段数的选取需要与数据总量相互匹配。
三、结论
根据以上论证发现,从理论角度和实证分析都验证了分类标准化可以有效的提高数据信息量。所以在相应数据分析方法使用之前,对于数据标准化处理阶段可以尝试采用分类标准化的方式,这样既可以消除数据量纲差异,也可以有效的提高数据含载信息,为进一步使用数据挖掘方法得到更好的数据结论提供较好的前期准备。
同时由于在数据集统一标准化中均值唯一,相当于只有一个中心节点。但是在分类标准化后,在不同类中都有相应的均值作为中心节点,所以分类标准化比传统的统一标准化更符合现代互联网思维,那就是去中心化和多节点多分类,以及扁平化结构体系的相关思想。参考文献:
[1]Jiawei Han.Data Mining Concepts and Techniques, Second Edition[M].BeiJing: China Machine Press,2008:30-65.
[2]韩京宇.数据质量研究综述[J].计算机科学,2008(2):1-5.
[3]程惠芳,唐辉亮.开放条件下区域经济转型升级综合能力评价研究――中国31个省市转型升级评价指标体系分析[J].管理世界,2011(8):173-174.
[4]张钢.长江三角洲16个城市政府能力的比较研究[J].管理世界,2004(8):18-27.
[5]安悦.基于微博客的手机供应商排名推荐[J].数学的认识与实践,2013(10):23-29.
[6]汪冬华.我国沪深300股指期货和现货市场的交叉相关性及其风险[J].系统工程理论与实践,2014(3):631-639.
[7]田宝玉.信息论基础[M].北京:人民邮电出版社,2008:18-26.
[8]史小松,黄勇杰,刘永革.数据挖掘技术中聚类的几种常用方法比较[J].中国科技信息,2009(20):99-105.
[9]诸克军,苏顺华,黎金玲.模糊C均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005(3):52-61.
[10]陈衍泰.综合评价方法分类及研究进展[J].管理科学学报,2004(2):69-77.
[11]张树森.改进的基于熵的中心聚类算法[J].计算机与现代化,2014(3):53-56.
[12]韩宇平.基于最大熵原理的区域水资源短缺风险综合评估[J].安徽农业科学,2011(1):397-399.
[13]刘红琴.基于信息熵的省域内能源消费总量分配研究[J].长江流域资源与环境,2014(4):482-489.
篇5
关键词 两化融合 互联网+ 现代电子商务 现代师徒制 项目实践
中图分类号:G642 文献标识码:A
1论文的提出及意义
以阿里巴巴、淘宝、京东商城等为代表的大型电子商务平台逐渐成为现代企业产品销售的重要渠道。同时生产者和消费者借助互联网这一现代化的信息沟通渠道实现C&B的零距离,传统工业企业的生产及商务模式也在悄然发生变化。
传统电子商务教学存在的问题:
1.1电子商务专业的师资队伍有待壮大
电子商务是一个复合型的学科,这就需要一支具有复合型知识背景的师资队伍。因此,电子商务的专业教师必须是既精通计算机和网络信息知识,又熟悉商务活动的复合型教师,并且还需具有较强的研究创新能力。目前大多数高校的师资队伍存在师资短缺、教师结构不合理等问题。
1.2目前电子商务教学中缺乏实践教学
目前,在电子商务教学中使用的教材大多存在重理论,轻实践的问题。多数教材都是有关电子商务内容的介绍,涉及的案例较少,对操作技能的培养的内容则基本没有,无疑这明显不适应现代互联网+电子商务人才培养的需要。过多的理论知识既不适应学生学习的需要,又难以激起学生的学习兴趣,同时也给教师的教学增加了不少困难。
2论文研究内容与实施方法
2.1创新课程体系建设
以两化融合型电子商务人才培养目标位导向,合理设置和建设相关课程体系,开设更多的创新型课程。从基础、技能和实践三个层次开设相关高职层次课程。
大一课程以基础素养培养为核心,主要课程包括:《计算机操作基础》、《实用英语》、《商务沟通礼仪》、《计算机综合训练》、《Ruby或Python编程基础》、《电子商务导论》、《大数据》。
大二课程以专业技能和网络基础知识培养为核心,主要课程包括:《互联网基础》、《网站制作》、《网络营销工具》、《两化融合基础知识》、《数据采集工具》、《数据加工工具》、《企业信息化发展概论》。
大三课程以实习、实践为核心,培养学生职业技能,主要课程包括:《大数据挖掘与分析》、《网络营销实战》、《互联网思维》、《营销的故事》、《大数据采集实习》、《大数据加工实习》、《比特能工厂实训》。
2.2以实践为主导的教学模式研究
探索以实践为主导的教学模式,不断创新课堂教学形式,加大实践教学的学时比例,充分借助两化融合发展促进中心企业服务的实践基地为学生创造真实的教学环境。
(1)改变传统单一式、枯燥式的教学模式,融入一些活动、互动、讨论、沟通的多样化教学模式,让学生从快乐中学习,在快乐中成长。
(2)融合网站设计、网络营销、情报检索、大数据分析等技术,用实际例子培养学生对电子商务相关技术的理解和掌握,锻炼实战技能。
(3)模拟业务团队,以工业淘堡网商务平台为基础,根据学生的特长、兴趣等进行分组、划分成多个团队,组件比特能工厂各类业务团队,以实际企业服务需求为基础开展实训,增强团队协助意识。
3教学实施成果
根据目前企业互联网建设、电子商务建设实际工作需求,我们开展了以“网”、“络”、“营”、“销”四大课程及实践体系的核心教学,在“网”方面,我们教授学生们掌握如何企业设计、搭建、运营、维护企业网站与网店技术;在“络”方面,我们教授学生们掌握如何采集、挖掘互联网大数据资源(供应商、客户、原材料、产品技术、市场商机…),为营销提供数据基础;在“营”方面,我们教授学生们掌握现代最流行的微信营销、QQ营销、论坛营销、邮件营销、事件营销、博客营销、SEO优化等实践技能;在“销”方面,我们教授学生们掌握沟通技巧、客户服务、商务谈判、软文写作等商务技能。学生们在真实项目中训练、成长,将项目成果转换为快乐的教学成果,使学生们不再面对枯燥的学习氛围,而在实践中收获、提高。
两化融合型电子商务人才培养模式的构建与实施的前提条件就是以企业互联网+改革市场为导向,突出企业两化融合需求+电子商务+计算机的优势。为了把握市场需求,在制定教学方案初期进行深入的调查研究,在教学实施过程中持续调研,以保证专业教学方向的准确性、超前性和科学性。
参考文献
[1] 于春香.网络环境下的电子商务教学模式分析[J].电子商务,2014(04).
[2] 费佳艳.基于市场发展趋势看电子商务教学发展[J].青年与社会,2013(11).
[3] 胡桃,尧舜.电子商务教学方法改革与实践[J].中国大学教学,2012(10).
篇6
1 统计学介绍
统计学是认识现象规律的一种方法,它的特点是揭示现象量变到质变的规律,具有普适性。对于高校学科体系来说,统计学已经从经济学和数学中独立出来作为一级学科,足以表明统计学在理论研究与实际应用中的巨大作用。随着数据时代到来,统计学作为一门工具学科,越来越广地应用到生物、医药、物理、水利、工程技术、人文社科等其他学科的研究中,统计学专业课程设置向多样性发展,以期培养出能为社会所用的人才。
高校统计一般分为数理统计和经济统计两个方向,部分高校在理学院和经管学院分别设置统计学专业,比如:暨南大学经济学院的统计学专业学生获得的是经济学学位,信息科学技术学院的应用统计专业学生获得的是理学学位。虽然分为不同学院,设置的专业基础课程却有很大部分重叠。本文着重讨论经济统计专业人才培养现状。
2 人才培养目标
目前统计学人才培养目标是培养具有良好的数学基础和统计学、经济素养,掌握统计学基本理论和方法,能熟练运用统计软件分析数据,能在企事业单位从事统计调查、统计信息管理、数量分析等开发、应用与管理工作,或在金融、贸易等领域从事统计分析工作的复合应用型人才。
3 课程设置
高校统计学课程分为理论课程和实践教学课程。理论课程包括思想道德修养、中国近代历史、大学英语等通识课程,高等数学、概率论与数理统计、西方经济学等学科基础必修课程,财务管理、国际金融等基础选修课程,统计学、计量经济学、抽样调查、时间序列分析等专业必修课程,博弈论、非参数统计、数据挖掘、市场调研等专业选修课程。实践教学课程包括实习、学术活动和课程设计等。其中理论课程学分占总学分的80%左右,实践教学课程占总学分的20%左右。理论课程中通识课程和基础课程一般安排在大一和大二上学期;大二到大三主修专业必修课程和选修课程,专业课程大部分是理论课和实验课相结合,理论课主要讲授模型方法论,通过设计实验课,学习统计分析软件,并实现模型案例实证分析;大四理论课程基本结束,主修教学实习和课程设计。
高等学校核心课程体系尚属完善,大多数课程偏重理论教学,忽视实践教学,人才培养计划中未设置实践教学环节或者实践教学课时偏少。实践教学是以实践性知识为课程内容,以生成实践性知识为目标的课程。以实践过程和实践性知识的掌握为课程结构展开的起点,让学生在一定程度实践的基础上建构所需的理论知识,以教学实践任务为中心来组织课程内容,所需要的理论知识也围绕实践过程来选择、组织和学习,以实践过程作为学生学习的主要形式,并通过实践报告、实践表现等来评价学生的学习结果。实践课缩短了从理论向实践转化的时空上的滞后,比如市场调查分析,通过学生亲手设计调查问卷、选取合适的抽样方法展开问卷调查、后期问卷数据汇总分析,最终生成调查分析报告,在实践课程中加深统计专业知识的掌握和综合运用。因此,应适当提高实践教学课时比例。课程设置上,专业选修课程安排相对独立,忽视了与其他学科的交叉融合学习,可适当增加交叉学科基础知识的课程设置。
4 理论教学分析
教学方式上,大部分教师采取传统的课堂面对面教学,仍停留在传统统计专业教学模式。互联网时代,随着互联网+教育的兴起,由于网络课程的低成本和便利性,其在大学教育中占据越来越大的比重。微课、慕课等互联网教学模式,通过科学的设计将课程重点知识碎片化、网络化,便于更多学生随时随地进行学习,而现今大部分高校形式上鲜有统计学的慕课、微课等网络课程教学。教学手段上都是以理论讲解为主,专业知识枯燥无味,不能最大程度激发学生的学习兴趣,缺乏探讨式、研究式、报告式等多样化教学研讨形式。
课程设计是教师形成具体教学方案的过程,特别是对于统计学这门应用性、实践性都很强的课程,不仅要求学生能够熟悉和掌握统计学基本理论知识及常用的统计分析方法,更要求能够结合实际问题,应用最合适的统计方法,借助统计软件,完成对问题的研究分析,真正达到学以致用的目的。统计学课程的教学设计尤为重要。课程设计需要综合考虑教师自身教学技能、知识结构和教学经验,学生的知识储备情况和学习能力,课程本身所承载的信息技能。课程设计联系经济生活中的实际问题,有助于开拓学生的思维空间,学以致用、触类旁通,作为理论知识到实际应用的桥梁工程,合理规范的课程设计起到将抽象理论具化到应用的纽带作用。
教学内容上,统计软件应用教学大部分限于Excel、SPSS、Eviews等传统老旧的软件,以致大部分学生的毕业论文或者课程设计都是对照陈旧的教材生搬硬套,用SPSS或Eviews做一个简单的因子分析、主成分分析或者多元回归模型,而SAS、R语言、Python等功能强大兼具实用性的潮流软件学习课程欠缺。使用的教材着重对统计基础知识的讲解,对于变量选取、文本分析、随机森林等实用性强的模型讲解欠缺。
考核形式上,课程大部分以闭卷、开卷形式考核,造成学生只会死读书、读死书的弊病,灵活跳跃的逻辑思维能力和分析表述能力都是卷面考试考查不到而对于统计分析人员至关重要的能力。课程考核模式方面可以考虑加入分组开展调研、总结报告等开放式考核形式,变革考核情境,激发学生主动学习的积极性,在考核过程中塑造学生的统计思想。
5 实践教学分析
大学生实践学习分为实习和参加学术科研活动两方面。大学生实习课程一方面从传统意义上提高实践技能,另一方面转变为寻找就业的试水,本科生实习已经从过去的专业实践直接指向就业,学生可以在实习过程中对所学专业有客观实际的认识,不再局限于书本上教条案例,有助于学生拓展眼界,找到自身发展的兴趣点。对于应用性较强的统计专业,实习课程的开展、实习基地的选择、实习任务与时间的安排等都起到很重要的作用。实习基地的建设使学生在政府部门、企事业单位中了解部门统计、不同行业工作的内容和特点,拓宽学生的就业渠道。
高校学生实习有两种形式。一种是院系组织,建立校企合作实习基地,定期输送学生到实习岗位实践学习。大学中实习基地挂牌很多,但是限于学生和企业之间关于交通、住宿、实习时间等问题难以协调,或者受其他因素影响,实习基地能够提供给学生的实习机会较少。有待加强学校与企事业单位合作,建立友好长期的合作实习基地,为学生提供高质量的实习机会。另一种是学生自主寻找兴趣相关的实习机会,这一类实习需要付出较多的时间成本,很难找到专业对口的实习岗位,学生实习期间的安全问题也难以得到保障。校方应做好留底审核实习协议资料等工作,实时掌握校外实习的学生动向,确保实习的合法合规。
高校大学生参加实践竞赛等科研活动是培养创新型人才的有效途径。本科生参加实践竞赛有利于培养团队协作精神和创新精神,了解学科前沿动态,了解国家产业政策及区域社会经济发展问题,提高创新实践综合素质。另一方面也弥补了教师科研人员不足的问题。构建基于实践竞赛等科研活动的教学体系,对于学生明确学习目标、提升自主学习热情、培养科研兴趣具有积极推动作用。
科研竞赛方面,学校会给参加科研竞赛的学生学分奖励,提升学生在学术竞赛和科研活动上的积极性。目前各种国家级、省级科研竞赛有大创项目、挑战杯、数学建模竞赛、统计建模竞赛、数据挖掘竞赛、SAS数据分析大赛、市场调查大赛等。学生初期报名热情高涨,但常常由于指导教师欠缺、教学软件资源不足等原因,培训指导不能满足学生参加竞赛的知识需求,学生大部分是靠自学获取相关知识,竞赛结果不尽如人意。实践竞赛项目报名、培训、参赛等组织过程起着重要辅助作用,实践类竞赛项目的组织迫在眉睫。
6 总结
统计学的产生发展来源于实践,依赖于应用,并在应用过程中发展壮大,统计学的生命力就在于其能不断满足社会应用的需要。我国设有统计学及相关专业的高校数量也在明显增多。近些年来,随着信息产业发展,大数据环境对统计学专业的教学理念和教学模式产生变革性影响,统计基础的数据分析人才将是社会最需要的人才。针对当前统计学教学中存在的问题,以及统计学与其他学科的交叉融合这一事实,培养统计人才需要对高校统计学教学进行改革。
随着知识经济和信息时代的到来,信息量越来越大,统计工具越来越多地渗入其他学科的研究,信息处理技术愈加复杂。大数据时代的来临和大数据处理技术的发展,深深影响着统计学的发展。如何改革统计学专业课程设置?能否利用传统的统计理论和统计方法对海量数据做出快速、精准的处理?如何在大数据时代背景下培养符合市场需求的统计分析师或数据分析师?如何实现统计学基础方法论和数据挖掘的深度结合?如何将大数据处理技术融入相关统计学课程教学,探索统计工具和不同学科的融合,培养出创新型人才,以促进数据处理与分析技术的发展?这些都是在当前大数据背景下,统计教育工作者必须认真思考的问题。高校应从课程设计的开展及考核方式、实践性质类课程选择、实习课程调研、实践竞赛组织等方面改革完善统计学专业培养模式,做到与时俱进,合理设置专业课结构,平衡理论课与实践课的时间,拓宽实习面,完善竞赛组织工作,培养出创新型统计人才。
篇7
摘要:首先表述了空间数据仓库的三个核心思想;其次设计出了空间数据仓库的概念框架,着重描述了空间数据仓库的外部结构、内部结构以及各组成模块的工作流程,设计出了空间数据仓库认知过程的概念框图,并对认知的基本概念进行了描述,表述了认知过程14个世界模型和13个转换算子的基本内容,并用代数系统给出了严格定义;最后得出的结论是,研制空间数据仓库十分必要,以支持我国的空间数据基础设施建设。
关键词:地理信息系统;空间数据仓库;数据仓库;认知过程
进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。
总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。
1概念框架
空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。
空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。
1.1外部结构
数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。
1.2内部结构
空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。
当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。
2认知过程
2.1认知过程概念图
空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。
2.2认知过程描述
这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。
数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。
由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。
3认知的概念定义
3.1世界模型
实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。
3.1.1现实世界模型
现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。
现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。
3.1.3地理工程现实世界模型
地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。
3.1.4地理工程概念世界模型
要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。
3.1.5地理工程尺度世界模型
将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。
3.1.6地理要素分类世界模型
按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。
3.1.7地理要素编码世界模型
要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。
3.1.8地理要素几何世界模型
为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。
3.1.9地理要素集合世界模型
因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。
定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。
3.1.10地理空间抽取世界模型
地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。
3.1.11地理空间整合世界模型
数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。
3.1.12地理空间统一世界模型
实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。
3.1.13地理空间产品世界模型
随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。
定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。
3.1.14地理空间决策世界模型
建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。
定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。
3.2转换算子
在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。
篇8
关键词:地理信息系统;空间数据仓库;数据仓库;认知过程
0引言
进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。
总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。
1概念框架
空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。
空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。
1.1外部结构
数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。
1.2内部结构
空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。
当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。
2认知过程
2.1认知过程概念图
空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。
2.2认知过程描述
这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。
数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。
由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。
3认知的概念定义
3.1世界模型
实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。
3.1.1现实世界模型
现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。
现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。
本文原文
3.1.3地理工程现实世界模型
地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。
3.1.4地理工程概念世界模型
要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。
3.1.5地理工程尺度世界模型
将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分类世界模型
按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。
3.1.7地理要素编码世界模型
要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。
3.1.8地理要素几何世界模型
为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。
3.1.9地理要素集合世界模型
因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。
定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。
3.1.10地理空间抽取世界模型
地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。
3.1.11地理空间整合世界模型
数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。
3.1.12地理空间统一世界模型
实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。
3.1.13地理空间产品世界模型
随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。
定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。
3.1.14地理空间决策世界模型
建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。
定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。
3.2转换算子
在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。
4结束语
目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。
参考文献:
[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.
[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.
[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.
[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.
[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.
[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.
[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.
[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.
[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.
[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.
[12]周炎坤,李满春.大型空间数据仓库初探[J].测绘通报,2000,22(8):22-23.
篇9
一、词典编纂实践
词典编纂实践依然是词典学的基础活动,主要议题有:(1)专科词典编纂,如Ana Koren(斯洛文尼亚) 的英语斯洛文尼亚语网络习语词典、Cathy Wong(香港)的粤语英语借词词源词典、Baldev Ram Khandoliyan等(印度)的梵语医学古籍电子词库、意大利Macerata大学孔子学院团队编纂的汉语新词词典以及Patrick Leroyer(丹麦)的红酒网络词库――OENOLEX Burgundy;(2)通用词典的媒介革新,如台湾大学团队论述了汉语词网的维基化(CWKIN),ames Breen等(澳大利亚)概述了《日语多语言词典》在线数据库(MDictDB)的设计和研发;(3)濒危语言词典编纂,如Nor ashimah alaluddin 等(马来西亚)介绍了编纂土著族Mendriq母语词典的理论和实践探索;(4)词典语料库创建,如菲律宾大学菲语研究中心的Bantay Wika项目就是为确保菲语的国家地位,利用现代信息技术创建的大型国语语料库,它不仅可用于拼写变体与词频描述,更是编纂菲律宾单语词典的数据基础。
二、词典学研究
词典学研究包含词典编纂研究与用户使用研究两大话题,详列如下:
1.元词典学研究
(1)结构层面的研究:对词典结构层面的研究仍是主流,集中于选词、立目、释义、翻译、配例、用法、编排等方面:陶原珂(中国)追溯了汉语词典词条微观结构的变迁及词目规范化的历程;Danica Salazar(英国)梳理了《牛津英语词典》第三版中东南亚词汇的收录情况;Ai Inoue(日本)分析了英语新现复合副词短语“be in and out”的语义、组合和语法行为;Makoto Sumiyoshi (日本)基于“美国当代英语语料库”和“历史美语语料库”揭示了多词表达的配价形式特征,二者的研究都致力于改善词典对短语单位的覆盖和处理。
Alenka Vrbinc(斯洛文尼亚)研究了纸质单语词典中未定义的副词内词条在网络词典中的释义类型、义项分类及其存在的问题;Kim Mi yun(法国)对比了《标准韩语词典》(纸质)与《韩语词汇网络》中身体名词的释义方式; Francois Nemo等(法国)尝试在电子词典的多义词释义中引入韵律;Shan Wang等(香港、新加坡)探索了“汉语词汇特性速描”(Chinese Word Sketch Engine)在词典释义尤其是近义词意义辨析时的应用;李知宇等(中国)比较了两部纸本汉英专科词典《体育科学词典》(2000)与《体育大词典》(1984)的宏、微观结构,着重分析了立目、词长、译义的不足之处,为编纂网络体育词典提供了可行的参考方案;Rosario B. Dizon等(菲律宾)从接受反应理论(Receptivereflection Theory)和翻译学的视角分析了《多语军事词典》的等值翻译技巧;Ni Ketut Mirahayuni(印度尼西亚)调查了英语复合动词的构建方式和构成因子,进而辅助印尼语等值词的确定。
Shin’ichiro ISIKAWA(日本)基于“亚洲英语学习者国际语料库网络”,考察了中、日、韩三国英语学习者典型的词汇使用过度和使用不足现象,以此扩充EFL词典常规的用法说明;Yoshiho Satake(日本)基于“日本英语学习者语料库”和“国际跨语言中介语语料库”分析了日本学习者的高频动宾搭配失误,为撰写词典搭配错误说明提供了实证基础;Adam Kilgarriff(英国)介绍了Word Sketch在描述词的组合形式与语法关系中的应用,以期丰富词条的搭配与语法信息;Yukio Tono(日本)探索了如何基于《欧洲语言共同参考框架》(Common European Framework of Reference for Languages:Learning,Teaching,Assessment,CEFR)评估和排列词典中的语言项目(语法、词汇、意义和功能)。
(2)知识层面的研究:Yuka Ishikawa(日本)讨论了《基本日英词典》第二版的例句和用法说明中蕴含的性别偏见;Diah Ariani Arimbi(印度尼西亚)选取《剑桥高级英语词典》第三版的CDROM数据库,分析了含“man”“woman”且带“approving”“disapproving”标签的例句,揭示了英语语言的“语言转向”(Linguistic Turn)及性别歧视;Irpan Apandi Batubara(印度尼西亚)基于Collins Cobuild资源包的Wordbank,对“Indonesia”一词的索引行进行了内容分析和来源分析,得出了印度尼西亚的国家轮廓,探讨了词典编纂与网络资源的关系。
(3)技术层面的研究:Wafa WALI等(突尼斯)探索了LMF(Lexical Markup Framework)标准化词典中语义异常的自动发现机制;Charles Kivunja(澳大利亚)介绍了数据挖掘软件Leximancer的主要功能及其在词典设计、编纂中的实际应用;Toshihiko Uemura(日本)强调了网络词典载体升级(从个人电脑到平板电脑)的必要性及技术调整方案。
(4)规划层面的研究:enning Bergenholtz(丹麦)讨论了语言学家在词典规划和编纂实践中的角色;Muhammad(印度尼西亚)分析了编纂英印双语词典时可能遇到的文化差异、语法结构及科技新词方面的难点,并阐释了编纂者须满足的资质要求;Antonia Cristinoi(法国)归纳了编纂濒危语言词典的挑战及对策;Sri Andayani(印度尼西亚)论述了编纂东爪哇语词典面临的问题和困难; Saravanan Raja(印度)指出一部庙宇建筑术语词典应具有的结构、组织特征;高永伟(中国)谈到《英汉大词典》第三版的网络化计划;Michal varn等(捷克)阐述了基于SUMO(Suggested Upper Merged Ontology)与过程颗粒度创建一部逻辑词典的可能性。
2.用户视角研究
(1)用户需求研究:ilary Nesi等(英国)通过搜集、分析网络社区Yahoo!Answers 和Knowledge iN的词典相关问题,比较了英、韩两国词典使用者的查阅期望和知识需求;irapa Vitayapirak(泰国)调研了泰国大学生对智能手机电子词典的查询倾向、动机及目的; Dora Amalia(印度尼西亚)考察了高级印尼语学习者在解码与编码情境下对四种释义类型(同义词对释、“属+种差”定义、配价形式以及jika―定义)的偏好与选择;Paul ulian Santiago(菲律宾)调查了日本的菲律宾语学习者在语言产出时对日菲词典词条微观结构信息项(释词、例证、语法信息、句法信息)的查阅和利用。
(2)词典使用研究:Robert Lew(波兰)考察了由词典媒介革新导引的词典使用技能与策略的更新;Christopher Winestock等(韩国)阐释了智能手机词典应用程序的商业模式、市场份额、定价策略、竞争对手及发展趋势;Chaker amdi(阿尔及利亚)调查了CDROM词典和屏幕文本显示对提高英语学习者阅读理解水平的积极影响;Toshiko Koyama(日本)调查了电子词典使用策略训练如何有助于日本英语学习者内化查阅技能、强化阅读理解和词汇学习;薛梅(中国)研究了词典(或词表)使用在中国英语学习者的阅读理解及偶然性词汇习得中的有效作用;Simon Potter(日本)介绍了他本人在2006―2012年间编纂的五部美国英语词典的缘起、定位、结构及其在日本名古屋大学英语课上作为文化教材的使用情况。
三、评述
基于大会论文的研究动态和关注焦点,当今国际辞书界,尤其是亚洲辞书界的词典编纂与研究可总结出三大新趋势:
第一,现代电子信息技术极大地拓延了词典学的学科疆域,拓宽了词典学的研究视野,拓展了词典学的研究方法。可以说,以计算机、互联网、数据库、语料库技术为支撑的词典编纂与研究已演进为当代学者开展实践与理论活动的默认范式,并正朝着语料深加工、语料数据化的方向稳步迈进。1999年,亚洲辞书学会第一届年会上,章宜华教授(1999:49)曾提到“语料库作为语言研究和词典编纂的有效工具已被人们所认识,但由于经济和技术支持方面的原因,实施起来还有一定的困难”。如今,不到15年光景,词典学的整体风貌和具体环节已发生了革命性巨变。可以预见,在未来,词典学还将继续朝着数字化、智能化、网络化、市场化的方向深入发展。
第二,在当今信息时代,词典学理论体系的构建还远远滞后于自身的实践发展。在信息科学的冲击下,传统词典的核心特征日渐模糊,辞书业的研究版图重新布局,构成词典学基石的理论观点也在一一瓦解。纵观参会的50篇论文,大多偏重实用的局部探索,很少开展宏观的理论探索。一方面,这反映了国际词典界务实的风气;再则,这也与西方辞书界重“术”轻“学”的传统相契合(如Casares的《现代词典学导论》、Zgusta的《词典编纂手册》、Béjoint的《英语词典学》等均无意行理论之名)。另一方面,秉持“理论照亮实践,实践丰富理论”的思路,我们必须意识到,在词典学活动如井喷般活跃之时,也是它最亟待规范之际。在新型传载媒介的浪潮中,面对形形的新思路、新工具、新技术,非常有必要建立一套与词典学当下发展相匹配的原则、方法与程序,尤其是有关网络词典编纂规范、质量标准、评价指标的制定,尤为紧迫。
第三,对一个多民族的统一国家而言,词典对其文化发展有特殊重要的意义。本次学术会议虽然仍围绕英语单语、双语、多语词典的编纂与研究,但小语种和民族语言尤其是濒危语言词典研究已颇具规模。关于词典和语言的关系,过去一直强调“词典工具论”“词典再现论”,自俄语专著《理论与实践词典学》(1998)将词典的社会性正式纳入辞书研究范畴以来,词典对语言的能动作用就愈发凸显。本次大会的多篇论文都显示了词典在拯救濒危文化、增强民族凝聚力、维护民族团结方面的作用。
新时期的词典学还呈现出若干其他新特点,如专科词典编纂超越语文词典编纂,用户视角研究盛于编者视角研究,词典史考察日趋冷淡,众源编纂方式逐渐兴起等等。论文议题还显示,词典学与跨文化交际、翻译学、外语教学、二语习得、社会学、历史学、术语学、统计学等学科领域已交汇融合,词典学研究正以前所未有的广阔度和多样性铺展开来。然而,再度思索,我们发现多数课题的研究深度还远远不够。获益于认知语言学、语料库语言学、词汇语义学、短语学等关于词汇意义理论的最新成果(如原型理论、框架语义学、配价语法、搭配理论、构式语法、规范与变异理论等,不一而足)的研究尚不多见,具有深厚学理与前瞻远见的研究还屈指可数。广阔度有余,专深度不足,这也是当今词典学界繁荣表面背后的隐忧。
词典,作为人类步入文明社会后出现的一种认知工具,它对人类社会的文化传承起着举足轻重的作用。“几千年来,特别是近现代,语言研究在一刻不停地进行,语言学理论在一刻不停地翻新。”(雍和明 2004:49)辞书领域同样如此。从1604年第一部英语单语词典起,词典编纂经历了17世纪的难词传统,18世纪的文学传统,19世纪的历史传统,20世纪的学术、实用、学习传统三分天下,时至今日,拜迅猛的科技发展所赐,我们正在经历词典史上千年未遇之变局,辞书的编纂理念、呈现形态、使用方式等方面都取得了一系列颠覆性的创新。一言以蔽之,在物质基础、研究客体、研究工具日益更新的前提下,词典学的思想体系和方法系统唯有随之不断升级,才能保持这门学科长久的生命力,走上“可持续发展”的道路。
参考文献
1.雍和明. 语言・词典与词典学.外语与外语教学,2004(1).
2.章宜华. 亚洲辞书界的盛会――亚洲辞书学会第一届年会侧记.辞书研究,1999(3).
3.Béjoint . Modern Lexicography: An Introduction . Oxford: Oxford University Press, 2000.
4.Casares . Introduction a la Lexicografia Moderna . Consejo Superior de Investigaciones Cientifica, 1969.
5.Kwary A D, Wulan N, Musyahda L. (eds.) Lexicography and Dictionaries in the Information Age: Selected Papers from the 8th ASIALEX International Conference. Surabaya: Airlangga University Press, 2013.
篇10
[关键词]大数据;宏观经济学;教学改革
doi:10.3969/j.issn.1673 - 0194.2017.06.162
[中图分类号]G642.0 [文献标识码]A [文章编号]1673-0194(2017)06-0-02
0 引 言
随着计算机互联网、移动互联网、物联网、云计算、社交网络等现代网络新技术突飞猛进的发展,人们通过网络浏览、搜索、购物等行为产生的数据日益增多,致使人们迈入了数据以大量性、多样性、价值性和高速性为特征的大数据时代。在我国,大数据已提升到国家战略的层面,国务院于2015年颁布的《促进大数据发展行动纲要》指出,“深化大数据在各行业创新应用”,在文化、教育等领域全面推广大数据应用和开展大数据应用示范。十八届五中全会通过的“十三五”规划纲要进一步提出了将“实施国家大数据战略,推进数据资源开放共享”。
目前,大数据及大数据技术已经渗透到经济、社会、生活的方方面面,并影响着人们的理念、行为和习惯,其中,本科高等教育也深受影响。随着大稻莸募铀俜⒄梗现代教学技术不断转型升级,出现了慕课、微课、翻转课程等新的教学方法,对传统的本科教学也提出了前所未有的新要求。如何追随大数据时展带来的深刻改革,对教师掌握日新月异的现代教学理念,提高教学效果具有重要的意义。国内已有学者探讨了大数据对应用经济学、国际经济学、财政学、统计学和管理统计学等课程教学的影响及相应的调整策略。尽管刘涛雄和徐晓飞(2015)、姜疆(2016)、申红艳 等(2014)探讨了大数据时代的宏观经济分析,但鲜有文献研究大数据对宏观经济学教学的影响。因此,本文拟在大数据时代探讨宏观经济学本科的教学改革。
1 宏观经济学传统教学模式中的问题
宏观经济学是经济管理类专业中一门承上启下的基础课程,是经济管理类硕士与博士研究生入学考试的必考课程。宏观经济学研究整体经济现象,解释同时影响许多家庭、企业和市场的经济变化,主要考察国民收入的决定与变动、短期的经济波动、长期的经济增长、就业、通货膨胀和国际收支等问题。当前大部分高校的宏观经济学还是采用传统的教学模式,存在诸如注重理论教学、轻实践教学;教学方式单一、学生自主学习意愿不强;考核方式偏向固定化等问题。
1.1 注重理论教学,轻实践教学
宏观经济学是理论性和实践性均比较强的一门基础课程,该课程的理论可以指导解决现实生活中的经济问题和现象。但在传统的教学中,主要以讲授抽象难懂的理论知识为主,如国民收入决定理论模型、IS-LM模型、AD-AS模型等,为了让学生能够理解清楚宏观经济学理论的内涵,任课教师往往会用大量的时间去讲解这些理论知识,尽管在一定程度上有利于学生掌握理论知识,但占据了太多的课堂时间、消耗了教师太多的精力,教师在课堂上基本没有多余的时间和精力区开展实践性教学。
1.2 教学模式单一,学生自主学习意愿不强
大多数高校的宏观经济学仍采用教师课前备课,课堂上讲授教材附带或自作的PPT,课后解答疑难问题单一的传统教学模式。这种教学模式以教师为主体,教师在课堂上讲授的内容是学生获取知识的主要途径,而且教师课堂讲授占据了大部分的课堂时间,留给学生在课堂上讨论的机会和时间并不多,学生在课堂上以被动听讲为主,导致学生自主学习意愿不强,这不利于提高学生提问、探索、思考问题的能力。传统的课堂教学深受时间和空间的限制,教师完全掌握了教学进度,学生基本上按教学大纲进行学习,自主安排学习的空间不多,这不利于激发学生学习的积极性。
1.3 考核方式偏向固定化
传统的宏观经济学考核方式主要以期末考试为主,课程成绩一般按照平时成绩(包括出勤、作业、课堂表现、期中考试成绩等)与期末考试成绩3∶7或4∶6的比例加权平均组成。这种考核方式尽管在一定程度上能够相对客观地检验学生掌握宏观经济学基本概念、原理和规律等内容的情况,但也可能存在教师在试题命题过程中因为没有为主观题和客观题设置合理的比例,而出现学生平时上课不认真听讲,通过考前死记硬背获得高分的问题,未能检验学生运用宏观经济学理论分析并解决问题的能力。传统的考核方式也未对学生的学习态度、实践能力进行考核。
2 大数据时代宏观经济学教学改革的探讨
大数据时代为宏观经济学教学带来了海量的数据和新颖的案例等资料,为宏观经济学课堂教学提供了既丰富又生动的素材,为推进宏观经济学教学改革提供了强有力的保障。在大数据时代,对宏观经济学教学进行改革,可以提高教学效率、激发学生学习兴趣、培养学生独立思考和解决问题的能力,更有利于经济管理类专业学生掌握宏观经济学基础知识,为学习国际经济学、金融经济学、财政学等后续专业课程奠定扎实的基础,并为参加研究生入学、政府机关、金融机构、高校等用人单位的招聘考试做好充分准备。
2.1 形成基于大数据的教学理念
大数据时代要求人们要形成大数据思维,同样,大数据背景下的宏观经济学课程教学改革也需要具备大数据的思维。为了形成基于大数据的教学理念,任课教师要紧紧跟随大数据时展的步伐,积极参加各种运用大数据改进教学的培训、进修,认真学数据时代先进的教学技术和方法,并不断将这些教学技术和方法引入宏观经济学课堂教学中。
2.2 多渠道丰富教学内容
第一,添加大数据时代的海量数据信息资料,丰富教学内容。传统的宏观经济学教学存在理论性较强的问题,在大数据时代,任课教师可辅之以海量数据信息资料来丰富教学内容。与纯粹理论知识教学不同,基于现实经济现象的数据案例教学更加生动有趣,更能激发学生学习的积极性,更有助于学生牢固掌握抽象的宏观经济学理论知识,并提高运用宏观经济学理论分析问题和解决问题的能力。比如,在讲授居民消费价格指数(CPI)时,可分别引入基于扫描数据、网络搜索数据、谷歌趋势(Google Trends)预测CPI等案例分析。宏观经济学课程中,所有章节的内容基本都可以通过互联网查找到大量相关的数据信息资料,利用这些资料可以更新、修订教学大纲、教案和讲义,有利于丰富教学内容,也有助于提高教学效果。
第二,增加运用大数据技术进行宏观经济分析的内容。在经济新常态下,我国经济发展面临着更加错综复杂的国内外形势和更加繁重艰巨的任务,因此,宏观经济决策对宏观经济分析提出了更高的要求。“十三五”规划纲要中指出“完善政策制定和决策机制:注重运用互联网、统计云、大数据技术,提高经济运行信息及时性、全面性和准确性”。因此,在大数据时代的宏观经济学教学改革有必要加入宏观经济分析。
传统的宏观经济分析主要通过对比宏观经济指标、构建宏观经济计量模型、仿真宏观经济动力系统,对宏观经济运行形势及其发展趋势加以判断和预测。大数据时代的数据规模大、类型多,拓宽了宏观经济分析所用数据信息的来源,并提高了数据信息获取的时效性。目前,国内外运用大数据的概念、方法和技术进行宏观经济分析的研究主要集中在宏观经济预测(尤其是现时预测)、宏观经济分析技术、宏观经济政策和宏观经济数据挖掘等领域。
第三,借助大数据时代媒体报道拓宽知识面。在学习教材的基础上,可推荐学生通过互联网;物联网;经济信息联播、经济半小时、经济信息联播等财经类电视节目;《21世o经济报道》《经济观察报》《金融时报》《经济学人》等报纸杂志的财经报道,多渠道关注宏观经济热点问题,拓宽学生的知识面。
2.3 加强实践性教学
培养学生熟练运用宏观经济学理论与方法分析国内外现实生活中的经济问题和现象是宏观经济学教学的目标。因此,任课教师在讲授理论知识和方法的基础上,更应注重实践教学。
大数据时代的宏观经济学本科实践教学,应当以培养学生的主动性和创造性为根本出发点,任课教师可以以宏观经济学理论知识和丰富的大数据资源为基础,结合与大数据相关的课题、论文,将宏观经济领域的研究思想、研究方法、研究前沿引入教学。具体而言,教师可通过引导学生如何观察现实经济问题进行选题,如何结合宏观经济学理论构建数学模型,如何查找和整理文献,如何搜集大样本的宏观经济数据,如何撰写学术论文并加以修改等方式增加研究性教学。鼓励学生积极参与到研究中,使学生在研究过程中不断学习和实践,培养学生独立思考的习惯,提高其研究学习能力。
此外,还可采取“走出去”与“请进来”相结合的战略开展实践性教学。“走出去”是指组织学生到当地的统计局、发改委、经信委等与宏观经济运行紧密相关的政府部门和互联网、金融、电信、零售等应用大数据的企业进行参观学习,加强与这些单位开展深入合作,建立校外实训实习基地,让学生真正参与宏观经济学实践活动。“请进来”是邀请这些单位既熟悉宏观经济学分析,又精通大数据分析的工作人员到学校为学生开展报告、经验交流座谈会。
2.4 采用“以学生为中心”的教学模式
大数据时代的在线教学平台、翻转课堂、微课、慕课,为实现宏观经济学教学模式,由“以教师为中心”转换为“以学生为中心”提供了保障。具体来说,教师可先根据课程标准和教学实践的要求,制作宏观经济学课程教学大纲,接着按照微课、慕课、翻转课堂等教学模式的要求,从学生学习需求的角度出发,将每章节内容制作成PPT、视频、练习题、测试题、讨论题、评分标准等资料,然后将这些资料上传至教学平台,为学生提供丰富的学习资源,也为学生提供更多自主学习的空间,这样学生可随时随地通过在线教学平台进行自主学习。
在线教学平台采用交互式的短视频学习模式,以10分钟左右的片段式多媒体视频为主,并在线完成配套的测试题,让学生在轻松有趣的环境下掌握枯燥无味的宏观经济学原理,有利于激发学生的学习兴趣,提高学习效率。在线教学平台为学生和教师、学生和学生、教师和教师之间搭建了交流平台,通过平台可以相互发表观点、交流意见、提问、解答等,有利于增加师生的互动,也有利于培养学生思考、分析和解决现实经济问题的能力。此外,在线教学平台会将学生的学习行为进行记录,并根据记忆退化曲线提醒学生哪些内容需要及时复习,进一步运用大数据技术对平台记录的学生信息进行分析,可提炼出学生的学习能力、性格特征、学习状态等信息,依此开展有针对性的个性化教育。
2.5 实施多元化考核
在大数据背景下,宏观经济学课程应采用多元化考核方式,既考核学生对宏观经济学理论知识的理解程度,也考核学生综合运用宏观经济学知识的能力,同时,也考核学生在线学习和参与宏观经济学实践教学等情况。如,其可根据教学平台记录学生完整的在线学习过程(包括每一个知识点内容的学习进度、完成配套练习和测试的情况,完成答题的时间、答题的熟练程度、答题的顺序和答题的次数等),并结合参加实践性教学的情况、对各部分内容掌握的情况、课堂表现、出勤等综合考核,给出合理的课程成绩以及相应的评价。
3 结 语
大数据时代的到来,为宏观经济学课堂教学提供大量的数据和丰富生动的案例等资料。在宏观经济学教学改革中,应紧扣大数据时展的脉搏,充分把握好大数据时代带来的有利条件,整合一切可以整合的大数据资源,合理运用翻转课堂、微课、慕课等新教学方法,更好地发挥大数据服务宏观经济学本科教学改革,不断提高教学效果。
主要参考文献
[1]白雪.大数据时代下高校应用经济学教学改革模式探析[J].经济师,2016(3).
[2]方霞.教育大数据助力《国际经济学》课堂教学改革[J].金融理论与教学,2016(3).
[3]卢盛峰.大数据背景下《财政学》本科教学改革探析[J].湖北经济学院学报:人文社会科学版,2015(2).
[4]朱建平,李秋雅.大数据对大学教学的影响[J].中国大学教学,2014(9).
[5]刘帆.大数据时代经管类专业管理统计学教学改革研究[J].中国管理信息化,2016(15).
[6]刘涛雄,徐晓飞.大数据与宏观经济分析研究综述[J].国外理论动态,2015(1).
免责声明
公务员之家所有资料均来源于本站老师原创写作和网友上传,仅供会员学习和参考。本站非任何杂志的官方网站,直投稿件和出版请联系杂志社。