数据分析设计范文
时间:2023-05-04 13:16:29
导语:如何才能写好一篇数据分析设计,这就需要搜集整理更多的资料和文献,欢迎阅读由公文云整理的十篇范文,供你借鉴。

篇1
关键词:习题设计;发展 ;数据分析观念
【中图分类号】G 【文献标识码】B 【文章编号】1008-1216(2016)12C-0029-02
简单的数据统计重在让学生经历数据的收集、整理和分析过程,掌握一些简单的数据处理技能,感受数据蕴含着的信息,培养初步的数据分析观念。在课堂教学中,这一核心知识受到教师的足够重视,然而我们的课堂时间有限,仅仅依靠教材提供的有限的统计活动还不足以发展学生的数据分析观念。如果能够依托统计教学的核心,灵活设计习题,从不同侧重点进行有针对性的训练,有意识地让学生运用数据分析解决问题,将能发展学生的数据分析观念,使习题成为教材的有益补充。
一、丰富统计素材,主动收集整理数据
培养数据分析观念的首要方面是引导学生有意识地从数据的角度思考有关问题,就是遇到有关问题时能够想到通过设计简单的数据收集计划收集所需数据,解决所求问题,从而体会到数据是有用的,数据中蕴含着我们想要的信息。教师在进行练习设计时,要考虑不同年龄学生生活经验和认知水平的差异,赋予习题鲜活的背景,激励学生主动收集整理数据。
在学习了简单的统计图表之后,我设计如下统计练习:
夏天到了,吃冰激凌成为很多孩子的爱好,学校门前的张老板想通过一个调查来了解哪种口味的冰激凌在我们学校最流行。
(1)小组讨论:要完成这项任务,你们需要做哪些工作?请在下面的表格中,圈出需要的选项。
1 确定调查时间,设计调查用的统计表。
2 以小组为单位,每班随机抽取15名学生,对他们最喜欢的冰激凌进行调查统计。
3 以小组为单位,对我校学生的年龄进行调查统计。
4 汇总统计表,绘制条形统计图。
(2)小组合理分工,展开调查统计。
(3)根据分析结果给张老板提出一些建议。对爱吃冰激凌的同学又会提出什么建议?
吃冰激凌是孩子们的最爱,与学生的生活密切相关,很容易引起他们的共鸣。学生意识到要想帮张老板解决这一问题,调查收集数据是必需的,有用的,激发学生热情投身学习活动。真实的统计数据,会帮助张老板解决现实的问题。而对爱吃冰激凌的同学提建议,又有意识地对学生进行健康常识教育。由扶到放的习题设计,帮助学生逐步提高开展实际调查的能力。
二、精心设计问题提高分析数据信息能力
从不同角度分析数据,以便从数据中获得尽可能多的信息,并发现蕴含其中的一些规律,是数据分析观念的基本内涵之一。练习中通过精心设计问题串,引导学生从不同角度理解和分析数据信息,感受数据分析方法的多样性,并为发现和提出更有意义的问题提供机会。
小明家每两个月交一次水费,每次用水的吨数如下表:
月份 1~2月 3~4月 5~6月 7~8月 9~10月 11~12月
用水量(吨) 8 5 6 16 7 6
根据上表回答以下问题:
(1)从上表中知道,用水量最多的是哪两个月份?最少呢?分别占全年总用水量的百分之几?
(2)全年平均每个月用水多少吨?
(3)根据生活常识,你能解释一下为什么7~8月份的用水量最多吗?
(4)如果想说明7~8月份的用水量比全年的1/4还多,选( )统计图表示最容易使人明白。
本题中前两题从一组数据的极值入手,大致了解数据的分布范围,对于家庭用水量有个初步了解。然后通过计算解决其中一个月份与全年之间的关系,并通过平均数分析用水情况,对于出现的极端情况,尝试利用生活常识进行解释,使学生体会极端数据出现的原因,最后通过选择统计图,加深对各种统计图的特征的把握,进一步增强学生根据解决问题需要灵活选择统计图分析数据的能力。
三、连贯使用数据提高收集整理数据意识
对于同样的数据,由于背景和目标不同可以有多种分析的方法,需要根据问题背景选择合适的方法。每年学校都会组织学生进行体检,我将学生的身高情况及时收集,保存。在解决“ 铁道部门规定,儿童身高在120厘米以下乘火车免票,120~150厘米之间享受半价。我们班有多少人乘火车可以享受免票?有多少人需要购买全价票?”这一习题时,我组织学生讨论并形成一些可行的收集学生身高的方法,将最近学生体检的身高数据及时呈现在大屏幕上,学生感到非常惊讶,感到老师真是个有心人,根据提供的数据学生很快列表整理信息,顺利解决问题,老师这种收集和整理重要数据的习惯,使学生也受到潜移默化的影响。这时,我进一步追问,看到这些身高的数据,它们还能帮助我们解决什么问题。学生想到可以了解自己身高在班级处于什么情况,学校可以根据身高给我们定做课桌椅,可以定做校服……这时我又呈现,定做校服时大号、中号、小号和特号相关的身高要求,然后让学生根据需要重新对刚才的数据进行分组整理。通过变换问题情境,使学生体验到同一数据由于要解决的问题不同,整理、分析的方法往往会不同。
到了五年级学习了折线统计图,我再一次将学生身高情况呈现给学生,不同的是这次我将每个同学1~5年级的身高情况都呈现出来,学生感到非常兴奋,“你能将自己这5年的身高情况绘制成折线统计图吗?”,学生绘制非常用心,在组内交流近5年身高增长情况时更是积极主动,分析得头头是道。这时我又引导学生根据自己身高增长情况对六年级的身高进行预测,并学习老师,做一个“数据收藏家”,记住自己的身高,到时看看自己预测得准不准。
等到六年级复习时,我再次呈现,学生将六年来的身高增长情况绘制完整,并检验自己的预测,同时对自己15岁时的身高情况再次进行预测,此时,给学生增加了我市近年来男、女生平均身高增长统计图,发现男女生13~15岁身高增长的一些规律,很多同学又调整了预测。同样的身高数据由于解决的问题不同,分析方法大不相同,对数据进行横向及纵向的比较,会使我们的判断和预测更准一些。
四、巧设矛盾冲突促进动手实验能力提升
游戏是激发学生主动参与统计活动的很好方式,在游戏实验活动中通过数据体会概率事件的随机性,在教学可能性时,我设计这样一题:
小明和小军两人玩游戏,袋子里放有2个和1个,每次任意从中摸出两个图形,摸完后放回,如果摸到的两个图形能拼成平行四边形为小明赢,如果能拼成小房子图形,则是小军赢。你认为这样的游戏公平吗?同桌的同学玩一玩,看看拼成哪种图形的人赢的次数多?想想为什么?
游戏中的三个图形中有两个是相同的,任意从中摸两个,结果只有2种情况,学生很容易认为游戏是公平的,实际上两种情况出现的可能性大小不同,极易引发学生争辩,促使学生主动通过实验活动求证结论。动手实验正是学生体会随机现象的最佳路径,通过学生的实验,认识到游戏的设计是不公平的,与原有猜测产生冲突,学生急于一探究竟,发现小军赢的可能性会大一些。当然,游戏试验中,也会出现拼成平行四边形的次数等于或超过小军的现象,这一非常规情形的出现也是体会随机现象的重要资源,使学生深刻体会小军赢的可能性大一些,游戏是不公平的,但是小军不会一定赢,更有利于学生感悟随机现象的特点。
五、适度综合运用,全面感受分析数据的意义
统计与概率的内容和其他数学领域的内容有着紧密的联系。这部分课程的教学,应为发展和运用比、分数、百分数、度量、图像等概念提供活动背景,为培养学生综合运用知识解决问题能力提供机会。
王阿姨在汽车销售公司上班,工资由基本工资和销售奖金组成,即每销售1辆汽车给予一定数量的奖金。下表显示王阿姨今年3~6月份销售汽车的辆数与工资情况:
销售汽车辆数 8 10 11 12
月工资(元) 3000 3300 3450 3600
根据上表提供的信息你能算出王阿姨的基本工资是多少,每销售1辆汽车的奖金是多少元吗?
本题紧密联系社会生活实际问题,学生需要在认真理解题意的基础上,借助计算分析题中的数量关系,发现不同信息之间的联系,从而得出正确的计算方法,提升学生数据分析能力,在综合解决问题的过程中全面感受分析数据的意义。
篇2
关键词:数据分析;数据挖掘;大数据;云计算
0引言
商业银行作为经营信用、货币的企业,面向的客户是几乎全方位的,同时银行业的竞争也是异常残酷的[1]。从网点、ATM、POS、网银、手机银行乃至其他网络信息等各类渠道数据信息中,挖掘、分析出有效的数据,可以增加营销效率、加快产品创新,快人一步扩大业务发展空间和市场份额[2]。大数据可以使商业银行决策由经验依赖到数据依赖的转变,实时、深入地把握业务和市场动态,从而更加科学、有效地决策,让商业银行能够稳健、可持续发展[3]。大数据的挖掘、分析可以有效地提高商业银行精细化管理水平,在风险控制、成本核算、资本管理、绩效考核等各个方面发挥出巨大作用,让经营管理能力大幅提升,更理性、更高效、更精确[4]。
1大数据技术
1.1HadoopMapReduce技术
Hadoop是一种分布式系统的平台,通过它可以很轻松地搭建一个高效、高质量的分布系统[5]。Hadoop的最核心的设计思想:MapReduce是Hadoop的核心组件之一,Hadoop主要包括2部分:一是分布式文件系统HDFS,HDFS为海量的数据提供了存储;二是分布式计算框MapReduce,为海量的数据提供了计算。MapReduce是大规模数据计算的利器,Map和Reduce是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集。Hadoop采用并行工作模式,同时维护多个工作数据副本,确保失败的节点能够重新分布处理,具有可靠、高效、可伸缩、低成本的优点。
1.2NOSQL数据库技术
NOSQL(NotOnlySQL)数据库是指非关系数据库。这是相对于传统关系数据库提出的概念,随着Web2.0网站的兴起,数据量越来越大,传统关系型数据在处理大数据、实时读写以及多表联查已经越来越力不从心,而NOSQL以键值对存储,机构不固定,每个元组可以根据需要增加、减少键值对,减少了时间和空间的开销,同时NOSQL可以处理大数据,能够良好地运行在廉价的PC服务器机器上,便于扩展[7]。
1.3内存分析技术
内存分析(In-memoryAnalytics)技术是在内存中直接获取分析数据。随着64位操作系统的普及,系统可用内存大幅度提升,同时由于工艺不断成熟,内存容量不断,价格不断下降。由于内存容量暴增,人们开始直接将数据预读到内存中,对内存中的数据进行分析加工,而不用如传统的那样将数据反复不断地读入内存、写入磁盘,从而极大地提升了数据分析效率。
2商业银行数据应用现状
目前,商业银行对于大数据的挖掘还处于起步阶段,没有一个在设计之初就目标明确的定位于大数据挖掘、分析的系统[8]。现有的几个与数据挖掘相关的管理信息系统有PCRM系统(个人优质客户系统)、RPTS系统(综合报表系统)、GDP系统(基础数据平台系统)等,这些系统在设计之初就具有先天的局限性,它们仅仅是针对某个或者某几个业务部门的应用开发的,远远还谈不上大数据分析。同时这些系统由于没有统一的规划设计,物理架构大致相同,一些重要数据,如定期、活期主档及明细表全部重复加工,造成人力、财力的浪费,效率较低[9]。在上面提到的几个管理信息系统中,GDP系统是相对比较典型的应用,现在对GDP系统物理架构和逻辑架构进行分析。如图1所示的GDP物理架构图,采用成熟的3层B/S架构,2台乃至多台PC服务器部署WEB前置服务,做表示层;由1台小型机部署应用服务程序,做逻辑层;1台小型机上运行数据库系统,做数据访问层。数据库由控制库和日终库组成,其中控制库使用SYBASEASE库,将不同的处理任务划分成一个个的作业链,作业链中包含不同的作业,通过对作业和作业链调度次序进行控制;日终库采用SYBASEIQ库,对日终数据进行高效处理。控制库与日终库可在同一台小型机上。2台PC服务器使用IBMWebSphere部署高可用集群,提供WEB服务,包含作业调度服务和前台展示。
3构建商业银行数据分析
系统模型商业银行作为传统金融企业,与新兴的互联网企业不同之处在于:行内的数据中含有许多机密、隐私的信息,同时无论媒体还是客户都关心银行数据的安全性。在数据挖掘、分析包括使用的时候,效率与安全的选择需要慎重考量。为了避免资源的浪费,本文在设计模型前,必须对现有数据进行详尽分析,剔除重复、无效的数据,将有效数据进行分类。商业银行数据应用中大致可以分为2种类型:一类是高可靠数据,以数据的准确性为主,需要提供给统计部门、核算部门及监管部门,对于这类数据我们必须在使用前进行数据清洗、筛选后,才能够真正使用;另一类则不需要很精确,只需要一个大致数量级或者一个大的方向,主要供决策层、管理经营层及产品研发、营销等部门使用,对于这类数据其实才是真正符合现今大数据的概念,无需对数据进行清洗,可以直接进行挖掘。针对侧重于安全可靠和快速高效这2种不同的需求,以及结合商业银行现有技术发展,本文设计出下面2种模型。
3.1高可靠模型
基于商业银行对数据的精度要求较高,在设计模型时首先考虑的是数据的完整性和安全性,其次才考虑效率等其他的问题。因此,本文对现有成熟和完备的商业银行GDP系统3层架构和业务定位深入分析的基础上,进行了一些改进,克服现有GDP系统3层结构的不足。
3.2高效率模型
对于商业银行精度要求不高,但是非常具有时效性和海量的数据,不需要考虑数据的完整性、安全性。为此,本文使用一些互联网的新技术以及开源的软件,抛弃原有3层架构,引入大数据挖掘新技术,实现大数据的挖掘需求。
4数据分析
当将海量的数据挖掘出来后,怎样使用这些数据?投入这么多人力、物力当然是希望它能带来更多的收益,怎样将数据变成收益?这就需要对数据进行分析,结合自身以及行业的现状进行分析。在传统的数据中,以少量的数据为依据,以数据的准确性为目标进行的统计工作,其实这样的统计是有偏差和片面的。而大数据则以海量数据为依托,强调数据的完整性、综合性和复杂性,通过答题轮廓,捕捉发展脉络,确定未来发展方向。从决策层出发,大数据可以为我们更快地找出未来银行的发展方向,最大限度地避免在决策方向上出现偏差。一直以来商业银行的决策是由个人或小团队进行的,但是在这些决策中往往有很多依靠过往的经验、主管判断的,这就带来决策缺少扎实的依据,很多决策适合一些地方,但在另外一些地方却未必很适合。特别是现在科技发展日新月异,对传统银行业带来了巨大的冲击,原来的很多经验不但不能带来帮助,甚至会制约决策层的思维,决策远远满足不了前瞻性、有效性和针对性的要求。
而大数据的分析则可以更准确、更快捷地帮助决策层把握脉络,从而做出具有前瞻性、及时的、精准的决策。从管理执行层来看,通过大数据的分析可以更快捷地推出精品产品,更有效地营销客户,更高效的使用行内各种资源,提高管理能力,创造更多利润。通过大数据的分析,管理层能够分析出哪些产品受哪些客户的喜好,分析各类客户都有什么需求,可以根据这些有针对性地开发一些受客户欢迎的产品。可以对一些高质量的VIP客户进行分析,对他们的资金利用进行跟踪,尽量将资金链锁定在行内,利用资金空闲时段进行中间业务的营销,可以对这些客户在贷款的利率上进行一定幅度的优惠等等。可以对基层行、网点人员效率进行分析、优化,对行内的电子设备,如ATM、POS机等进行分析,在使用量庞大的地方可以加大投放,收回一些效率低下的设备等等。从监管层来看,通过大数据的分析可以更加直观、有效地对商业银行的合规经营做出监管。可以从大数据中对各地的经营、营销费用、采购招标等需要进行监管的地方进行分析,一旦发现某个地方有异常情况,就可以进行重点关注、重点监管,而不是像以前那样无差别的监管,或者靠经验去进行监管,从而能够更快、更有效地进行监管,提前去发现问题,制止问题事件的扩大,为商业银行减少损失,更有效保障商业银行的利益。
5结语
大数据在商业银行决策、生产运行和经营管理中越来越重要,构建商业银行自身的大数据挖掘、分析系统已经迫在眉睫了,如何构建大数据分析系统、利用分析系统实现数据到价值、利润的转化,这需要不断的研究。本文通过深入分析商业银行的数据分析现状,总结其数据分析的优、缺点。并针对侧重于安全可靠和快速高效2种不同需求,以及结合商业银行现有技术发展,设计了商业银行数据分析系统,使商业银行从珍贵数据中分析、挖掘对其战略发展和业务经营有巨大推动作用的信息。
参考文献:
[1]薛良飞.云计算在新型信息化系统中的综合研究[D].济南:山东大学,2013.
[2]李斌,黄治国,彭星.利率市场化会降低城市商业银行投融资水平吗?——基于中国24家城市商业银行数据的实证研究[J].中南财经政法大学学报,2015(1):40-47.
[3]方先明,苏晓珺,孙利.我国商业银行竞争力水平研究——基于2010—2012年16家上市商业银行数据的分析[J].中央财经大学学报,2014(3):31-38.
[4]刘晓茜.云计算数据中心结构及其调度机制研究[D].北京:中国科学技术大学,2011.[5]陆嘉恒.Hadoop实战[M].北京:机械工业出版社,2012.
[6]张世明,徐和祥,钱冬明,等.云架构模式下“网络学习空间人人通”体系探析[J].华东师范大学学报(自然科学版),2014(2):30-39.
[7]江务学,张璟,王志明.云计算及其架构模式[J].辽宁工程技术大学学报(自然科学版),2011(4):575-579.
[8]韩浩.大数据技术在商业银行中的运用探讨[M].苏州:苏州大学,2014.
篇3
一、突出数据分析的意义
统计是研究“数据”的,“数据”和我们平时说的“数”不同,数据是有实际背景的。数据包括数,又不仅仅指数。史宁中教授指出,数据是信息的载体,这个载体包括数,也包括言语、信号、图像,凡是能够承载事物信息的东西,都构成数据。
人们进行统计活动都是有目的的,并不是为了统计而统计。通过对统计数据进行分析,帮助人们进行判断、预测或决策,从而让人们体会到数据中蕴含的信息,这就是数据分析的意义。
这节课中,教师精心安排与现实生活联系紧密的统计内容,呈现丰富的背景,让学生充分感受“数据”是说明问题的有力“证据”,充分感受数据分析不仅是有意思的,更是有意义的。
课堂教学伊始,教师没有平铺直叙,而是组织学生将对春季降水量的感受和经验与数学中的问题联系起来,从“春雨贵如油”“好雨知时节”引出他们对两张折线统计图的辨析。“春雨贵如油”,这是针对北方的春季降雨而言的,春天降水量不大,雨水显得很珍贵;而对于南方来说,春天的降水量要比北方大一些。学生利用经验想象数据,继而出示两张图,学生很自然地将表格中的图像等数据进行对比分析,即用数据来阐释经验,做出判断。
呈现6~18岁男女生平均身高统计图,贴近学生的生活,帮助学生发现数据中蕴含的信息,从数据角度了解学生时期身高变化的特点,有生活味又有数学味。通过对常州、悉尼各月平均气温统计图的分析,了解南半球、北半球的气温情况,判断暑假去澳大利亚旅游带什么样的衣服,问题既是现实的又是有趣的。学生提供建议,必须用数据“说话”。对不锈钢保温杯和陶瓷保温杯的保温效果做出判断,根据数据进行分析,判断是科学的、有说服力的。
全课呈现了不同的统计内容,有“大事”,有“小事”,但每一次的分析,都紧扣数据,感受数据分析的意义,体现统计活动的价值,从而激发学生学习统计知识的兴趣,发展他们的数据分析观念。
二、注重数据分析的方法
传统数学主要根据假设和规定的原则进行计算或推理,而数据分析的方法,却主要采用归纳来推理。著名数理统计学家陈希孺先生认为,统计方法是一种归纳性质的方法,统计推断是一种归纳推断。统计学的研究方法是基于归纳,而传统数学是基于演绎。我们要认识到,归纳推理得出的结论具有随机性,与代数、几何等通过演绎推理得到的结论不同。结论的随机性,并不说明数据分析的方法有问题,而这正是通过数据分析方法得到的统计结果的特性。
在这节课中,教师设计的统计内容,在由数据分析方法得到某些结论时,注意体现数据分析方法的特性。
如,我国男女生平均身高的统计图,这里呈现的数据是根据样本推断出来的,体现了局部推断整体的数据分析方法。把上课班级具体的学生身高与之对照,会有“出入”,教师在学生出现疑义时要给予适度引导:即从总的方面看有其规律性,但要承认例外个案的存在。
再如,暑假去澳大利亚旅游问题,教师首先呈现2002年常州、悉尼各月平均气温统计图,从中引导学生发现:悉尼的气温变化趋势和常州正好相反。教师追问:是因为2002年特别冷吗?再出示从1858年到2002年这145年间悉尼市各月平均气温统计图,学生在对照比较2002年与这145年的数据的过程中,深切体会到了“归纳”的思想,并认识到:对今年的气温情况做出预测,仅看去年的情况,是有一定的随机性和偶然性的,因为每年收集到的数据可能是不同的,所以要将过去的情况综合起来看。天气预报,在一定程度上就是基于对过去积累的气象数据的分析研读,发现数据中隐藏的规律,从而预测将来的天气变化情况。这里,学生对“归纳”的体验特别深刻,正是源自教师的精心设计。
又如,北京奥运会的举办时间,在考虑天气因素时,呈现2003、2004、2005、2006年8月份的降水量统计图,在数据的基础上形成预测与推论,让学生体会到数据分析的预测和决策作用。呈现第25~30届奥运会中国和美国获得金牌情况的统计表,通过分析近6届奥运会上中国与美国所获得金牌的数量,预测下一届奥运会上中国可能获得的金牌数量,这也很好地体现了数据分析方法的特性。即,不能简单地从中国前几届奥运会金牌数量总体呈上升趋势,就断定下一届奥运会金牌数还会上升。
从这节课的教学中,可以看到教师对数据分析方法准确而深刻的认识,进而在教学过程中精妙表达与清晰传递。统计教学“教什么”,是值得我们深入研究的。
三、经历数据分析的过程
数据分析观念,是一种需要在亲身经历的过程中培养出来的对一组数据的“领悟”,是由一组数据所想到的、所推测到的以及在此基础上对于统计独特的思维方法和应用价值的认识。经历数据分析的过程,要围绕“数据”做文章,遇到问题“想数据”,分析问题“用数据”,让学生在看数据时有需求、有目的、有过程、有体会。
哪幅图是北京各月降水量统计图?哪幅图是常州各月降水量统计图?学生并不是盲目地猜测,而是依据对俗语“春雨贵如油”“好雨知时节”的理解,并调度自己的经验,将春季的降水量与其他季节的降水量进行比较,把两张降水量统计图联系起来观察。由此,引导学生对两幅单式折线统计图的数据进行辨别、分析。辨别的过程,也就是对表格中的数据进行分析的过程。教师又通过呈现一连串的需要对单式折线统计图中的数据进行分析比较才能作答的问题,让学生在感到麻烦、困难的过程中体会到单式折线统计图的不足,他们会联系单式条形统计图与复式条形统计图的学习经历寻思“合并”单式折线统计图。这也就产生了学习复式折线统计图的需求,促进学生主动领悟复式折线统计图的特点,明确其使用的情境。
在分析6~12岁男女生平均身高统计图的基础上,让学生预测12岁之后男女生身高变化的情况。这里,教师关注的是让学生体会并理解后面的两条“折线”发生怎样的变化,需要再调查数据、分析数据才能做出判断。之后,对两条“折线”的比较与解读充分体现了复式折线统计图的特点,让学生体悟到数据有助于分析问题。
买哪一种保温杯,教师提出问题:不锈钢保温杯和陶瓷保温杯,哪一种保温效果好一些?教师先让学生联系自己的“经验”说一说,继而出示有关数据的统计表。在此基础上,呈现复式折线统计图,让学生更直观地“看出”哪种保温杯保温效果更好。
不同的统计对象,教师一次又一次让学生面临具体的问题,通过问题引领,运用数据去分析、解释。“数据”是学生发现、提出、分析、解决问题的好伙伴。数据分析观念,是在与数据接触的过程中培养出来的。
这节课,加强了对图、表的分析解读,适当淡化了有关统计图、表的制作,但也不是不要制作。在合并北京、常州各月降水量的统计图时,教师完整地演示复式折线统计图的制作过程,以第一幅图为标准,再描点、注数、连线,并在学生对图例、线条表示方法、统计图的名称等方面提出修改建议的过程中完善了他们对复式折线统计图的认识。而在呈现12~18岁男女生平均身高统计表之后,教师放手让学生根据统计表制作统计图。我们要认识到,制作统计图表,是整个统计活动的中间环节,是作为工具为最终的判断、预测、决策服务的。适当的画图,有助于学生认识图,读懂数据表达的信息。制作图表的过程,也是认识数据的过程。
我们已经形成这样的认识:统计教学应引导学生经历完整的收集、整理、描述和分析数据的过程,发展数据分析观念。我们还要辩证地认识到:让学生经历统计活动的全过程,并不是每一次统计活动都要让学生经历全过程,在统计知识与方法的学习过程中,我们可以组织学生有侧重地参与统计活动的某一个片段。如果在学习统计的过程中,都是让学生经历统计的全过程,并在其中的每一个环节平均着力,那教学也就变得牵强附会、形而上学。
篇4
关键词:大数据;数据挖掘;现代百货业;顾客细分
随着零售业信息技术的发展,如何有效地利用商场信息化带来的数据成为企业生存与发展新的利润增长点,这是现代百货业不得不考虑的问题。华地国际扬州万家福商城通过建立以客户为中心的管理信息系统,分析会员数据的同时可以指导营销,帮助挖掘顾客消费行为和规律, 设计出更加符合顾客需要的商品和服务,在近二十年的系统使用过程中,智能客户关系管理系统得到不断完善,真正做到实现顾客细分,精准营销,极大地增强了企业自身的竞争力。
一、万家福会员卡决策支持系统的设计思路
1.确定目标(理解业务):这是系统模型构建的关键一步,将现实问题转化为数据挖掘的算法,以会员消费数据为基础,最终实现顾客细分,从而达到有针对性对顾客一对一营销的目的。
2.关于数据:包括数据准备和数据理解。数据挖掘的前提是要求数据是真实的、大量的、有效的。在确定了目标之后,选择符合条件的大量数据,对数据进行预处理,包括数据的选择、整理、清理、异常值的处理、标准化处理过程等。
3.建立顾客细分模型:在研究零售业顾客细分模型及方法的基础上,总结出适合万家福商城比较理想的模式,主要功能是实现顾客细分,同时对顾客的细分结果进行分析,并提出相应的营销策略。
4.扩展功能:在实现顾客细分的基础上,进行深层次展望,有针对性地制定营销策略,为决策提供支持。
二、万家福会员卡决策支持系统的实践研究
1.会员资料库基础架构设计
⑴会员卡的静态数据, 如年龄、性别、职业、单位邮编、单位地址、手机号码、兴趣爱好、家庭成员等。
⑵会员卡的消费信息,如购物时间、购买品类、金额、频率等。
⑶会员卡的基础信息定义,包括卡种、卡类型、保管地点、年龄段、地区、职业等。
2.会员决策支持系统及大数据分析
在会员决策系统的大力支持下,管理层可以根据需要对按照不同的属性划分的会员卡进行分析,比如通过对卡的类型 ,持卡人的性别、年龄和居住地可以掌握顾客结构及有关变化的趋势数据,分析顾客的消费行为、寻找新的消费模式等等。
3.根据决策分析支持系统实施会员营销,发展、锁定会员
要想实施精准营销,关键在于目标顾客的筛选,品牌的顾客具备有哪些特征?顾客的购物行为特征是怎样的?等等,会员决策支持系统有对会员数据强大的智能分析功能,管理者可以通过系统平台进行判断、分类,从顾客购买的产品特征判定顾客的消费意识、性别、年龄、购物偏好、行为习惯、家庭情况等,并通过对顾客连续的购买记录进行分析并修正原有的判断。不同品类间的促销组合也可以用来做精准营销,通过会员决策支持系统的会员深度分析模块,可以对品类的关联度分析,当某个区域的商品出现滞销,但又苦于找不到目标群体时,那么就可以通过商品组合做捆绑销售,而这种商品组合经过系统的分析为开展营销活动提供了精准的数据,向顾客传达准确有效的营销信息。
4.深度分析及挖掘会员消费行为数据,案例解析
通过决策分析支持系统的查询和统计分析,我们的目标客户以白领和中产企业家为主,这部分群体具有明显的营销特点:收入较高且稳定、品牌粘性强,对价格不会敏感。维持和提升这部分客户的品牌忠诚度对上本的发展至关重要。
第一步,进行消费引导。借助短信功能平台首先向会员进行生日营销,告知当天购物享双倍积分并有礼品赠送。经过一段时间的短信发送,生日来店的会员明显增多,参与人数由开始的1、2个到后来的十多个至二十几个,逐渐增多。
第二步,开展有效的营销活动。比如,积分营销,分分礼,礼纷纷。会员持卡消费获得积分奖励,积分累计到一定分数将可获赠礼品。
同时,借助决策分析支持系统提供的强大会员筛选器,帮助客服部门多角度准确筛选营销群体,进行时点会员营销。系统提供刷卡赠送、消费实时赠送、累积后赠送等多种促销方式,以电子优惠券、短信的形式精准发送到会员手中。
三、结语
总体而言,基于数据挖掘技术的会员卡决策分析支持系统可以对零售业顾客群进行合理的细分,建立顾客细分模型,有针对性地对目标顾客进行一对一营销,有助于提高营销活动的针对性和有效性,有助于客户关系管理的良好实施。随着信息化的继续发展,必将在数据处理及资源整合,为企业提供决策支持等方面,发挥更大的作用。
参考文献:
[1](美)Michael J A Berry , Gordon SLinoff.数据挖掘技术:市场营销、销售与客户关系管理领域应用[M].机械工业出版社,2011.
[2]利.数据挖掘与商业智能完全解决方案[M].北京:电子工业出版社,2011.
[3]赵涛.商场经营管理:理论、案例、制度、实务――商业现代化与基础管理丛书[M].北京工业大学出版社,2009.
篇5
关键词 海洋环境;环境监测;数据库设计
中图分类号:P71 文献标识码:A 文章编号:1671—7597(2013)021-065-01
当今海洋资源被我们广泛所利用,随之而来的是海洋的污染及其一系列的环境问题,为了可持续发展,我们必须对海洋环境的现状进行有效的监测管理,才能更好的保护海洋资源环境。海洋环境监测是海洋环境保护的“哨兵”和“耳目”,是关系到海洋环境保护事业健康发展的前提和基础,是防止和消除海洋环境污染,减少损害的重要手段。随着我国对个海洋区域维权的开展,渔业,石油等生产活动的不断扩大,长期的,实时的检测海洋环境数据,合理的统计数据分析,将为我国开展可持续发展战略,解决海洋污染,保护生态环境等活动提供可靠有效地数据基础,为海洋区域的灾害预防,解读海洋水文气象变化,监测气象服务提供重要的依据。
1 系统组成及数据库设计
1.1 海洋环境监测系统组成
海洋环境检测系统主要由海洋环境监测站、数据中心、业务应用平台三部分组成。安装在海洋沿岸及其附属平台上的海洋环境监测站,包含一系列数据采集、接收、保存的计算机终端,可以实时检测海洋环境观测数据,这些计算机终端通过海洋岸站与区域中心之间的数据专线或者无线传输网络将数据发送至中心数据库。经过业务应用系统的处理,不同用户可以通过web浏览器交互查询调阅单个或多个、实时的或历史的监测资料以及统计数据,业务平台管理人员还可以通过基础应用平台对设备进行监控,对业务型用户进行授权管理。
1.2 数据库选型
海洋环境监测系统以数据服务和数据分析为主要业务,因此合理高效的数据库设计是系统建设成功的关键之一。稳定,高效,二次开发友好,安全是超大数据量数据库选型的关键点。
中心数据库拟采用Oracle数据库。Oracle数据库属于关系型数据库,能在所有主流平台上运行,并完全支持所有的工业标准,采用完全开放策略,并提供了基于角色(ROLE)分工的安全保密管理,在数据库管理功能、完整性检查、安全性、一致性方面都有良好的表现。Oracle提供了与第三代高级语言的接口软件PRO*系列,能在C,C++等主语言中嵌入SQL语句及过程化(PL/SQL)语句,对数据库中的数据进行操纵,加上它有许多优秀的前台开发工具如 POWER BUILD、SQL*FORMS、VISIA BASIC 等,可以快速开发生成基于客户端PC 平台的应用程序,并具有良好的移植性。
Oracle提供了新的分布式数据库能力,可通过网络较方便地读写远端数据库里的数据,并有对称复制的技术。能够有效应对灾难,快速恢复生产能力。
1.3 数据库模块划分
海洋环境检测系统主要包括以下几个模块:用户模块,权限管理模块,系统设置模块,日志模块,数据检测模块和预警通知模块。
1.4 数据库表设计
1.4.1 数据检测模块
数据监测模块为海洋环境监测系统的核心模块,存储了该系统核心的数据,是系统业务的基石。本模块主要包括实时数据表,日记录表,其相关联的表包括监测站信息表,监测要素信息表,监测项目表等,各表关系及详细信息。
1.4.2 系统设置模块
系统设置模块主要用来设定系统运行时的基础数据,包括站点信息表,监测设置表,系统参数设置表等。站点信息表保存各区域中监测站的序号,地理位置,检测项目,风速风向仪高度等资料数据,每个监测站可监测多个项目。监测设置表保存各站点监测的个性化设置,如监测人员,维修人员,监测时段等等。系统参数设置表保存整个海洋环境监测系统的参数,如访问时间,最大使用内存,最大连接数,日志文件大小等。
1.4.3 日志模块
日志模块用来记录系统运行状况,包括各监测站点运行日志和业务系统运行日志两个部分。监测站点日志包括站点运行日志表和站点维护信息表,其中站点日志表主要记录站点运行状态,如站点实际开始监测时间,实际结束监测时间,运行状况,终端良好率等,站点维护信息表主要记录站点维护信息,如维护人员,维护时间,维护内容,维护费用等。业务系统日志包括Web应用服务器日志和系统运行错误日志。前者可以通过配置Web应用服务器自身日志模块来实现,无需将能大量日志记录保存到数据库中。后者即系统运行错误表主要记录系统运行发生的错误信息,错误堆栈,错误时间等,为系统维护人员排除错误提供决策信息。该表信息简单,不再详述。
1.4.4 预警通知模块
预警通知模块用来对需要通知用户或者管理员的业务逻辑进行监控,促进用户在合理的时间完成各项任务,并可以对可能发生的不良情况提前预料和反馈。
基于上述流程,该模块包括通知表,预警规则表,邮件表。其中通知表和邮件表用来保存发送到用户的通知或邮件,而这相对简单,不再详述。
预警表主要字段包括rule_id,rule_name,rule_desc,rule_type,interval_date,weekend_include_flag,status,start_date,weekend_include_flag,status,start_date,end_date,WHO。
1.4.5 用户管理模块
用户管理模块主要记录所用系统的使用用户信息。该模块包括用户信息表,系统部门表和用户部门分配表,表间关系和表详细信息
2 结束语
海洋环境监测数据库及WEB 应用平台设计界面友好明了、操作简单通用、数据全面丰富、特别是动态潮汐、风况等要素演变曲线,能极大方便预报员的日常预报及工程设计管理人员使用,不但可以拓宽资料的应用范围,而且能实现多站数据集中,多单位共享,满足了用户的不同需求,在海洋环境预报,及防灾减灾等方面可以发挥重要作用。
篇6
[关键词]多维分析;故障预测;大数据;油气生产设备
[DOI]10.13939/ki.zgsc.2017.12.243
1 引 言
油气生产行业所采用的各类数字化设备较多,随着行业的竞争加剧,如何减少设备故障引起的停产时间,如何优化采购降低设备故障率,如何提前对故障做出预测以提前应对,是石油企业所亟须思考和解决的问题。
随着工业自动化技术、物联网技术、大数据技术在油气生产行业的开始应用,为解决上述问题提供了全新的思路。运用大数据技术,可高速有效分析多维度的设备实时运行数据,并结合其他静态和动态信息,对设备的故障进行分析和预测,分析结果为生产、经营和QHSE服务,实现技术手段和管理模式的革新,实现科学决策、卓越运营与安全生产,最终达到可持续的业务增长。例如茂名石化探索如何在不改变已知原料属性下,实现在重整装置上提高汽油收率最高和汽油辛烷值最高的生产目标。为解决这个问题,采用大数据分析技术,收集了重整装置近三年的MES、HSE、实时数据库、腐蚀数据、ITCC、机泵监测数据、气象信息等数据,通过Hadoop建模,对重整原料历史数据进行主成分聚类分析,形成了典型的原料操作样本库,并据此快速确定每种原料类别下的最优操作方案。技术人员对近4600个批次的石油原料进行了分析建模,组成了操作样本库。通过该方法计算优化工艺操作参数,可使汽油收率从89.88%提高到90.10%,是大数据在油气生产行业应用的成功例子。
本文拟通过将油气生产设备故障数据、配套物联网采集的工况数据、维修保养记录数据及工业自动化数据组合应用于设备故障大数据分析,实现对设备的综合故障率分析与故障预测,从而为设备采购的最高性价比提供数据支撑,也为预防性维修维护提供决策支持,提升生产运行的安全性和企业经营效益。
2 大数据分析技术的运用
油气生产行业设备数据数量大,并发处理要求较高,对数据存储、处理、分析的巨大压力,要解决海量数据处理的问题就需要引入大数据技术。
Hadoop是目前最流行和功能最强大的一个软件计算平台,可以很容易地开发和运行处理油气生产过程中的海量数据的分析模型。其核心部分主要包括―HDFS(Hadoop Distributed File System)和基于MapReduce机制的并行算法实现。Hadoop提供的分布式文件系统HDFS是建立在大型集群上可靠存储大数据集的文件系统,具有强容错性、流式数据访问与大数据集、硬件和操作系统的异构性的优势。而MapReduce是一种简化的分布式程序设计模型,用于处理和生成大量数据集。通过该模型,程序自动分布到一个由普通机器组成的超大机群上并发执行。MapReduce通过把对数据集的大规模操作分发给网络上的每个节点来实现可靠性,每个节点会周期性地把完成的工作和状态信息返回给主节点,实现大数据的并发处理。
Hadoop的上述优点尤其适合于油气生产行业的海量数据分析应用。
3 设备故障率多维分析
设备故障率是评估设备性能优劣的一个重要指标。顾名思义,是设备故障运行与正常运行的比率。通过统计的方法可以计算特定个体、特定型号、特定类型或特定厂商的设备的故障信息,对设备时间质量进行评估和横纵向对比。
在油气生产中,设备的故障记录信息是故障率分析的依据,但因为实际运行中各个井站、矿区的运行情况不同也影响了设备发生故障的情况,因此还需要引入配套物联网采集的工况数据,以及日常的维修保养情况记录数据,将这些信息进行进一步组合,在Hadoop大数据分析中建模挖掘,得出更精确的设备综合故障率结果。
本文采用的多维故障率分析,基于3个大类的数据:
(1)设备故障信息:包括设备厂商信息、设备类型、设备型号、设备寿命、运行时间、故障类型、故障次数、故障时长、故障恢复时长等;
(2)物联网采集的工况数据:油气生产设备产量、流量、振动、位移,以及运行环境温度、湿度、处理物质腐蚀性等;
(3)维修保养记录数据:保养级别、保养时间、更换配件比、维修时间、维修级别等数据。
在Hadoop中,根据3类数据的权重、优先级,以及每个数据项的占比等,进行大数据分析建模。进而将各个维度的数据输入到Hadoop的MapReduce框架中,在计算模型中进行分析计算,最后得到分析结果。多维分析过程如图1所示。
如上表所示,基于大数据分析的油气生产设备故障分析统计过程是从油馍产中产生的多维数据(故障相关、设备相关、环境相关、操作相关)中获取在任意时间间隔内的某项故障相关的统计结果。其统计数据源是多维数据按一定规则的组合,同时获得相应的不同维度的统计结果。
下面以例子说明分析全过程。
向MapReduce库输入单个设备编号参数、时间区段参数,向Job Tracker提交统计任务,MapReduce库将设备故障记录库中的数据分为m个分块。Map Tracker读取分块中的设备故障记录,作为map函数输入,map函数按设备编号和时间区段参数,将该分块内符合条件的设备故障记录统计出来,结果保存在中间键值对中。Reduce Tracker读取所有Map Tracker产生的中间键值对,将其归并为一组统计记录,从而得到单位时间内指定设备的故障率,或指定时间范围内该设备故障次数变化趋势等信息。
进一步,当输入参数为设备型号、时间区段时,Map Tracker调用map函数,将分块文件中的属于该设备型号的所有设备列出,结果保存为中间键值对,作为下一级MapReduce过程的map函数输入,在下一级的MapReduce过程中,再使用上例中的过程,过滤不同编号设备在指定时间段内的故障记录并归并出相关统计信息。整个过程如图2所示。
多维分析数据来源正是应用上述MapReduce过程或多次MapReduce过程的迭代,得到最终分析结果。多维数据的故障率分析方法,解决了传统单一数据对比未考虑实际运行环境、运行负荷、日常维护频度等方面的因素,通过组合计算达到分析结果更全面完整的目的,为设备管理、设备采购、巡检维修等日常管理工作提供更准确的决策辅助。
4 设备故障预测分析
获得设备综合故障率结果后,可进一步实现设备的故障预测。对于井口装置、阀门等控制设备的常规维护手段多为定期检修或故障后维修,存在“过修”和“失修”现象,造成生产设备损耗和停产减产风险。通过设备的故障预测预警,在设备正常运转条件下,能够分析出潜在故障及原因、实现预知性维修,将能有效减少维修成本、降低非计划停工风险。
对设备的故障预测预警,通过现场数据采集数据传输HDFS的数据存储对运行状态与故障模型进行并行计算大数据分析设备的故障预测几个步骤实现,如图3所示。
通过现场的各类传感器,将重点设备的关键参数进行实时采集和传输,通过RTU或者DCS等设备,传输到Hadoop的HDFS分布式文件系统中,按照流文件格式进行存储。
设计MapReduce的设备故障预测模型,将几个采集上来的维度数据进行并行计算分析,分析算法可以Java程序方式实现基本的Map函数和Reduce函数。
(1)MapReduce库先把预测算法程序的输入文件划分为M份(M为用户定义),每一份通常有16MB到64MB;然后使用fork将用户进程拷贝到集群内其他机器上。
(2)被分配了Map作业的Task Tracker,开始读取对应分片的输入数据,包括此重点设备的振动、位移、温度等各个维度的数据。
(3)接着进行Reduce作业。
(4)当所有的Map和Reduce作业都完成了,MapReduce函数调用返回预测模型程序的代码。
通过以上方式,实时获取设备的振动、温度、压力、流量等数据,同时将数据输入到Hadoop故障预测模型进行实时分析比对,一旦比对类似,则可预测故障的近似发生时间,从而合理安排预防性维护,从而保证了设备维护更有针对性。
5 结 论
本文通过将与油气生产设备故障相关的工况数据、故障数据、维修保养等操作数据,作为多维数据源进行组合,输入到Hadoop大数据分析模型中,利用Hadoop的并行处理优势解决油气生产设备运行环境复杂、实时数据量大、影响因素众多的故障分析难点,为设备的优化采购提供依据;同时将故障分析结果进一步导入到故障预测中,也为预防性维修维护提供决策参考,提升油气生产运行安全和综合运营效益。
参考文献:
[1]赵庆周,李勇,田世明.基于智能配电网大数据分析的状态监测与故障处理方法[J].电网技术,2016(3):774-780.
[2]檀朝|,陈见成,刘志海.大数据挖掘技术在石油工程的应用前景展望[J].中国石油和化工,2015(1):49-51.
[3]李金诺.浅谈石油行业大数据的发展趋势[J].价值工程,2013(29):172-174.
篇7
关键词:Web网络;大数据分类;系统;设计
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)17-0216-02
我国当前,已经有与Web网络大数据分类的很多方法研究相继出现,绝大多数学者也取得了一定的成效。但是基于Web网络的大数据分类法,此种方法在使用过程中采用了由上到下的方法,分类树形信息较为混乱,此种数据作为选择的样本节点,在通过决策树进行决策时,就可以根据相应的计算规律进行节点截取。决策树的归类方法在具体的使用过程中具备着操作较为简便、计算程度较轻的优点,但是数据拓展效果较差,并且很容易在使用过程中受到噪音的干扰。因此随之提出了有关网络大数据处理的方法,即为利用迭代法对数据库的信息进行全部的获取,在搜集项集的过程中支持数集的定阈值,根据频繁获取的定阈值来获取用户所采用的最小置信度。此种方法在使用过程中受到了一定条件的约束,消耗了相对较多的资源。在此种方法之后,提出了基于在对网络大数据进行计算分类的过程中能够阿金数据进行样本处理,经由高纬度的空间对其进行转换,虽然此种方法能够将低纬度的线性计算问题转换为高纬度的线性计算问题,但是在实际的运用过程中却由于数据的种类受到了一定的限制,分类效果不够优化。通过对上述多种网络大数据分类的方法进行优弊端的分析,进而设计出了一种新型的Web网络大数据分析系统,此种系统能够在使用过程中采用软件和计算机硬件两者相结合的方式,对数据进行分析总结。经过试验证实,此种系统的应用在使用过程中具备了相对较高的网络大数据分类性能。
1基于Web网络大数据分类系统的设计总体结构
在对Web网络大数据进行分类时,如果只是对大数据进行分类工作可能会在此过程中消耗一定程度的技术资源,与此同时对数据进行分类处理所用的时间也很长,因此不能即时的对网络大数据进行分类。但是如果只是通过借助计算机硬件设施对大数据进行分类,那么就需要更多的资源配置,从而加大了成本的投入,在配置和管制上也就不太方便了。但是为了能够使得计算机软件发挥它的功能性特点,从而完成Web网络大数据的划分,让软件处理功能与计算机的硬件特点形成对Web网络大数据分类系统设计(系统设计结构图如图1所示)。
首先如图所示通过系统的处理器以及软件部分对Web网络大数据进行数据采集,经由Web网络的处理器对所采集的数据进行处理之后,然后经计算机的硬件设施对处理后的数据进行存储,在对Web网络数据进行处理的过程中通过软件处理过程的数据,实现了系统性的数据处理功能,最终经由处理之后,将数据传输至存储板块,对数据进行存储,从而完成了一系列的系统性Web网络大数据分类,供系统管理者对数据进行下一步的处理。
2基于Web网络大数据分类系统的若干硬件设计
2.1 Web数据采集器
经过图一所示,要想完成Web网络大数据的系统分析,重点就在于用何种材质的数据采集器完成对数据的采集过程。在通常情况下通过计算机的网络接口处安装计算机的数据采集器硬件设施,从而通过数据采集器向计算机发送采集到的相关数据。数据采集器的硬件设施(如图2所示)。
由上图可知,数据采集器的电源模块会经由单片机产生电压,经由REGIN发送到单片机的电压调节器上,从而给单片机提供系统所需的电压。与此同时使得系统运行所产生的电压通过系统的输送程序从而对3v期间进行运用。Web网络中的被预测信号经由系统的相应调节之后,使用该单片机将设备上的期间进行转化,从而经由转换之后获取相应的数据,就完成了对Web网络的数据采集过程。在运行这一系统过程中对数据的采集如果数值过大,那么就需要在该系统的运行过程中考虑多方面的因素,比如对数据采集的选取过程,数据采集器运行过程中进行的电压转换等,众多因素都能够对数据采集器的功能性软件产生一定的影响。
2.2 Web网络处理器
Web网络处理器也是在对Web网络大数据进行分类的系统中硬件设施中重要的一个组成部分,网络处理器主要应用于该系统中对经由上部信息处理之后的大数据进行分类的程序。Web网络处理器通常对此硬件设备选用的过程中,使用INTEL公司出产的产品,对此硬件进行设计的时候,应该选用综合性较强并且能够高效率的对数据进行处理的设备。Web网络网络处理器结构图(如图3所示)。
经过上图所示可以得知Web网络处理器的整个系统运行,是将信息进行采集之后对其进行处理,这个程序是可以进行代码编程的,而编程所得程序的实用性就在于此种程序将采集的数据进行了存储,并且将数据进行了分类,从而纳入了处理器的程序之中。运用Web网络处理器对数据进行分类处理,得出的Web网络数据结果经由系统的数据控制以及与外部硬件存储设备相连接,从而将处理过后的数据发送至存储系统进行保存。
3基于Web网络大数据分类系统的软件设计
3.1 Web网络大数据采集程序
为了对Web网络大数据进行数据的处理过程,让数据采集器能够对Web网络大数据完成全部的采集过程,则需要对数据的采集源头进行代码设计。通过代码的链接从而获取相应的网页处理。为了在过程中保证数据的处理完整性,通过编码的形式对其进行调整。图4为单片机与AT45DB081的硬件原理图。
3.2 Web网络大数据分类程序
为了对Web网络大数据进行合理的分类,需要在设计过程中对其进行相关数据信息的处理程序实现。那么在对Web进行信息分类的过程中,也就是根据数据的情况进行归属分类,从而实现相关代码如图5所示。
3.3 Web网络大数据分类程序的改进
对数据进行分类过程中,Web网络大数据的分类实效性是整个数据分类过程的重要部分,那么为了保障数据的分类时效性,也就是在第一时间对使用者进行数据分析,提升系统的操作效率,保障Web网络网络大数据分类程序的系统效率,从而对其进行代码改进,实现Web网络网络大数据的具体分析。
篇8
关键词:大比例尺基础;地理信息;数据库
Abstract: as an important part of the infrastructure, digital city construction in large scale basis to improve the digital city's basic geographic information database construction, enhance the level of social management and public service. Large scale is based on the analysis of fundamental geographic information database construction, on the basis of the whole process to find out in the construction of the key points, and by strengthening the integrity of data, preparing work, promote the automation of processing multiple aspects, such as perfect the construction of database, and to summarize, to find effective and practical method of database construction.
Key words: large scale basis; Geographic information; The database
中图分类号:P208文献标识码:A文章编号:2095-2104(2013)
现在我国很多城市都在实行数字城市建设,按照各个部门提供的信息编制对应的地理信息系统。基础的地理信息就是把城市不同元素各种地理信息归集到一块,成为数字信息的载体,它具有涉及范围宽广、面向全社会、共享性强、公益性高的特点,是数字城市建设的核心内容,维持系统运行的先决条件。信息源的数目和质量决定着国家信息系统运用技术的深度,而大比例尺基础的地理信息正是重要的数据信息源,按其制定的地形图能达到城市不同专项地理信息系统使用的要求,因此要求基础地理空间数据具有更高的精准性和及时性。
一、地理数据的准备工作
原有的大比例尺基础地形图在制定过程中,应按照现有的国家制图规定的制度,对每种地形的元素在比例尺不相同如1:500和1:1000的情况下设定符号、种类级别大体保持统一,而很多城市在建立自己的地理信息数据库的时候在大比例尺基础地形图上加入不少国家制图所规定条款外的数据信息,例如某栋大楼的高度、特殊建筑的标志、公交站点等便于人们识路。此类数据信息的来源要根据人们在实际生活中的要求进行详细的收集,并保证数据的准确性。尽管这类城市地理数据信息并未以国家制图规定内容提及,但是我们在完善城市地理信息数据库的时候并不能忽略这些信息,尽可能做到在制定的地形图上对这些地理信息进行妥善保留,以增加城市地理信息数据库的内在使用价值。
在建设大比例尺基础的地理信息数据库的同时,也要增加对有关数据地理产品规章制度要求的建设,但是由于我国某些城市地理信息的特殊性,其建设过程较为缓慢,因此想要达到保持地理基础数据信息的一致性,满足城市基础地理信息建设与数据之间轮流使用的要求等目的,就先对有关数据的结构及表格进行筹划工作。要严格按照国家的相关要求找到对数据进行分类的方法。因为数据库地形图对比例尺不同的情况下相同的地理要素在地理图形的表达上有通过点、线、面不同形式来表达的方式,所以我们要对其加以区分,如可采用在地形图国家相关规定标准编码数字后面根据不同的表达方式加上对应尾数。除此之外,还要设定具体的不同数据类型对地形要素进行描述,对地理信息数据表的每个内容和有关说明进行分析确立,建立明细的地理信息数据库。为了方便数据库的自动建设,要把各种比例尺下地理信息与相关数据表格相互联系起来,顾及到所用的地理信息软件平台以及最后地理信息数据库结果的数据表达格式,如果要在不同的地理信息处理平台之间进行数据交换,就应该做好数据接口预先措施。
二、数据执行的自动化
在建设大比例尺基础的地理信息数据库的时候,可应用计算机系统对地理要素的选择、整理、转换等设定一些程序自动化进行处理,并提前制定相关因数来达到目的。进行选择地形要素时,一要按照建设时的实际情况制定一些列网格对数据进行过滤选择,按城市地理信息的相关特点对地形要素筛选,以比例尺从1:500向1:2000转换的情况为例,可在地形图上舍去下水道、管道以及其附带内容等相关地形要素,因为这些内容在1:2000地形图上可不予体现。二是要按照城市地理空间对地形图相关一部分要素筛选处理,根据有关数据库建设的标准,对地理要素进行选择,一般包含面状地理要素的大小以及线型要素的长短,还是上面的例子,分别确定不同比例下卫生间、地下通道、绿化植物、大型工厂设施、天桥、立交桥等地形要素面积的选择。可将面积较小的地形要素用不按地图比例的简单易懂的点状符号来表示,像汽车加油站、寺庙、雷达监控室、变压器、通风设备、亭台楼阁、走廊、钟楼等等,在这些地理要素的关键部位要用点状图形来说明;江河等线型水系、栅栏、层次低的单线道路等等线型地理要素可按照所规定的长度进行选择。三要设定相关规定对地理信息要素较为密集的位置在地形图上进行取舍,例如市区繁华地段、旗杆点、交通发达点等。
在建设大比例尺基础的地理信息数据库的时候,对地理信息要素进行整合处理,可将不用区别的地理信息要素在数据库中进行整合,不需要其他形式的处理。以1:2000的比例尺向1:10000转换时,将栅栏、铁丝网以及篱笆进行整合。
三、建立数据库的过程
在建设大比例尺基础的地理信息数据库的时候,先要对所建数据库的城市进行地理调查研究,做出相应地形数据的整理分析。不少城市缺少大比例尺基础地形的数据,对建设数据库的目的性不强。所以要想建设好数字城市,相关工作人士应按照其地理信息数据形成情况做好研究,在满足国家相关制度、区域标准和本行业有关规定的基础上,设立一套数据体系,按照预先方案对数据库图层、结构、文件等进行规划,确保数据库的质量,完成大比例尺基础的地理信息数据库基本建设。其建设流程如下:对已有的数据分析研究制定数据标准规范整理相关数据检测数据转换数据入库交换数据共享数据应用数据。
(一)研究数据
由于现有的城市大比例基础地理信息数据具有存在年限的不同、搜集来源、格式多种化、质量不统一、管理不集中等现象,因此在这些数据入库之间,要经过详细的分析研究、整理。
(二)标准的设立
其关键部分就是数据库的规划,对整理数据的有关要求、数据保存的措施以及以后数据应用有着重要的影响。因此在设定相关数据库的标准时,要按照国家、区域、行业的相关说明和规定进行操作。
(三)数据的整合
不但要进行原有数据的处理,还要对收集后的数据按照标准进行有效的处理措施。
(四)数据的检测
对整理后的数据进行加测,如果存在缺陷,就应该重新进行检测。主要有地理图形的检测和数据属性方面的检测。其中存在的难点是由数据量巨大,对于为细小的问题认为难以及时发现,可采用人工与相关专业检测软件配合来对数据进行检测。
(五)数据经转换后进库
经过整理与检测的数据并不能直接入库,还需用相关工具进行格式上面的转换,保持转换前后地理信息在各个方面数据一一对应,并没有地理图形和数据属性方面的差异。
四、建立完成的数据库应具有特点
(一)实用性:能够满足用户的需要,便于使用、管理和维护。
(二)适用性:系统的结构能够满足各种类型用户的需要,运作方便、灵活,方便对数据进行更新。
(三)标准化:数据库的内容、数据分类、格式编码、相关精度等方面应采用国家所规定的标准、行业的相关规定、地方的有关制度。
(四)扩充性:数据编码、应用范围以及软硬件设施可进行扩从,以适应未来技术水平的更新。
(五)领先性:应用先进的技术、方法、设备等,提升数据库的技术水平;最大程度地节约资金。
(六)开放与共享性:促使基础地理信息数据库能够成为综合性地理信息资源。
五、加强建设过程中质量
数据库相关产品的质量方面控制难于数字线划图方面的质量控制,因此在建设大比例尺基础的地理信息数据库的时候应制定先进有效的质量控制措施来保证数据库的建设质量,对地理信息数据作出数据精度、数据属性、地理图形统一性、良好的数据完备性进行控制,主要有检测数据的完整程度;检查地形图图层中的空地物类;确保数据库没有遗漏要素。对建设设计方案进行检测,检测结果数据和相关规范。无效数据排除,在数据库建设过程会产生一小部分无效的或者重复的数据,需及时进行排查。
六、结论
基于以上分析论述,为加强城市宏观管理以及规划的需求,建设数字城市可以通过建设大比例尺基础的地理信息数据库来实现。随着比例尺的进一步加大,地形图所覆盖的信息更为广泛,其应用范围也会进一步扩展,如卫星运行图片、航空飞行轨迹等等。因此,对于城市地理信息数据库的建设,应作为城市建设基础设施的重要内容之一。
参考文献:
[1]叶海波,吴遇文.大比例尺基础地形数据的建库与应用[J].测绘,2012(4)
篇9
关键词:多元智能算法;智能处理技术;神经元网络技术;差分嵌入编程技术;数据挖掘技术
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2012)29-6996-04
“三流的企业卖产品,二流的企业卖技术,一流的企业卖标准”,这句话形象地概括出了标准在企业竞争中的决定性作用。放眼当今世界,凡是标准领先的企业,无一不在该行业中居于主导地位,决定着行业的进入壁垒或者发展趋向。企业标准信息的存贮、处理及应用已越来越广泛。“多元企业标准数据处理分析编写系统的开发设计”企业标准编写系统能更进一步对各类标准数据进行综合分析与优化处理研究应用。本系统是基本于woindows操作下的具有三层架构的应用程序,具有开放的用户层、应用层、数据层,并为设计、开发、集成和部署软件平台应用提供基于组件的方法。系统应用又与access数据库、word系统、其它出版系统等构成多元化集成系统平台,它具有应用程序调度与管理功能、系统安全管理功能、资源程序分配管理、功能业务流程制订与管理功能、流程追踪与记忆管理功能、数据挖掘功能、多架构平台集成算法先进等功能。这是一套集管理技术、格式化文档处理、多项算法技术、海量级数据处理技术于一体的应用开发系统。在石油生产科研中必将起到积极的作用和得到广泛的应用,也必将创造更大的经济效益和社会效益。
1 数据处理算法研究
随着人工智能科学的深入发展,对智能控制的研究已演变成多元层次、树层次与子层次递阶控制的模式。有学者将遗传算法与人工神经元网络算法结合,分别提出了“基于人工神经元网络的遗传算子自学习”和“基于权值进化的人工神经元网络”的思想体系。也有学者对遗传算法、人工神经元网络算法和免疫算法三者的集成进行了研究。其主要的思想是对外界环境学习、自适应功能由人工神经元网络算法完成,算法参数的调节、升级功能由遗传算法完成,算法对环境适应性的评价由免疫算法完成。智能算法的多元化意味着算法复杂度的上升,同时也意味着编程难度和软件潜在故障率的上升。是否采用多元智能算法及如何采用多元智能算法,需要根据系统性能要求和设计精度进行相关的评估。
1.1 多元算法的研究
多元算法已经成为当前数据挖掘技术和数据处理中重要的方法之一,而求解多元算法模型的关键问题是如何确定回归系数和模糊测度。针对以往使用遗传算法确定回归系数和模糊测度时间复杂度高和收敛速度较慢的问题,使用一种高效的搜索算法——粒子群算法求解基于广义Choquet-积分的多元非线性回归模型,分别在人工数据和真实数据上进行实验,对粒子群算法和遗传算法进行比较.结果表明,用粒子群算法求解该模型不仅比遗传算法收敛速度快,而且还能搜索到比遗传算法更优的解。
1.2 数据流工程正则算法的研究
数据流工程正则算法的研究以形式化的方法研究数据流分析的基本原理,给出了数据流表达式的概念。并在此概念的基础上,研制出一个数据流异常的数据流分析算法。算法要求通用性强,运用本算法不难开发出相应的程序,根据标准工程的特点研发“正则集的代数”算法并形成表达式,进而完成编写代码。
正则集的代数”算法格式如/abc/,其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容,正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
较为常用的元字符包括: “+”, “*”,以及 “?”。其中,“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次,“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次,而“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次。这也是项目的创新点。
1.3 标准工程算法
主要研制出符合标准化GB/T 1.1-2009要求的工程算法及20多个重点子算法。如:GB/T 321 优先数和优先数系及ISO 图形算法。通过国标规定,建立数据库,然后通过数据挖掘技术方法建立研究算法,然后依数据分析技术建立数据模型,最后完成算法代码。标准工程用到的数据挖掘技术算法(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但又是潜在有用的信息和知识的过程。嵌入式线性算法技术主要用在数据处理、解释、结果呈现上面。
2 建立多元企业标准数据处理分析编写系统的开发设计
2.2系统的安全设计
本集成系统平台具有功能完善的信息交换式管理界面(如图1所示),安全的系统嵌入式接口和强壮的用户管理,整个软件系统是一个完整的统一整体平台,密不可分。使用加强的MD5口令算法加密,各模块之间紧密集成与子程间具有防拷贝功能。
2.3系统的功能设计
3 结束语
“多元企业标准数据处理分析编写系统的开发设计”的软件设计规范, 操作简单灵活, 适应性强, 易学易用。它是由系统平台管理模块、数据库管理模块、标准编写起草模块、标准编写修改模块、标准编写标准生成模块、与word集成模块、Windows API控制模块、数据导出模块、数据导入模块、内存优化管理模块及众多算法模块有机地集成在一起而成的综合系统。它具有程序设计算法的创新性及国际软件编程的先进理念,软件投入使用可减轻企业标准制定者的疲劳强度及软件学习的效率,提高企业标准编写质量及标准制定的工作效率。软件的推广使用,得到了企业标准制定人员的良好应用与用户好评,在石油行业企业标准制定中,获得良好的工作效率、经济效益和社会效益,为整个石油行业生产质量节能工作做出贡献。
参考文献:
[1] 马有志.钻井多元数据分析处理系统的开发设计[J].计算机应用研究,2008(25):2005.
篇10
关键词:教学设计前端分析;数据挖掘;综合集成方法论;BP神经网络;层次聚类
中图分类号:G40-057 文献标识码:A 文章编号:1673-8454(2011)21-0084-04
教学设计对于教学工作科学化,提高学习者分析问题、解决问题的能力和培养科学思维能力与科学态度,促进教育技术的实践与理论的发展和适应信息社会发展的需求等方面都有着重要的意义和价值。前端分析,是教学设计的第一步,它是教学设计过程的基础,有助于理顺问题与方法、目的与手段的关系,其设计的好坏直接影响到后面的一系列工作。在不同的教学设计过程模式中,前端分析的内容略有不同,但主要包括:学习任务、学习需要、学习者特征和学习环境等。鉴于本文的研究主要定位于学科课程范围,学习需要和学习任务由学校学科专业所规定,学习环境一般在具体的情境中由授课教师掌握控制,又由于学习者是教学活动的主体,教学设计的一切活动都是为了学习者的学,学生之间存在着共性,也存在着差异,本文只对学习者特征做主要研究。对学生进行分析的目的是了解影响学生学习的认知能力、学习风格、学习动机。通过对学习者三个方面特征的研究,使得教师更好地把握学习者的情况,从而达到更好地实现因材施教、因风格施教的口的。
为了有利于后续教学设计自动化的探索,本文基于综合集成(Meta-synthesis)方法论,即将专家的知识与经验、统计数据和信息资料,以及计算机技术三者有机动态地结合起来,构成一个高度智能化的人机交互系统,把数据挖掘技术应用于数字化后的教学设计前端分析中,列举出实验过程,并对实验结果进行分析。
一、理论基础
1.数据挖掘技术概述
数据挖掘(Data Mining,DM)是从大量的、不规则的、含有噪音的数据集中识别出有效的、新颖的、潜在有用的,以及最终可被人理解和利用的模式的高级处理过程。它包含神经网络、聚类、粗糙集、遗传算法、决策树、关联规则等多种技术。它被广泛应用于各个领域,包括金融业、零售业、电信业及其他科技应用领域。
2.BP神经网络方法
BP神经网络(误差反向传播网络)是目前使用最广泛、发展最成熟的一种经典的神经网络模型,它是一种监督学习型数据挖掘方法。BP神经网络是一种多层前馈神经网络,主要特点是输入信号前向传递,误差反向传递,并且在这个过程中不断修改权值直到达到目标值。网络包括:输入层,隐层和输出层。其网络模型如图1所示:
其中,X1,X2……Xn是输入信号。YI,Y2……Yn是输出信号。Wij,wjk代表权值。输入层输入信号,输出层输出处理结果信号,隐层处理信号,在处理的过程中,根据来自输出层的反馈信号,权值不断被调整,当输出层误差减小到预定值时,学习结束。可以说,BP神经网络学习的实质就是权值的改变。
3.聚类分析方法
聚类分析是一种无监督学习型数据挖掘方法,其实质是建立一利,分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。层次聚类是聚类分析中的一种方法,它是根据样本间的亲疏程度,将最相似的样本结合在一起,以逐次聚合的方式分类,白:到最后所有的样水成一类。
根据聚类过程的不同,层次聚类法可分为方向相反的两大类:分解法(自顶向下)和凝聚法(自底向上)。本研究采用的是凝聚法,其基本思想是:(1)假定N个样本各自成一类,计算类间距(等于各样本之间的距离);(2)选择距离最近的两类并成一个新类:(3)计算新类与其他类问的距离;(4)重复第2步和第3步,这样每次缩小一类,直到所有样本都成一类为上。
二、学习者特征测量方法
学习者特征主要包括认知能力、学习风格、学习动机三个方面。
美国著名教育心理学家布鲁姆(B.S.Bloom)的“教育目标分类”理论把教学目标分为认知、情感和动作技能三个目标领域,其中认知能力的目标按智力活动的复杂程度由低级到高级又可划分为六个等级:(1)认记――记忆或重复以前呈现过的信息的能力,也就是知识保持能力;(2)理解――用自己的语言来解释所获得的信息的能力;(3)应用――将知识(概念、原理或定律)应用于新情况的能力;(4)分析――把复杂的知识分解为若干个彼此相关的组成部分的能力;(5)综合――将有关的知识元素综合起来形成新知识块或新模式的能力:(6)评价――根据已有知识或给定的标准对事物作出评价和鉴定的能力。根据认知能力的评估与测量方法的不同,可以把学生认知能力值测量方法分为两种:“小组评估法”和“逐步逼近法。”研究是根据“小组评估法”来设计量表测试学生认知能力的。
学习动机是指直接推动学生进行学习的一种内部动力,是激励和指引学生进行学习的一种需要,本文学习动机测量是根据王迎、彭华茂、黄荣怀等在《远程学习者学习动机测量工具的编制与应用》一文中提出的“远程学习者学习动机问卷”测量的,该问卷是根据奥苏贝尔的学习动机分类理论从三个动机维度,即认知内驱力、自我提高内驱力和附属内驱力来制定的一种测验学生学习动机类型和强度的表格:奥苏贝尔将学习动机划分为三个方面:即认知内驱力(cognitive drive)、自我提高内驱力(ego-enhancement drive)以及附属内驱力(affiliative drive),认知内驱力是一种要求了解和理解的需要,要求掌握知识的需要,以及系统地阐述问题并解决问题的需要,这是一种内部动机;自我提高内驱力是个体因自己的胜任能力或工作能力而赢得相应地位的需要,这是一种外部动机:附属内驱力:是个体为了保持长者(家长、教师等)的赞许:或认可而表现出来的把学习或工作做好的一种需要,也是一种外部动机。
学习风格(Learmng Stvte)的概念是由美国学者Herbert Thelen于1954年首次提出,在今天的教育和技能培训领域中,学习风格一词已是研究者最广泛使用的概念之一,学习风格理论已成为当今教育心理学一个新的领域。学习风格是学习者持续一贯的带有个性特征的学习方式,是学习策略和学习倾向的总和。其测定方法主要有测验法、行为观察法、行为评定法和作品分析法。其中,测验法是最主要的方法。学习风格的测量在手段上可以分为图式和量表两种形式。大多数研究者采用量表方式来测定学习风格。学习风格的测量工具可以分为七种二场独立一场依存类型测量工具、荣格个性
类型测量工具、感知觉类型测量工具、社会互动类型测量工具、多元智能类型测量工具、基于经验的学习风格测量量表、基于三维模型的学习风格测量量表。所罗门学习风格量表属于多元智能类型测量工具。多元智力理论是由加德纳提出的,但他并未开发测量工具。所罗门学习风格量表(也称Felder-Si/verman量表)是由Feldel和Soloman于1997年开发的一种用来测量学生学习风格类型的量表,是教育领域比较有权威的学习风格量表。所罗门(Barbara A.Soloman)从信息加工感知、输入、理解四个方面将学习风格分为4个组对8种类型,它们是:活跃型与沉思型、感悟型与直觉型、视觉型与言语型、序列型与综合型,比较全面地反映了学习者的学习风格,且具有很强的操作性,可以较好地进行学习风格的调试。因此,本文中学习风格测量选用“所罗门学习风格量表”测量。
三、调查问卷结果
本研究的调查对象是云南大学2008届职业与继续教育学院市场营销和财会专业现代教育技术学课程的89名本科生的认知能力、学习动机和学习风格。调查问卷共89份,经筛选整理后,有效问卷为89份?表1、2、3为问卷处理后的部分数据。
四、层次聚类方法分类
利用SPSS软件,用层次聚类分析法对上述问卷数据进行聚类得到分类结果,然后把结果反馈给被调查者,再由被调查者和专家对结果进行核实、探讨,取得共识,接下来对可疑或不合理的数据进行相应的调整,如此反复修改,最后形成用于接下来的实验研究中的学生特征分类结果。其中,把认知能力分为较强和一般两类,学习动机分为较强、中等和较弱三类。
学习风格的测量结果可以直接用于描述学习者,故不做进一步研究。
五、认知能力数据分析预测
1.BP网络设计
首先,需要获得网络的输入和目标样本。根据上面得到的学生特征分类结果,选取其中30组作为训练样本、样本被分为较强组和一般组。
接下来确定网络结构,根据Kohnogorov定理,采用一个Nx(2N+I)xM的3层BP网络作为状态分类器。其中,N表示输入特征向量的分量数,M表示输出状态类别总数。对于本例,N=6。为了简化网络,用(1,1)表示较强状态,(1,0)表示一般状态。这样一来,就可以在网络中只设计两个输入神经元表示这两种状态类别。由此可得,该BP网络结构为:输入层有6个神经元,中间层有13个神经元,输出层有2个神经元。按照一般的设计方案,中间层神经元的传递函数为s型正切函数,输出层神经元的传递函数为S型对数函数,是因为该函数为0-1丽数(后面我们必须将样本数据归一化到0-1内),正好满足状态类别的输出要求。
令P表示网络的输入样本向量,T表示网络的目标向量,由上表可得
P=[81 82 69 78 65 46、69 68 65 72 72 53,79 92 56 67 78 61、
79 60 62 69 81 60 82 85 70 82 80 62 66 g4 69 63 85 59,
80 90 75 78 79 51,90 93 63 88 77 59
69 78 60 76 83 57,……]
T=[1 1 1 1 1 1 1 1,1 1 1 1,1 1 1 1 1 1,1 1 1 1,1 1,1 1 1 1 1 1
1 0 1 n 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 10
利用如下代码建立一个符合以上要求的BP网络。网络的训练函数为trainhn,学习函数取默认值learngdm,性能函数取默认值mse。其中丽数mlnnaax设定了输入向量元素的阈值范围。
net=newff(minmax(P),[13,2],{tansig','logsig”),’trainlml;
2.网络训练
net=train(net,P,T)
训练结果为:
TRAINLM,Epoch 0/50,MSE 0 730893/0.001,Gra-dient 1.60962/le-010
TRAINLM,Epoch 7/50,MSE 0.000444178/0.001,Gradient 0.0902879/le-010
TRAINLM,Performance goa]met,
可见,经过7次训练后,网络误差达到了设定的最小值,结果如图2所示。
3.网络测试与运用
网络测试的目的是为了确定网络是甭满足实际应用的需求。选取7组“较强”状态数据和3组“一般”状态数据作为测试数据。利用上面设计的网络,判别它们分别属于哪一种状态。运行结果如图3所示:
由此可见,前7组数据预测其为“较强”状态,后3组数据预测其为“一般”状态,这与实际情况相符合,说明所设计的网络是合理的,可以投入运用。
六、学习动机数据分析预测
学习动机在BP网络设计、网络训练、网络测试与应用上的方法与认知能力相似,故不再赘述。在此只给出网络的目标样本训练的结果图(图4)、测试样本(表4)和测试结果(图5)。
目标样本为:
由此可见,前2组数据预测其为“较强”状态,第3组数据预测其为“中等”状态,第4组不能判断其状态情况,第5组数据预测其为“中等”状态,第6组数据预测其为“较弱”状态,其中,第1、2、3、6组数据预测结果与实际相符合,第4、5组预测结果与实际情况不符合,故神经网络预测成功率为66.7%,基本可以使用。
七、小结
教学设计前端分析是一个复杂的问题,本文以从定性到定量综合集成方法为主,在大量实验数据的基础上,选用数据挖掘技术中的BP神经网络和层次聚类分析对教学设计前端分析中的认知能力和学习动机做了研究,系统预测成功率较高,这对于进一步开展后续的教学设计研究及实现教学设计自动化的研究起着很好的铺垫作用。
参考文献:
[1]于景元,涂元季从定性到定量综合集成方法――案例研究U]系统工程理论与实践,2002(5):2.
[2]陈文伟,陈晟知识工程与知识管理[M].北京:清华大学出版社,2010:165.
[3]韩力群人工神经网络教程[M].北京北京邮电大学出版社,2006:59-64.
[4]杨晓明SPSS在教育统计中的应用[M].北京:高等教育出版社,2004:247.
[5]瞿俊,基于重叠度的层次聚类算法研究及其应用[D].福建:厦门大学,2007.
[6]罗伯特・M・加涅学习的条件[M].北京:人民教育出版社,1985.
[7]张正兰,张明,蔡绍稷建造认知型学生模型的研究[J].南京师大学报(自然科学版),1997,20(1):2-4.
[8]陈琦,刘孺德当代教育心理学[M].北京:北京师范大学出版社,1997:120.
[9]王迎,彭华茂,黄荣怀远程学习者学习动机测量工具的编制与应用U1开放教育研究,2006,12(5):1-4
[10]李淑霞成功远程学习者研究综述[J].成功(教育),2007.
[11]陈晶,李玉斌,刘家勋.网络远程学习者特征分析方法初探[J].现代远程教育研究,2006(5).
[12]龙雪梅WBI设计中的学习风格分析[J].西南师范大学学报,2001(8):480-483.
[13]陈丽远程教育学基础[M].北京:高等教育出版社,2004(7).