Web数据开发在远程教学中的使用

时间:2022-05-04 11:48:00

Web数据开发在远程教学中的使用

【摘要】本文对Webmining在远程教育中应用进行了研究,并通过对远程教育Web日志的分析,获得关于学生学习的信息,根据其接受教育的对象存在着很多个性差异,基于Web数据挖掘提出了一个个性化远程学习系统的框架结构和个性化服务的主要理念,使用WebUseMining技术对web日志信息进行挖掘,并利用这些信息建立起一个智能化、个性化基于web数据库的远程教育系统,从而更好地改进远程教育的服务。

【关键词】Web数据挖掘,远程教育,个性化学习,个性化服务

1、引言

随着互联网应用技术的深入发展,人们对于各种网络应用的需求正在急剧增加,同时各类网络服务的竞争也日益加剧。如何为用户提供更好的服务,是当今网络应用服务商们所急需解决的问题。基于这种需求,个性化的Web服务研究正成为目前的一个研究热点。

远程教育以其便利、快捷、随意的时间安排和廉价的收费正逐渐成为人们接受教育的一种新兴的途径,远程教育作为一种学习手段,适用于高等教育、职业教育和成人教育。其教育对象存在着极大的差异性,主要体现在:个人学习目标的不同、学习能力的不同、认知风格不同。所以就需要针对性的提供差异性的教学内容和教学安排。而在现代远程教育模式下,学生学习的过程就是在远程教育网站页面中跳转活动的过程,他们的每个活动都是以教育网站上的一个页面对象的点击操作,这些点击操作都能被完整地记录在系统日志中,通过对日志的分析挖掘,一方面可以找出学生行为模式;另一方面,可以分析出远程教育网站的结构组织是不是符合学生和教师学习和教学的规律。所以,将Web挖掘运用于远程教育系统中,使之量身定做地为每个个体提供个性化的学习方案,从而进一步指导网站建设,是远程教育获得进一步发展的一个重要手段.

2.远程教育与WebMining

2.1远程教育

现代远程教育是当代社会经济和科技发展到一定程度以后所出现的一种新的远程教育模式。它是在计算机和网络、卫星系统的支持下,实现异地同步的图像、声音以及教学双方的交流互动教学对传统的教育模式带来了一场全新的革命,其显著特点是:

1)完全动态:各种学习资源是动态的,能够采用多种交互方式进行上下传,最新的教学信息也可以及时地反映到网上;

2)实时交互:能与教师、专家进行即时交流;

3)易于协作:学习者能够按照某种划分方式组成各种类型的小组,相互协作完成一定的课题项目,而且能够在需要的时候得到教师、专家的帮助;

4)适应性学习方式:学习者可以根据个人的程度和喜好按排制定自己的学习计划,教学内容能根据其选择动态构建;

5)新颖全面:学校提供了丰富的而且不断更新升级的学习资源,学生能够很方便取得最好最新的学习资源,并以自己喜欢的格式展现出来。

这些特点反映了这样一个趋势,学习者不再是被动的接收教师的知识,他会主动去获取相关信息其自主能力越来越强,由此对远程教育系统提出了越来越高的要求,远程教育系统应该也是一个能够根据学习者行为信息不断学习变化的系统,于是如何能够从众多的访问者的大量访问记录中提取其行为信息来指导系统,从而提供更加完善服务就成为我们必须考虑的问题。

2.2WebMining

Internet的蓬勃发展使WebMining成为一个热点。WebMining就是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据,应用数据挖掘方法提取抽象的、潜在的、有用的知识。Web站点中主要有三类数据:内容数据、结构数据、使用数据。同时WebMining是指在WWW上挖掘有趣的、潜在的、有用的模式和信息的过程。也分成三类:WebContentMining、WebStructureMining、WebUsageMining。

WebContentMining是对Web页面内容进行挖掘,从Web数据中发现信息。尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。

WebStructureMining是对Web页面之间的结构进行挖掘。在整个Web空间,有用的知识不仅包含在页面的内容中,而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可用来改进搜索路径等。

WebContentMining和WebStructureMining的对象都是网络上的原始数据,而WebUsageMining不同于它们。它面对的是用户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志(logs)里留下的信息,以及其它一些交互信息,包括:访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户、发送字节等。WebUsageMining就是对ServerLogs、ErrorLogs、CookieLogs等日志信息,以及用户的注册数据等进行挖掘,以发现有用信息,并对学生访问留下的日志文件进行分析提取,获得关于学生学习的信息,作为对学生提供教学服务的依据。

学生在访问网站时会留下许多信息。WebUsageMining技术能对这些信息进行挖掘,并利用这些信息建立起一个智能化的、个性化的远程教育系统。这个系统通过对学习者学习行为的分析和研究,了解和掌握学生学习的情况、需求、能力、进度、兴趣等,及时调整学习计划,呈现符合个性的学习资源,使得每一个学生身边仿佛有了能针对自身特点进行教学的“老师”而获得个性化的教学服务

Web使用记录挖掘的主要目标则是从Web网站的访问日志记录中获取感兴趣的模式,每个Web服务器都能有访问日志文件,它记录了访问者的访问和交互的信息。通过分析这些数据可以帮助网站管理者理解用户的行为和Web结构,从而改进站点的设计。

3、WebUsageMining技术

个性化的远程教育系统有许多可实现的方案和技术,基于WebMining系统的数据输入一般有系统日志文件、用户与系统交互数据(如学生注册信息、考试成绩等),但WebUsageMining技术主要用于对系统日志信息的挖掘。虽然WebUsageMining在具体实现时采用的结构和技术各不相同,但其主要过程都包括预处理、模式发现和模式分析。

3.1.预处理

预处理是Web挖掘中最关键的一个环节,其质量关系到使用挖掘过程和模式分析过程的质量。预处理包括数据清洗、用户识别、会话识别、路径补充和事件识别。

数据清洗其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉,如剔除CS-Uri-Stem项。还可剔除用户请求访问失败的记录,及用户请求方法中不是GET的记录。

用户识别这是预处理的第二步,因为日志文件只是记录了主机或服务器的IP地址,而要识别每一个用户,则可采用Cookie技术和用一些启发规则来帮助识别。

会话识别在时间区段较大的Web服务器日志中,用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别,如果用户请求的页面之间的时间超过一定间隔,则认为用户开始了一个新的会话。

路径补充确认Web日志中是否有重要的页面访问记录被遗漏,这个问题的产生是由于Cache的存在所致。路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中,也可以根据引用日志和网络拓扑结构提供的信息把路径补充完整。

事件识别事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义。识别事件的方法有二:一个是ReferenceLength,一个是MaximalForwardReference。

3.2.模式发现(挖掘算法)

这个过程主要用一些挖掘算法来挖掘出规则、模式等。WebUsageMining中用到的Web日志分析及用户行为模式的挖掘方法,主要用了统计分析、关联规则、分类、聚类、序列模式等技术。

统计分析是分析用户行为最常用的方法。通过求出现率、求平均、求中值等,统计最常访问的网页,每页平均访问的时间,浏览路径的平均长度等,以获得用户访问站点的基本信息。除此,还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等。在远程教育系统中,可以分析该学生的访问次数,总停留时间;该学生访问的课程数;该学生对哪些课程停留时间较长等,还可统计网站某个时间段内访问的次数,访问次数最多的URL地址等。

关联规则是通过分析用户访问网页间的潜在联系而归纳出的一种规则。关联规则是如下的一种形式规则,如80%的用户访问Web页面/company/product1时,也访问了/company/product2,即只要访问页面A就有可能访问B(或C……),在WebUsageMining中,人们经常使用的就是Apriori算法或其变形算法。在远程教育系统中,关联规则可发现用户会话中经常被学生一起访问的页面集,这些页面之间并没有顺序关系,我们可以根据这些学生群的相同兴趣进行教学安排。同时,关联规则还可作为启发规则为远程学生预取可能请求的页面,以减少等待时间,建立起一个方便有效的学习环境。

聚类是把一组组个体按照相似性归并成若干类别。在WebUsageMining领域包含着两种聚类,即用户聚类和页聚类。“页聚类”将内容相关的页面归在一个网页组,对网上搜索引擎及提供上网帮助很有用;“用户聚类”是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。

分类即将一组组个体分门别类的归入预先设定好的几个类中。在WebUsageMining领域,分类主要在于发展属于特定类的用户模型。它要求抽取出最能反映一个给定类的特性,通过诱导学习机制和分类的过程,并通过用户归入某一特定类,以对同一类别中的用户提供相似的。分类的服务方法有:决策树、贝叶斯算法、K近邻分类器等。

在远程教学中,可通过学生填写的个人信息及学生访问行为模式的分析,用分类或聚类方法划分相似学生群体或个体,以提供相似或个性化的教学。远程教育中的协作性学习也非常重要。根据关联、分类分析,准确划分目标群体,为小组分类提供可能性和依据。小组学习也是为学生个性化服务的最好模式之一。

序列模式试图找出页面依照时间顺序出现的内在模式。如访问Web页面/company/products的客户中,有30%的人曾在过去的一星期里用关键字M在Yahoo上做过查询。序列模式可以用来做用户的浏览趋势分析,即一组数据项之后出现另一组数据项,从而形成一组按时间排序的会话,以预测未来的访问模式,这将有助于针对特别用户群安排特定内容。通过序列模式研究,可以解决远程教育中针对各种层次学生进行因材施教的问题。

3.3.模式分析

模式分析是WebUsageMining中最后一项重要步骤。其通过选择和观察把发现的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。

在个性化的远程教育系统中,除了对日志文件的挖掘,还要对用户与站点的交互数据库、课件树、站点文件等进行挖掘,对学生作业与考试的完成过程与结果及提问、答疑情况进行分析,进行全方位的个性化教学服务。

4.个性化服务

随着因特网的发展和普及,越来越多的用户利用搜索引擎来搜索网上信息。尽管搜索引擎的发展已较成熟,但人们在使用中却发现要准确、快速地查找自己所需的信息是越来越困难。主要原因有两个:a一次搜索的检索结果(一系列URL地址)可能有成千上万条,而在这过于庞大的信息群中,有用信息只是其中的一小部分,并且常常发生收到或下载的信息难以消化的情况,即所谓的“认知过载”。b.目前的搜索引擎都是服务器端软件,用户需要严格按照各种引擎所要求的格式输入查询词,但种种限制使用户不知道如何贴切地表达自己的信息需求,也不知道如何更准确地寻找所需信息,即所谓的“迷航”。面对网络信息服务的现状,人们在寻求一种将信息用户感兴趣的信息主动推荐给用户的服务方式,这便是个性化信息服务。个性化信息服务是在对用户及其需求了解的情况下,即通过用户研究,从数量庞大、增长迅速、类型复杂的网络信息中提取出用户真正需要的那一小部分提交给用户,是以“用户为中心”的服务原则在网络环境下的具体体现。

5个性化的远程学习框架

5.1个性化的远程学习系统

实现个性化的远程学习系统的关键就是在学习的各个阶段对个体进行差异化的分析和处理。首先需要对参加学习的个体情况进行分类以安排相应的教学内容和进程;其次在学习的过程中,知识表示的内容需要根据对学习者的个性要求具有不同的形式;最后就是要对每一个阶段的学习进行相应的评估和反馈。

个性化的远程学习系统设计的基本思路是对每一个主题知识的学习,分别提供初、中、高三个不同类别的学习方案。通过使用SLIQ算法进行用户分类,将学习者按学习能力分成不同的类别,类别会随个体的学习情况进行调整,分类的依据是用户的个人数据和学习情况历史。

5.2用户分类

不同的个体其背景各不相同,如个人的学习能力、兴趣与学习习惯、原来基础、努力程度,都存在巨大的差异。因此需要区分用户群体,以便系统作出个性化的学习安排。对于每一个用户都有很多属性,有些显然并不对个人的学习能力构成影响,比如地址、电子邮件等。有些是和学习能力密切相关的,比如学历、职业、年龄和学习情况。

当用户第一次注册时,需要填写有关个人信息,系统通过SLIQ算法得到的用户类别信息将用户归入相应类别。用户所属类别会根据用户个人信息的修改和其学习情况的改变而更改,比如某用户原先的学习能力为“低”,经过一段时间的远程课程学习以后,其学习能力提高为“中”,此用户的类别将被重新计算,这样该用户的学习等级就可能会被提升。

显然由于用户的个人资料会随时间而发生更改,而且用户的学习能力也会发生变化,所以挖掘过程需要定期进行以保持结果的正确性。

5.3个性化的学习知识库

学习知识库按相应的主题组织学习素材,把一个主题组织成围绕问题和答案的一系列知识单元来进行,对应每个主题分解成若干知识单元。知识单元之间相互是有联系的,联系有可能是错综复杂的,简单的联系可以是前序知识或后继知识等;同时知识单元的掌握程度是由一组问题答案集来作为评估学生学习的效果,评估效果可以由评估模块来测定,比如对这一单元知识是全部掌握、部分掌握、少量掌握还是没有掌握;另外特定的知识单元对应于不同水平的知识表示,以适合具有不同类别的学生学习。

5.4个性化的知识表示

知识表示是系统提供给不同类别的学生学习的课程知识界面,是预先准备好的适合不同程度的学生学习的不同详细程度的学习材料。

知识表示的示意如图1:

知识表示可依据学生水平、背景的不同体现不同的层次:如简单扼要的表示;带相应解释、说明和示例的表示;配有详尽解释和大量参考链接的表示。通过提供不同层次的知识表示以适合学生的个体差异。当然,不同的表示对应的是同一个知识点的学习,所以对应的问题集和期望的答案应是一致的。

当学生进入某个主题知识的学习时,一个知识单元呈现内嵌的知识给用户,记录他的反应,更新其掌握水平,产生下一个知识表示,当要求的掌握水平被达到了,则可转入流程到另一个单元;如果没有达到,则根据具体的掌握程度,或返回其前序知识的学习或提供更详尽程度知识表示页面的学习。因此学生的学习是根据其自身的基础和掌握知识的快迈程度的不同而不同的。

6.个性化远程教育系统实例

整个解决方案共分三大部分:第一部分是系统的总体结构;第二部分是系统的基本组成及工作流程;第三部分是实施和个性化服务支持。

1.基于Web的数据库远程教育管理系统的总体结构

根据远程教育的实际需求和发展趋势,提出基于Web的数据库远程教育管理系统的总体结构如图2所示.该数据库管理系统包括以下部分:

(1)Web浏览器,它是客户端用于输入查询条件和显示查询结果的交互界面;

(2)Web服务器,它提供Internet服务,管理HTML构成的信息并提供对数据库的存取接口以及用于接收用户输入的信息及形成查询结果;

(3)TCP/IP(TransmissionControlProtocol/InternetProtocol),用于实现Web浏览器

图2基于Web的数据库远程教育管理系统总体结构框图

与Web服务器之间的网络信息交换;

(4)CGI(CommonGatewayInterface),它是Web服务器运行外部程序的一种规范;

(5)数据库服务器,用于实现课件的存储和数据库管理功能以及身份验证、计费等,并提供分布式数据库的搜索路径和搜索规则,以有利于网络资源共享和利用.

2.数据库远程教育管理系统的基本组成及工作流程

数据库远程教育管理系统的基本组成按功能可以大致分成如下几部分:

(1)课件基本信息表

(2)课件存储对应表

(3)课件读取权限表

(4)课件计费表

(5)课件自测结果表

以课件基本信息表为例,其中包含的条目有:

课件编号、课件名称、课程介绍、主讲教师、开课单位、课程分类、浏览方式、计费方法、可否下载等主要内容,其它各表也均包含与自功能有关的项目,在此不一一列出.

对于某一访问者,其简单工作流程如图3所示.

图3访问数据库管理系统工作流程

3、设计说明核心功能的特点:

●以知识点为核心组织网络教学:以知识点为核心组织网络教学突破了传统教学以章节为主线的教学方式,有利于教师准确评估自己的教学效果,有利于学生对知识的准确把握,有利于网络教材的编写制作,同时为建立智能化的学习跟踪、智能答疑提供了基础。

●自适应的学习机制:根据学生浏览课件的情况,比如哪种知识点看到多少,页面浏览时间长短,就可以判断出学生背景知识水平,知识点的掌握情况,个人的学习能力强弱。根据这些判断的结果动态调整教学资源链接,提供最适合个人的学习资源,达到最佳的教学效果。同时为学生提供方便的个人资源管理工具,使学生能够根据自己的需要组织自己的学习资源,与教师提供的资源形成互补,激发学生自主学习的兴趣,发挥网络教学的优势。

●智能答疑系统:系统可以方便快捷地解答学生的问题,同时结合知识点的结构分析学生问题的分布情况,指导教师采取进一步的辅导措施。教师可以根据自身教学的情况调整知识点的结构。

●对象的行为跟踪:教师通过查看学生的在线学习记录,能够了解到学生的学习情况,比如学生的自测情况,学生实验的完成情况,作业、测试成绩等,使教师可以方便准确的评估自己的教学效果。教师还可以根据学习跟踪掌握学生在线行为,引导学生正确合理利用网络教学资源。教务人员也可以通过该系统了解教师的教学情况,评估教学质量。

●学生自我测评:学生可以随时向系统发出申请,系统根据学生申请的难度要求和学生学习的范围生成相应的试卷。学生完成试卷后系统自动批阅试卷并将批阅结果返回给学生,使学生能够看到哪些知识点存在不足,以便在后续的学习过程中作相应的调整。

●远程考试系统:教师可以选择人工或智能组卷方式,生成试卷对学生进行在线考试或测验。学生的考卷经系统自动评分后存入成绩库,教师可按需要获得各类统计分析信息。

●先进的网络教学管理系统:以教学服务管理为核心功能,同时提供教学分析和电子结算功能。模块化设计便于不同部门构架适于自己的管理系统,通用标准数据交互为校际管理提供透明交互操作,教学行为分析与数据挖掘为网络教学调整管理提供反馈数据。

7、总结:

从发展来看,利用计算机互连网开展远程教育是必然趋势,本文通过对Web日志的分析挖掘和对不同的用户进行分类并提供相应的知识界面,采用数据挖掘技术,在大量的教学信息的基础上,利用数据分析和挖掘工具,开发教育行为分析工具,指导学生学习和教师教学,提出了一个远程个性化学习的框架模型。个性化学习的服务体现在学习知识库的构建、个性化学习资料的呈现和学习进程的安排上。远程教育的真正优势在于提供符合用户个体的个性化的学习安排,个性化的教育服务势必会促进远程教育的进一步发展,从而提供给用户更加满意的服务,可以相信,其应用前景极为广阔.

【参考文献】

1教育部文件.现代远程教育工程教育资源开发标准.1999.10

2韩家炜,孟小峰,王静,李盛恩.Web挖掘研究.计算机研究与发展.2001.4:405~414

3朱明.数据挖掘.合肥:中国科技大学出版社,2002.5

4汪启军,申瑞民.基于Web的远程教育系统模型的研究.计算机工程.2000.12:157~159

5施建生.伍卫国.Web日志中挖掘用户浏览模式的研究,西安交通大学学报.2001.35(6)621~624

6宋擒豹,沈钧毅.Web日志的高效多能挖掘算法.计算机与发展.2001.3:328-333

7朱晓云.WEB数据与个性化服务中应用研究.情报杂志.2004.2

8李泽文基于WEB数据挖掘技术.现代计算机.2004.7

9童恒庆,梅清WEB日志挖掘数据预处理研究.现代计算机.2004.3

10谢维奇基于“电大在线”远程教学平台的WEB数据挖掘.教育信息化2004.10

11高岩胡静涛WEB数据挖掘的原理、方法及用途2002.7

12陈恩红等Web使用挖掘:从Web数据中发现用户使用模式计算机科学.2001.5

13丽娜等.Web日志挖掘中的数据预处理的研究[J].计算机工程第26卷,第四期,2000年4月

14陈新中,李岩,谢永红.Web挖掘研究.计算机工程与应用,2002(12)

15邹涛、黄源、张福炎等基于WWW的文本信息挖掘情报学报1999(4)