Web日志数据分析系统研究

时间:2022-06-19 03:47:21

Web日志数据分析系统研究

1Web日志数据分析模型的设计思想

本论文设计平台通过对web日志文件分析,统计出哪个页面最受欢迎,访问者来自哪里,访问时段分布情况等。分析结果生成HTML代码,最终通过浏览器以页面的形式将各种报表呈现在用户面前。其中要用到目前比较常用的ASP技术,由于要将海量的日志数据存入,所以还要用到SQL-Server这个功能强大的数据库。

1.1系统的体系结构

Web日志数据分析系统的主要用户是一般企业网站或个人网站管理员,目前常见的网络开发模式共有3种体系结构:两层Client/Server(C/S)体系结构;三层Client/Server/Database(C/S/D)体系结构;三层Browser/Server/Database(B/S/D)体系结构。综合考虑本系统的用户群特点及这三种体系结构特点,最终采用的体系结构是目前国际上流行的“Browser/WebServer/Database”即三层网络结构模型。这种体系结构简单实用,客户端只要采用标准浏览器与网络进行连接就可以了。

1.2系统功能模块设计

系统功能模块是系统与用户交互的接口,本系统包括:数据预处理模块、基本分析模块、智能分析模块和可视化模块,系统功能模块.数据预处理模块:该模块主要功能是首先去掉原先存放在关系数据库中的部分没有用的原始日志,然后设置日志文件格式、采样方法,依据包含替换规则对数据进行净化,再将该数据导入源数据库,形成页面映射表信息,最后形成用户表。基本分析模块:该模块主要是对网站的访问情况进行以下6方面的统计汇总,即时段分析模块、地域分析模块、来源统计模块、客户端分析模块、受访页分析模块、搜索引擎模块。智能分析模块:该模块主要功能是利用关联规则对Web站点的页面之间的链接关系和站点结构进行分析,构建一个新的Web站点拓扑结构,寻有关联的客户群体,开展有针对性和个性化的电子商务活动。

2Web日志数据分析系统功能的实现

2.1数据收集

由于本系统是对Web日志的分析,所以数据收集部分的工作实际上就是对日志的收集工作,所以最重要得一点是网站的管理者允许对其日志文件进行研究,在同意对日志文件保密的前提下,笔者从电脑商网中国IT商务门户(www.cnitsw.com)获取了一段时间的网站日志文件以此作为分析对象。

2.2数据预处理

数据的预处理过程是将Web日志整理成适合数据挖掘的数据模型。整个挖掘预处理过程分为数据净化、用户识别、会话识别、路径补充、事务识别5个步骤。

2.3智能分析模块实现

我们利用了Apriori算法的思想,但同时对APriori算法进行了改造,采用了改进的APriori算法进行频繁路径挖掘。改进Apriori是受到APriori算法的启发,但它适合频繁路径的挖掘。

2.4基本分析模块实现

基本分析可以分为两个方面,一是网站整体的访问统计,另一方面是具体网页的访问分析。整体分析可以统计用户数、点击数,分析客户端信息等等;对具体网页可以统计其访问量,以分析其受欢迎程度,也可表示其重要程度。这些工作的数据来源是预处理中数据清理阶段产生的源数据库和整个预处理阶段后产生的用户事务数据库,实现方法也比较简单,一般都是简单的统计分析处理。基本分析模块由时段分析模块、地域分析模块、来源统计模块、客户端分析模块、受访页分析模块、搜索引擎分析模块6个模块组成。本文以时段分析模块为例进行阐述。根据日志中的日期域(data)、时间域(time)以及所花时间域(time-taken)可以统计出每天哪个时段的访问人数和具体逗留时间,每个小时访问量的变化,通过一天中每小时的访问数可以得出站点哪个时间段的访问人数最多是访问高峰期,进而分析出访问人群的职业和上网习惯等相关信息。

Web日志数据分析是internet信息处理的一个重要应用,目前我们只是实现了一些简单的功能,还可以对WEB日志的分析处理上进行某些更详细的深入分析,譬如可以根据访问者的登录时间、访问页面、停留时间等信息进行统计分析,然后制定个性化的电子商务营销策略,帮助电子商务网站在最短的时间内抓住最有效的客户。还可根据以往时间段的访问人数统计,对网站未来几天或者某个时间段的访问流量进行预测。

作者:吴敏纲 黄杰恒 郑义平 单位:景德镇陶瓷学院信息工程学院 景德镇市第六人民医院 景德镇市国税局直属分局