访问流量范文10篇

时间:2023-04-09 06:42:31

访问流量

访问流量范文篇1

访问量的多少是衡量网站是否成功的重要标准,但对于图书馆网站是远远不够的,图书馆需要获取完整的读者访问流量统计数据,来对图书馆信息资源的使用情况进行分析,网络信息计量学方法是目前网络界普遍采用的网站绩效评估计量法,被认为是可以用科学的方法检验网站访问数据的一种工具。它的目的包括了解网络读者的行为、确定网站是否吸引适当的读者来访、评定网站建设策略是否得当。其实施步骤可分为三个阶段:

(1)记录网站的访问数据;

(2)分析记录数据;

(3)为网站建设策略的改进提供依据。

1.1系统原理

由于网络站点和数据库本身具备了访问计量功能,各自的信息资源收藏状况便于人们掌握,并且能自动记录读者访问的登录情况,如登录名、登录时间、浏览文件、读者的来源地址等,这些数据资料能够准确反映读者访问信息和来源分布等情况,所以依据图书馆网络读者访问统计的工作内容,制定相应的分析指标,并收集网络读者访问图书馆信息资源站点形成的日志文件,然后利用日志统计工作软件定时对日志文件进行处理,得到统计数据,并动态生成各种表达形式的能满足图书馆各项统计分析工作的报表。最后把生成的分析报表导入到数据库中出去。

图书馆各个网络资源站点建设人员可通过浏览网络读者访问流量统计分析报告,分析和了解读者的访问需求,从而做好网络信息资源的建设工作。

读者行为分析研究则可通过对分析报告进行质化研究,并结合一般调查法、咨询研究法对读者的信息寻求行为进行研究。

本系统还可利用统计分析的结果来对系统自身工作进行评估和调整。

1.2分析指标

传统图书馆的分析指标和计量方法,虽然和数字化图书馆有很多不同,但使用的目的及计量的准则并没有太大实质性差异[4]。

参考传统图书馆的分析指标以及国内外类似的研究结果选定了下列10个分析指标:

(1)读者到访人数和潜在读者人数的百分比;

(2)到访读者表现了阅读的兴趣的百分比(采取明显的阅读行动);

(3)可能的读者转为经常的读者的百分比(经常阅读、下载资料);

(4)读者的持续度(重复到访读者);

(5)读者的忠诚度(网页浏览次数、再度到访的次数及时间长度);

(6)读者停止阅读行为的百分比(阅读行为半途中止);

(7)读者耗损率(现有读者中停止阅读行为者的百分比);

(8)读者动摇率(耗损的读者/到访读者的总数);

(9)读者最近到访时间(据上次到访的间隔时间);

(10)读者到访频率(多久到访一次)。

就此参数,我们可以从一个客观的角度来观察和评估图书馆网络读者访问情况。

1.3系统框图

网络读者流量统计分析系统功能框图

1.4工作方法

本系统工作方法主要是采集网络读者访问过程日志进行量化分析法,它的优缺点见表1。

读者访问过程日志分析法优缺点

量化分析法重视量的分析,本系统通过对访问过程日志以量的方法加以统计分析,首先根据为了研究读者需求分布和需求增长情况这一目的将研究内容归类成若干分析单元,接着将分析单元以数量的方式加以表达,进而以此为解释读者信息寻求行为的依据。

1.5技术实现

(1)系统结构

本系统是以浏览器/服务器/数据库体系结构作为基本架构,通过ASP方式实现交互式、动态的读者访问日志统计分析系统。系统结构框架如图2所示:

读者访问日志统计分析系统结构框图

(2)系统组成模块

本系统有六个模块组成:访问日志入库、访问流量分析、被访页面分析、来访读者分析和统计分析图表。

(3)系统运行环境与开发平台

本系统运行环境和开发平台如表2。

读者访问日志统计分析系统模块

表2系统运行环境及开发平台一览表

软件类别软件名称

数据库SQLServer2000+FastTrendsDatabase

操作系统Windows2000SP4Server+Aix4.3.3

Web服务器软件IIS5.0+Apache3.0

浏览器软件IE5.5

网页制作Frontpage2000+javascript

ASP工具EditplusTextEditor

编程语言VisualBasic6.0

图表软件Excel2000

(4)程序流程与代码实现

该系统由main.asp(主界面程序)、flux.asp(小时、日、星期流量分析)、target.asp(被访页面分析)、visitor.asp(来访读者分析)、chart.asp(统计分析图表)五个组成。

我们以“被访页面分析”模块的程序流程和代码说明系统组成模块的实现过程,该模块程序流程图如图4。

“被访页面分析”程序流程图

相应代码:

<table

<tdclass=定义的表格形式及表头>

Setconn=server.creatobjectl("adodb.connection")

conn.open"dsn=dsn_dbs;uid=xxx;pwd=xxx"

Setre=server.creatobject("adodb.recorderset")

re.activeconnection=conn

dbname=Application("logtime")——数据表名称

re.open“QL语句”

dowhilenotre.eof

执行Recordset操作,服务器进行统计计算

response.write——写入统计表

re.movenext

loop

re.close

程序中一些代码说明:

①Recordset的Open方法:允许用户向数据库发出请求,通常是运行sql命令。如:Sqlquery="selectlogtimefromintemetlogwhereday(logtime)=day(getdate())andmonth(logtime)=month(getdate())andyear(logtime)=year(getdate())"Dbrs.opensqlquery,dbconnection,3,3

②Recordset的RecordCount属性:可以取得当前在Recordset对象中的记录条数。如:setdbrs=server.createobject("ADODB.recordset")amount=dbrs.recordcount

③Recordset的MoveNext方法:移动指针到Recordset对象的下一条数据。如:Dbrs.movenext

④Response的Write方法:负责将字符串信息输出的用户端。如:Response.write“页面总访问量:“&amount&”<br>

⑤Recordset的Close方法:可以用来关闭指定的Recordset对象。如:Dbrs.close

1.6系统运行过程

下面以西安交通大学图书馆网站为统计分析对象说明该系统运行过程。

首先我们用FTP工具抓取网址为的服务器,时间段为2003/01/01到2003/12/31的访问日志导入到数据库中,该服务器完成图书馆网站的部分功能:门户信息、OPAC、馆际互借、电子期刊、网络数据库、网络资源、参考服务等。

对日志分析系统进行运行参数设置:读者访问时间间隔设为20分钟;从最新QQ显IP版软件中导出读者IP地址分配资料,转换格式后导入到日志分析系统的地址表中,以便对读者分群;设置过滤规格文件滤掉一些无用的访问信息,如背景图片、图书馆Logo,页面美化图片和服务器漏洞扫描日志等日志信息,然后对服务器访问日志进行初步统计分析,保存统计分析结果准备进行进一步统计分析。

最后利用精致多样的统计分析方法对初步统计结果进行统计分析,统计分析出的数据有:一年内资源点击与访问计数;一年内网站中最常使用的资源与服务;一年内点击次数最多的读者;一年内务分群读者的点击次数比例;一年内点击次数与阅读次数的变化;一年内上网的读者与累积成长趋势;一周各天的平均点击次数;一天内各时段的平均点击次数;校内各区读者点击次数比例;各项相关资源被使用的情形等等。这些数据可用Eexel软件生成直观的统计分析图表,部分图表详见实际应用一节中。本系统的研究主要采用访问过程日志分析法,以内容分析法、问卷调查法辅助研究。主要考虑:一是这种方法在电子商务和其它网络应用的量化分析,已经有许多研究成果,可使我们的研究更为便利;二是可以经济的,较具体客观的分析到网络读者信息需求特性;三是通过定量的计算,定质的分析,形成一种综合分析的方式,以求分析结果更为客观和科学。

2系统的实现

访问量的多少是衡量网站是否成功的重要标准,但对于图书馆网站是远远不够的,图书馆需要获取完整的读者访问流量统计数据,来对图书馆信息资源的使用情况进行分析,网络信息计量学方法是目前网络界普遍采用的网站绩效评估计量法,被认为是可以用科学的方法检验网站访问数据的一种工具。它的目的包括了解网络读者的行为、确定网站是否吸引适当的读者来访、评定网站建设策略是否得当。其实施步骤可分为三个阶段:

(1)记录网站的访问数据;

(2)分析记录数据;

(3)为网站建设策略的改进提供依据。

2.1系统原理

由于网络站点和数据库本身具备了访问计量功能,各自的信息资源收藏状况便于人们掌握,并且能自动记录读者访问的登录情况,如登录名、登录时间、浏览文件、读者的来源地址等,这些数据资料能够准确反映读者访问信息和来源分布等情况,所以依据图书馆网络读者访问统计的工作内容,制定相应的分析指标,并收集网络读者访问图书馆信息资源站点形成的日志文件,然后利用日志统计工作软件定时对日志文件进行处理,得到统计数据,并动态生成各种表达形式的能满足图书馆各项统计分析工作的报表。最后把生成的分析报表导入到数据库中出去。

图书馆各个网络资源站点建设人员可通过浏览网络读者访问流量统计分析报告,分析和了解读者的访问需求,从而做好网络信息资源的建设工作。

读者行为分析研究则可通过对分析报告进行质化研究,并结合一般调查法、咨询研究法对读者的信息寻求行为进行研究。

本系统还可利用统计分析的结果来对系统自身工作进行评估和调整。

2.2分析指标

传统图书馆的分析指标和计量方法,虽然和数字化图书馆有很多不同,但使用的目的及计量的准则并没有太大实质性差异[4]。

参考传统图书馆的分析指标以及国内外类似的研究结果选定了下列10个分析指标:

(1)读者到访人数和潜在读者人数的百分比;

(2)到访读者表现了阅读的兴趣的百分比(采取明显的阅读行动);

(3)可能的读者转为经常的读者的百分比(经常阅读、下载资料);

(4)读者的持续度(重复到访读者);

(5)读者的忠诚度(网页浏览次数、再度到访的次数及时间长度);

(6)读者停止阅读行为的百分比(阅读行为半途中止);

(7)读者耗损率(现有读者中停止阅读行为者的百分比);

(8)读者动摇率(耗损的读者/到访读者的总数);

(9)读者最近到访时间(据上次到访的间隔时间);

(10)读者到访频率(多久到访一次)。

就此参数,我们可以从一个客观的角度来观察和评估图书馆网络读者访问情况。

2.3系统框图

网络读者流量统计分析系统功能框图

2.4工作方法

本系统工作方法主要是采集网络读者访问过程日志进行量化分析法,它的优缺点见表1。

读者访问过程日志分析法优缺点

量化分析法重视量的分析,本系统通过对访问过程日志以量的方法加以统计分析,首先根据为了研究读者需求分布和需求增长情况这一目的将研究内容归类成若干分析单元,接着将分析单元以数量的方式加以表达,进而以此为解释读者信息寻求行为的依据。

2.5技术实现

(1)系统结构

本系统是以浏览器/服务器/数据库体系结构作为基本架构,通过ASP方式实现交互式、动态的读者访问日志统计分析系统。系统结构框架如图2所示:

读者访问日志统计分析系统结构框图

(2)系统组成模块

本系统有六个模块组成:访问日志入库、访问流量分析、被访页面分析、来访读者分析和统计分析图表。

(3)系统运行环境与开发平台

本系统运行环境和开发平台如表2。

读者访问日志统计分析系统模块

(4)程序流程与代码实现

该系统由main.asp(主界面程序)、flux.asp(小时、日、星期流量分析)、target.asp(被访页面分析)、visitor.asp(来访读者分析)、chart.asp(统计分析图表)五个组成。

我们以“被访页面分析”模块的程序流程和代码说明系统组成模块的实现过程,该模块程序流程图如图4。

“被访页面分析”程序流程图

相应代码:

<table

<tdclass=定义的表格形式及表头>

Setconn=server.creatobjectl("adodb.connection")

conn.open"dsn=dsn_dbs;uid=xxx;pwd=xxx"

Setre=server.creatobject("adodb.recorderset")

re.activeconnection=conn

dbname=Application("logtime")——数据表名称

re.open“QL语句”

dowhilenotre.eof

执行Recordset操作,服务器进行统计计算

response.write——写入统计表

re.movenext

loop

re.close

程序中一些代码说明:

①Recordset的Open方法:允许用户向数据库发出请求,通常是运行sql命令。如:Sqlquery="selectlogtimefromintemetlogwhereday(logtime)=day(getdate())andmonth(logtime)=month(getdate())andyear(logtime)=year(getdate())"Dbrs.opensqlquery,dbconnection,3,3

②Recordset的RecordCount属性:可以取得当前在Recordset对象中的记录条数。如:setdbrs=server.createobject("ADODB.recordset")amount=dbrs.recordcount

③Recordset的MoveNext方法:移动指针到Recordset对象的下一条数据。如:Dbrs.movenext

④Response的Write方法:负责将字符串信息输出的用户端。如:Response.write“页面总访问量:“&amount&”<br>

⑤Recordset的Close方法:可以用来关闭指定的Recordset对象。如:Dbrs.close

2.6系统运行过程

下面以西安交通大学图书馆网站为统计分析对象说明该系统运行过程。

首先我们用FTP工具抓取网址为的服务器,时间段为2003/01/01到2003/12/31的访问日志导入到数据库中,该服务器完成图书馆网站的部分功能:门户信息、OPAC、馆际互借、电子期刊、网络数据库、网络资源、参考服务等。

对日志分析系统进行运行参数设置:读者访问时间间隔设为20分钟;从最新QQ显IP版软件中导出读者IP地址分配资料,转换格式后导入到日志分析系统的地址表中,以便对读者分群;设置过滤规格文件滤掉一些无用的访问信息,如背景图片、图书馆Logo,页面美化图片和服务器漏洞扫描日志等日志信息,然后对服务器访问日志进行初步统计分析,保存统计分析结果准备进行进一步统计分析。

最后利用精致多样的统计分析方法对初步统计结果进行统计分析,统计分析出的数据有:一年内资源点击与访问计数;一年内网站中最常使用的资源与服务;一年内点击次数最多的读者;一年内务分群读者的点击次数比例;一年内点击次数与阅读次数的变化;一年内上网的读者与累积成长趋势;一周各天的平均点击次数;一天内各时段的平均点击次数;校内各区读者点击次数比例;各项相关资源被使用的情形等等。这些数据可用Eexel软件生成直观的统计分析图表,部分图表详见实际应用一节中。本系统的研究主要采用访问过程日志分析法,以内容分析法、问卷调查法辅助研究。主要考虑:一是这种方法在电子商务和其它网络应用的量化分析,已经有许多研究成果,可使我们的研究更为便利;二是可以经济的,较具体客观的分析到网络读者信息需求特性;三是通过定量的计算,定质的分析,形成一种综合分析的方式,以求分析结果更为客观和科学。

3实际应用

从2002年开始,我们从图书馆门户网站读者访问计数开始了网络读者访问统计工作,从最初的图书馆首页访问计数到现在应用网络读者访问流量统计分析系统到以信息资源站点、数据库为单元的访问利用上,取得了不少研究成果,下面我们介绍以2003年西安交通大学图书馆网站读者访问日志为统计对象,获得的一些统计分析结果。

表3是2003年图书馆网站的资源浏览次数,访问次数与访问读者数的统计表,我们看到一年内资源的浏览次数是10,222,296,访问次数是1,617,166,访问读者是310,628,对照2003年西安交大统计公报教职工5341人,在校学生32766人的数据表明图书馆网站有很高的访问量。另外网络访问读者310,628远远大于学生和教职工的总和,表明有相当多的读者使用本馆的资源,这说明本馆的信息资源丰富,吸引了很多读者。网站不足之处是自建的外文资源很少。从表3看,来自国内访问占6.43%,来自国外访问占0.01%。综合以上资料,西安交大图书馆网站为校内外读者提供了方便、丰富的资源服务,吸引了大量的读者,但在国外的知名度很低,现有资源不能吸引国外读者,对此图书馆采取一些措施,来解决这个问题。

接着我们看一年间网络读者常使用的网站资源与服务,图5显示的是读者最常使用的前十项网站资源与服务以及它们占全部浏览次数的百分比。从图中我们观察到前十项占了访问量的43%,第一项是图书馆首页,然后依次是网络数据库、联机公共目录查询、中国期刊网……,这说明图书馆网站的资源内容设计与规划合理,读者访问资源方便,相关信息更新及时,受到了读者的欢迎。另外,网络数据库和联机公共目录访问比例接近说明读者并重利用印刷型资源和数宇化资源,数字化资源对科研和教学的作用日益明显。从图5中我们还观察到所有的电子数据库访问所占比例值呈现出指数下降的趋势,这说明较少数数据库的访问量较大,而较多数数据库访问量较少,根据这个特点,图书馆在采购数据库时可采取不同的采购策略,对于使用量大的数据库保证数据的更新量和连续性,则可满足约80%的读者信息需求,对于较多的使用量少的数据库可采用合伙采购共同使用的办法,来满足约20%的读者信息需求。

图书馆网站前十名资源与服务以及它们占全部访问次数的比例(01/01/2003-12/31/2003)

接下来我们来分析常访问的读者及其来源,首先,图6中表示网络读者访问次数的分布,从图6中可以看出75.15%的读者只访问过一次,9.86%的读者访问过两次,6.49%的读者则经常访问图书馆网站,这说明作为一个为大学教育和科研服务的信息中心,图书馆的网络资源已经有了固定的读者,但还有大量读者的信息需求不能满足,为此图书馆通过参加一些文献信息资源建设项目和组织,如中国高等教育文献保障体系(CALIS),陕西省科技情报协作网等,以便获取更多优质的文献信息资源,增强图书馆文献信息资源的保障能力。另外,图书馆信息资源大多数有访问权的限制,校外的读者无法接触到,为此图书馆采取了一些办法,如建立电子数据库导航库,电子期刊导航库,提供文献传递等服务来满足校外读者的信息需求。表4是常来图书馆网站的读者统计数据,可以观察到前二十名读者绝大部分是西安交大校园网的读者占全部来访数的4.61%。如果以其上网所属机构来划分来访的网络读者,图7是前十名各类机构网络读者的访问。从图7中,我们可以清楚的看到本校的用户占73%,其中来自科学馆的访问占3.23%,图书馆的读者占3.18%,西一楼的2.34%,可见西安交大的校园网比较普及,读者能够很方便的进入图书馆资源网站,这也表示图书馆提供给读者阅读电子资源的电子阅览室满足了读者需要。在图7中数据显示,外校的读者也经常访问图书馆网站,如西安理工大学的读者占0.33%,长安大学的占0.31%,北京大学的占0.05%,西北工业大学的占0.17%,上海交大占0.08%等等,这些读者主要使用联机公共目录查询和使用自建数据库,这说明高校间的信息共享正在发展,图书馆应该加强自建特色数据库的建设,增强文献传递和馆际互借服务,满足这些读者的信息需求。

接下来我们来观察各类读者在每个月访问网络资源的比例变化图,见图8是各类网络读者访问前十名网络资源的变化图,总体访问变化的趋势和学校的校历安排有明显的关系,每个数据库的访问量变化则和各类读者的信息需求不同有关系。这反映了读者的结构影响着网站的使用情形。

网络读者访问图书馆网站次数分布(01/01/2003-12/31/2003)

前十名各类主机访问图书馆网站的访问次数(01/01/2003-12/31/2003)

各类网络读者对前十名网络资源访问变化图(01/01/2003-12/31/2003)

由于篇幅有限,我们简单介绍了本系统对图书馆网站网络读者访问流量的统计分析结果,在以上的讨论中,可以观察到读者利用网络信息资源是联机公共目录检索和信息检索并重,且大部分读者是本校的。

通过上述讨论,我们知道本系统还有许多值得进一步研究之处,下一步的研究方向是收集更完整的读者访问日志,包括更长期的和所有与图书馆资源访问相关的。并且尝试利用精致的统计方法来分析,以达到对网络读者行为更精确的解读。

4结语

经实际应用证明,该系统对我馆信息资源建设起到了重要的促进作用。首先,在控制我馆信息资源存放空间问题上,虽然目前看来效果不明显,但如果越来越多的信息资源杂乱无章地占据信息空间,将会大大降低信息检索的效率,干扰核心信息源的利用。本系统可以提供调整信息存放的定量依据,在探明各类型信息资料数量特征的基础上,分析其增长和老化规律,判断信息的价值和时效性,使有价值的信息充分地发挥作用,使信息空间得到有效的利用。

其次,在“以人为本”的理念指导下,图书馆走出了单纯提供馆藏信息资源为中心的定位,着眼于满足读者广泛的信息需求。在本系统的指导下能实现这个目标:一是根据信息资源规律反映出的学术动态和信息利用规律反映出的需求动态,指导图书馆的馆藏资源建设。二是通过对信息资源利用规律的研究,使计算机信息检索系统走向科学化、规范化,从而方便用户查询。

在整个研究过程中,取得了一些研究成果,也发现有不少问题等待我们进一步的研究,首先是无法取得确实充分的数据,主要问题是图书馆提供的网络数据库是联接到厂商的数据库中去检索的。如果图书馆自己没有服务主机,那么就要请厂商提供访问数据,虽然厂商都会提供月报表,但是能够判读的资料不多,或是他提供的数据不标准,或是他提供资料不是图书馆想要的。其次不易解释数据,有了访问过程记录数据,可是怎么去解释它?读者从哪里来,做什么,这个比较容易解释,可是要知道读者做某件事的动机,就没有办法从数据中去解释了。

【参考文献】

1WonsikShim,CharlesR.McClure,JohnCarloBertot&JamesT.Sweet.ARLE—MetricsProject:DevelopingStatisticsandPerformanceMeasurestoDescribeElectronicInformationServicesandResourcesforARLLibraries:PhaseOneReportTallahassee,FL:InformationUseManagementandPolicyInstitutc,SchooloflnformationStudies,2000./stats/newmeas/emetrics/phaseone.pdf(AccessedSep.10.2001)

2詹丽萍.E-metrics在数字图书馆使用评估的应用.数字图书馆与数字博物馆趋势研讨会,2001:21-30

3邹菲.试论网络信息计量学在数字图书馆中的应用.图书情报知识,2001(1):16-20

访问流量范文篇2

访问量的多少是衡量网站是否成功的重要标准,但对于图书馆网站是远远不够的,图书馆需要获取完整的读者访问流量统计数据,来对图书馆信息资源的使用情况进行分析,网络信息计量学方法是目前网络界普遍采用的网站绩效评估计量法,被认为是可以用科学的方法检验网站访问数据的一种工具。它的目的包括了解网络读者的行为、确定网站是否吸引适当的读者来访、评定网站建设策略是否得当。其实施步骤可分为三个阶段:

(1)记录网站的访问数据;

(2)分析记录数据;

(3)为网站建设策略的改进提供依据。

2.1系统原理

由于网络站点和数据库本身具备了访问计量功能,各自的信息资源收藏状况便于人们掌握,并且能自动记录读者访问的登录情况,如登录名、登录时间、浏览文件、读者的来源地址等,这些数据资料能够准确反映读者访问信息和来源分布等情况,所以依据图书馆网络读者访问统计的工作内容,制定相应的分析指标,并收集网络读者访问图书馆信息资源站点形成的日志文件,然后利用日志统计工作软件定时对日志文件进行处理,得到统计数据,并动态生成各种表达形式的能满足图书馆各项统计分析工作的报表。最后把生成的分析报表导入到数据库中出去。

图书馆各个网络资源站点建设人员可通过浏览网络读者访问流量统计分析报告,分析和了解读者的访问需求,从而做好网络信息资源的建设工作。

读者行为分析研究则可通过对分析报告进行质化研究,并结合一般调查法、咨询研究法对读者的信息寻求行为进行研究。

本系统还可利用统计分析的结果来对系统自身工作进行评估和调整。

2.2分析指标

传统图书馆的分析指标和计量方法,虽然和数字化图书馆有很多不同,但使用的目的及计量的准则并没有太大实质性差异[4]。

参考传统图书馆的分析指标以及国内外类似的研究结果选定了下列10个分析指标:

(1)读者到访人数和潜在读者人数的百分比;

(2)到访读者表现了阅读的兴趣的百分比(采取明显的阅读行动);

(3)可能的读者转为经常的读者的百分比(经常阅读、下载资料);

(4)读者的持续度(重复到访读者);

(5)读者的忠诚度(网页浏览次数、再度到访的次数及时间长度);

(6)读者停止阅读行为的百分比(阅读行为半途中止);

(7)读者耗损率(现有读者中停止阅读行为者的百分比);

(8)读者动摇率(耗损的读者/到访读者的总数);

(9)读者最近到访时间(据上次到访的间隔时间);

(10)读者到访频率(多久到访一次)。

就此参数,我们可以从一个客观的角度来观察和评估图书馆网络读者访问情况。

1.3系统框图

网络读者流量统计分析系统功能框图

1.4工作方法

本系统工作方法主要是采集网络读者访问过程日志进行量化分析法,它的优缺点见表1。

读者访问过程日志分析法优缺点

量化分析法重视量的分析,本系统通过对访问过程日志以量的方法加以统计分析,首先根据为了研究读者需求分布和需求增长情况这一目的将研究内容归类成若干分析单元,接着将分析单元以数量的方式加以表达,进而以此为解释读者信息寻求行为的依据。

1.5技术实现

(1)系统结构

本系统是以浏览器/服务器/数据库体系结构作为基本架构,通过ASP方式实现交互式、动态的读者访问日志统计分析系统。系统结构框架如图2所示:

读者访问日志统计分析系统结构框图

(2)系统组成模块

本系统有六个模块组成:访问日志入库、访问流量分析、被访页面分析、来访读者分析和统计分析图表。

(3)系统运行环境与开发平台

本系统运行环境和开发平台如表2。

Excel2000

(4)程序流程与代码实现

该系统由main.asp(主界面程序)、flux.asp(小时、日、星期流量分析)、target.asp(被访页面分析)、visitor.asp(来访读者分析)、chart.asp(统计分析图表)五个组成。

我们以“被访页面分析”模块的程序流程和代码说明系统组成模块的实现过程,该模块程序流程图如图4。

“被访页面分析”程序流程图

相应代码:

<table

<tdclass=定义的表格形式及表头>

Setconn=server.creatobjectl("adodb.connection")

conn.open"dsn=dsn_dbs;uid=xxx;pwd=xxx"

Setre=server.creatobject("adodb.recorderset")

re.activeconnection=conn

dbname=Application("logtime")——数据表名称

re.open“QL语句”

dowhilenotre.eof

执行Recordset操作,服务器进行统计计算

response.write——写入统计表

re.movenext

loop

re.close

程序中一些代码说明:

①Recordset的Open方法:允许用户向数据库发出请求,通常是运行sql命令。如:Sqlquery="selectlogtimefromintemetlogwhereday(logtime)=day(getdate())andmonth(logtime)=month(getdate())andyear(logtime)=year(getdate())"Dbrs.opensqlquery,dbconnection,3,3

②Recordset的RecordCount属性:可以取得当前在Recordset对象中的记录条数。如:setdbrs=server.createobject("ADODB.recordset")amount=dbrs.recordcount

③Recordset的MoveNext方法:移动指针到Recordset对象的下一条数据。如:Dbrs.movenext

④Response的Write方法:负责将字符串信息输出的用户端。如:Response.write“页面总访问量:“&amount&”<br>

⑤Recordset的Close方法:可以用来关闭指定的Recordset对象。如:Dbrs.close

2.6系统运行过程

下面以西安交通大学图书馆网站为统计分析对象说明该系统运行过程。

首先我们用FTP工具抓取网址为的服务器,时间段为2003/01/01到2003/12/31的访问日志导入到数据库中,该服务器完成图书馆网站的部分功能:门户信息、OPAC、馆际互借、电子期刊、网络数据库、网络资源、参考服务等。

对日志分析系统进行运行参数设置:读者访问时间间隔设为20分钟;从最新QQ显IP版软件中导出读者IP地址分配资料,转换格式后导入到日志分析系统的地址表中,以便对读者分群;设置过滤规格文件滤掉一些无用的访问信息,如背景图片、图书馆Logo,页面美化图片和服务器漏洞扫描日志等日志信息,然后对服务器访问日志进行初步统计分析,保存统计分析结果准备进行进一步统计分析。

最后利用精致多样的统计分析方法对初步统计结果进行统计分析,统计分析出的数据有:一年内资源点击与访问计数;一年内网站中最常使用的资源与服务;一年内点击次数最多的读者;一年内务分群读者的点击次数比例;一年内点击次数与阅读次数的变化;一年内上网的读者与累积成长趋势;一周各天的平均点击次数;一天内各时段的平均点击次数;校内各区读者点击次数比例;各项相关资源被使用的情形等等。这些数据可用Eexel软件生成直观的统计分析图表,部分图表详见实际应用一节中。本系统的研究主要采用访问过程日志分析法,以内容分析法、问卷调查法辅助研究。主要考虑:一是这种方法在电子商务和其它网络应用的量化分析,已经有许多研究成果,可使我们的研究更为便利;二是可以经济的,较具体客观的分析到网络读者信息需求特性;三是通过定量的计算,定质的分析,形成一种综合分析的方式,以求分析结果更为客观和科学。

3实际应用

从2002年开始,我们从图书馆门户网站读者访问计数开始了网络读者访问统计工作,从最初的图书馆首页访问计数到现在应用网络读者访问流量统计分析系统到以信息资源站点、数据库为单元的访问利用上,取得了不少研究成果,下面我们介绍以2003年西安交通大学图书馆网站读者访问日志为统计对象,获得的一些统计分析结果。

表3是2003年图书馆网站的资源浏览次数,访问次数与访问读者数的统计表,我们看到一年内资源的浏览次数是10,222,296,访问次数是1,617,166,访问读者是310,628,对照2003年西安交大统计公报教职工5341人,在校学生32766人的数据表明图书馆网站有很高的访问量。另外网络访问读者310,628远远大于学生和教职工的总和,表明有相当多的读者使用本馆的资源,这说明本馆的信息资源丰富,吸引了很多读者。网站不足之处是自建的外文资源很少。从表3看,来自国内访问占6.43%,来自国外访问占0.01%。综合以上资料,西安交大图书馆网站为校内外读者提供了方便、丰富的资源服务,吸引了大量的读者,但在国外的知名度很低,现有资源不能吸引国外读者,对此图书馆采取一些措施,来解决这个问题。

①建设网站的英文版本;

②把本校和本地一些有特色的文化资源数字化后,做成中英文全文数据库。如钱学森多媒体数据库、江南制造局多媒体数据库;

③参与中外数据库合作建设项目,如中美百万图书项目。

单一访问者数310,628

接着我们看一年间网络读者常使用的网站资源与服务,图5显示的是读者最常使用的前十项网站资源与服务以及它们占全部浏览次数的百分比。从图中我们观察到前十项占了访问量的43%,第一项是图书馆首页,然后依次是网络数据库、联机公共目录查询、中国期刊网……,这说明图书馆网站的资源内容设计与规划合理,读者访问资源方便,相关信息更新及时,受到了读者的欢迎。另外,网络数据库和联机公共目录访问比例接近说明读者并重利用印刷型资源和数宇化资源,数字化资源对科研和教学的作用日益明显。从图5中我们还观察到所有的电子数据库访问所占比例值呈现出指数下降的趋势,这说明较少数数据库的访问量较大,而较多数数据库访问量较少,根据这个特点,图书馆在采购数据库时可采取不同的采购策略,对于使用量大的数据库保证数据的更新量和连续性,则可满足约80%的读者信息需求,对于较多的使用量少的数据库可采用合伙采购共同使用的办法,来满足约20%的读者信息需求。

图书馆网站前十名资源与服务以及它们占全部访问次数的比例(01/01/2003-12/31/2003)

接下来我们来分析常访问的读者及其来源,首先,图6中表示网络读者访问次数的分布,从图6中可以看出75.15%的读者只访问过一次,9.86%的读者访问过两次,6.49%的读者则经常访问图书馆网站,这说明作为一个为大学教育和科研服务的信息中心,图书馆的网络资源已经有了固定的读者,但还有大量读者的信息需求不能满足,为此图书馆通过参加一些文献信息资源建设项目和组织,如中国高等教育文献保障体系(CALIS),陕西省科技情报协作网等,以便获取更多优质的文献信息资源,增强图书馆文献信息资源的保障能力。另外,图书馆信息资源大多数有访问权的限制,校外的读者无法接触到,为此图书馆采取了一些办法,如建立电子数据库导航库,电子期刊导航库,提供文献传递等服务来满足校外读者的信息需求。表4是常来图书馆网站的读者统计数据,可以观察到前二十名读者绝大部分是西安交大校园网的读者占全部来访数的4.61%。如果以其上网所属机构来划分来访的网络读者,图7是前十名各类机构网络读者的访问。从图7中,我们可以清楚的看到本校的用户占73%,其中来自科学馆的访问占3.23%,图书馆的读者占3.18%,西一楼的2.34%,可见西安交大的校园网比较普及,读者能够很方便的进入图书馆资源网站,这也表示图书馆提供给读者阅读电子资源的电子阅览室满足了读者需要。在图7中数据显示,外校的读者也经常访问图书馆网站,如西安理工大学的读者占0.33%,长安大学的占0.31%,北京大学的占0.05%,西北工业大学的占0.17%,上海交大占0.08%等等,这些读者主要使用联机公共目录查询和使用自建数据库,这说明高校间的信息共享正在发展,图书馆应该加强自建特色数据库的建设,增强文献传递和馆际互借服务,满足这些读者的信息需求。

接下来我们来观察各类读者在每个月访问网络资源的比例变化图,见图8是各类网络读者访问前十名网络资源的变化图,总体访问变化的趋势和学校的校历安排有明显的关系,每个数据库的访问量变化则和各类读者的信息需求不同有关系。这反映了读者的结构影响着网站的使用情形。

网络读者访问图书馆网站次数分布(01/01/2003-12/31/2003)

前十名各类主机访问图书馆网站的访问次数(01/01/2003-12/31/2003)

各类网络读者对前十名网络资源访问变化图(01/01/2003-12/31/2003)

由于篇幅有限,我们简单介绍了本系统对图书馆网站网络读者访问流量的统计分析结果,在以上的讨论中,可以观察到读者利用网络信息资源是联机公共目录检索和信息检索并重,且大部分读者是本校的。

通过上述讨论,我们知道本系统还有许多值得进一步研究之处,下一步的研究方向是收集更完整的读者访问日志,包括更长期的和所有与图书馆资源访问相关的。并且尝试利用精致的统计方法来分析,以达到对网络读者行为更精确的解读。

4结语

经实际应用证明,该系统对我馆信息资源建设起到了重要的促进作用。首先,在控制我馆信息资源存放空间问题上,虽然目前看来效果不明显,但如果越来越多的信息资源杂乱无章地占据信息空间,将会大大降低信息检索的效率,干扰核心信息源的利用。本系统可以提供调整信息存放的定量依据,在探明各类型信息资料数量特征的基础上,分析其增长和老化规律,判断信息的价值和时效性,使有价值的信息充分地发挥作用,使信息空间得到有效的利用。

其次,在“以人为本”的理念指导下,图书馆走出了单纯提供馆藏信息资源为中心的定位,着眼于满足读者广泛的信息需求。在本系统的指导下能实现这个目标:一是根据信息资源规律反映出的学术动态和信息利用规律反映出的需求动态,指导图书馆的馆藏资源建设。二是通过对信息资源利用规律的研究,使计算机信息检索系统走向科学化、规范化,从而方便用户查询。

在整个研究过程中,取得了一些研究成果,也发现有不少问题等待我们进一步的研究,首先是无法取得确实充分的数据,主要问题是图书馆提供的网络数据库是联接到厂商的数据库中去检索的。如果图书馆自己没有服务主机,那么就要请厂商提供访问数据,虽然厂商都会提供月报表,但是能够判读的资料不多,或是他提供的数据不标准,或是他提供资料不是图书馆想要的。其次不易解释数据,有了访问过程记录数据,可是怎么去解释它?读者从哪里来,做什么,这个比较容易解释,可是要知道读者做某件事的动机,就没有办法从数据中去解释了。

【参考文献】

1WonsikShim,CharlesR.McClure,JohnCarloBertot&JamesT.Sweet.ARLE—MetricsProject:DevelopingStatisticsandPerformanceMeasurestoDescribeElectronicInformationServicesandResourcesforARLLibraries:PhaseOneReportTallahassee,FL:InformationUseManagementandPolicyInstitutc,SchooloflnformationStudies,2000./stats/newmeas/emetrics/phaseone.pdf(AccessedSep.10.2001)

2詹丽萍.E-metrics在数字图书馆使用评估的应用.数字图书馆与数字博物馆趋势研讨会,2001:21-30

3邹菲.试论网络信息计量学在数字图书馆中的应用.图书情报知识,2001(1):16-20

访问流量范文篇3

目前大部分校园网架构基本采用核心层-汇聚层-接入层的三层分级交换架构,每个层次分别实现不同的业务功能。核心层作为校园网的高速交换主干层,负责数据流迅速安全地在校园的传输;汇聚层是核心层和接入层之间的中介,保证了整个校园网的稳定性;接入层是师生接入校园网的通道,管理者可以完成对网络资源访问的控制。

2校园网流量管理面临的问题

为了解决校园网网络速度问题,首先分析校园网络流量产生的关键环节,第一是内网用户外联网络时产生的接入流量,第二是内网用户在访问内部服务器时产生的内部流量,第三是内网用户访问互联网产生的网络出口流量。

2.1用户接入流量问题

接入层是用户获取外部网络资源的途径,面对黑客攻击、网络病毒、非法访问等威胁和攻击,许多校园网防范措施不到位,只是简单设置防火墙就认为可以屏蔽那些威胁和攻击。但是有些木马程序会产生大量的数据包去干扰和拥堵网络出口,使得校园网无法正常运行,外界用户无法访问校园网络,内部用户也无法正常使用校园网络去访问外网。一旦出现上述接入流量异常情况,那就难以保证访问质量和提高用户体验。这种异常情况正是流量管理所要解决的问题。

2.2内部网络流量问题

要对内部流量管理需要引入虚拟局域网VLAN(VirtualLocalAreaNetwork)技术,将整个网络按功能进行逻辑划分。通过虚拟分组管理,用来减小和控制广播流量。VLAN虚接口的终结于核心设备,该核心设备接收所有数据包,但是在组播包、广播包的处理过程中,核心交换设备会占用大量的CPU时间,CPU占用率提高。这个影响对整个网络的性能来说是巨大的,它会直接导致网络传输速度的降低。如果网络管理人员没有相关的措施去控制和管理各VLAN间互访流量,这些流量就可以使得有限的带宽资源被大量占用。这种状况使得各层交换设备受到冲击,严重的会引发网络安全问题。

2.3网络出口流量问题

许多校园网接入是由中国电信、中国联通、广电网络提供接入服务,接入的方式有IPv4方式和IPv6方式,未来还会连接不同的运营商网络。普通的师生没有考虑校园网的实际带宽情况,他们在使用校园网时随心所欲,加上许多用户喜欢直接交换P2P(PeertoPeer)、在线游戏、在线视频、即时通信等网络应用,大量侵占网络带宽、滥用带宽的现象非常严重,使得校园网络出口的流量特征体现为入流量很大、出流量相对较小(从内网用户的角度出发),因为网络巨大的入流量导致数据延迟或丢弃,校园网对外服务受到严重影响。这种网络上下行流量的不对称及流量分布不合理情况是校园网流量管理需要注意的地方。

3校园网流量管理策略

由于通信交换技术的进步和交换设备功能的改进,VLAN的应用越来越多,从虚拟交换角度出发,采用突破物理位置限制重新划分广播域,在内部主干网上做到能够划分跨越物理子网的虚拟网,由一组任意选定的第二层网络地址组成虚拟网段。这样,可以将整个校园网划分为若干个跨越物理子网的虚拟网络VLAN网段,用来强化网间访问、网间广播的控制和管理,防止发生广播风暴,实现对内网应用进行访问控制、对学生公寓网到其他网络的策略管控。在这个过程中,网络管理员可以通过配置VLAN之间的路由来全面管理校园网内部不同管理单元之间的信息互访。

3.1出口流控选择

基于笔者所在的学院使用的设备状况,首先进入锐捷EG1000S出口网关的管理窗口,在窗口里中选择设备提供的智能流控方案,在该方案中,应用控制引擎ACE(ApplicationControlEngine)对协议识别能力非常强,可以实施分类和控制针对用户的应用级IP数据流,可以全面管理和控制P2P、网络视频、非法网站访问等,优化每个上网用户的流量;身份认证系统负责定制每个用户策略,使用户的信息及时被ACE获取,为了保证相应网络服务质量为关键用户所获得,流量控制必须以用户身份为基准;日志软件RG-eLog了解每个用户上网状况,实现对于用户上网的管控,同时通过日志便于网络管理者进行网络安全与管理的分析。流控方案里选择“学校(高校)”,在这个方案中根据学院网络应用调查结果对相应的阻断类和抑制类的应用进行严格的挑选,系统会自动根据选择保证场景下的关键/保证类应用的流畅,保证带宽的合理使用,提高带宽利用率。

3.2流控高级选项

通过上述流控方案窗口选择其中的高级选项,打开高级选项窗口后勾选前面4项高级设置,可以在页面添加您认为需要被阻断的网站,如一些非法或带病毒的网站,然后点击“完成配置”,这样立即回到路由器正常的观测页面,查看设备和人员上网情况,通过这个设置可以轻松保护内网网络的安全。

4结束语

访问流量范文篇4

数据加密在通信安全方面数据加密是确保信息安全的基石。数据加密作为一项基本技术,其加密过程是由通过各种加密算法来实现的,数据加密是以较小的代价提供强大的安全保护。在通常情况下,确保信息机密性的唯一方式就是对数据进行加密。在全球范围内比较著名的有:美国的DES以及TripleDES、GDES、NewDES;欧洲的IDEA;日本的FEALN、LOKI91、RC4、RC5等。在常规密码算法中,DES密码是影响最大的一种。对数据利用常规密码算法进行安全加密,因此,能够经受时间的检查与验证,以及抵御病毒的攻击,所以,保密程度较强是它的优点,但是,自身也存在着一些弊端,例如,其密匙必须通过安全途径进行传送。因此,系统安全的重要因素就是其密钥的管理。

认证技术在网络通讯过程中,通讯双方的身份认可主要通过认证技术进行解决的。在认证技术中,数字签名是一种确认身份的具体技术,在通信过程中,数字签名还可以实现不可抵赖要求。加密和密钥交换是认证过程重点涉及的内容。通常情况下,通过采用对称加密、不对称加密及两种加密方法相混合的方式实现加密。目前,烟草企业主要采用:①摘要算法的认证,市场上主要采用的摘要算法有MD5和SHA-1。②基于PKI的认证,其认证和加密是通过公开密钥体系进行的。该方法综合运用了摘要算法、不对称加密、对称加密、数字签名等技术,将安全性和高效性进行结合,因此,安全程度较高。基于PKI的认证主要应用在电子邮件、应用服务器访问、客户认证、防火墙认证等领域。③数字签名,验证发送者身份和消息完整性是以数字签名为依据的。RSA等公共密钥系统基于私有/公共密钥对,并且据此验证发送者身份和消息的完整性,CA的数字签名是通过计算私有密钥实现的,公共密钥是由CA提供的,因此签名的真实性任何人均可以进行验证,在计算机能力方面伪造数字签名是不可行的。当消息和数字签名同时发送时,在验证数字签名时都将会发现对消息的任何修改。

入侵检测入侵检测是一种新型的网络安全技术,其主要功能是主动保护自己免受黑客攻击。通过采用入侵检测使得烟草企业的信息系统能够有效抵御病毒的攻击,而且提高了系统管理员在安全方面的审计、监视、进攻识别和响应等安全管理能力,在一定程度上确保了信息安全结构的完整性。从计算机网络系统的若干个关键点收集信息进行入侵检测,通过对这些信息的研究分析,检查网络中是否存在违背安全的行为和遭受侵袭的迹象。入侵检测作为第二道安全防护门,进行入侵检测时不影响网络系统的性能,在一定程度上对内、外部攻击和误操作进行实时保护。另外,入侵检测可以与弥补防火墙进行优势互补,通过入侵检测和相应的防护手段为网络安全提供实时保护,是网络安全中极其重要的部分。

数据保护基于网络的备份系统是目前最先进的数据备份技术。全方位、多层次的备份系统是最为理想的。整个网络的数据受到网络存储备份管理系统的管理。系统管理员通过借助集中式管理工具的帮助,对全网的备份策略进行统一管理,所有机器的备份作业可以通过备份服务器进行监控,或者修改备份策略,其所有目录也可即时浏览。计算机应用系统稳定、可靠、有效、持续运行方面双机热备是基础,对于计算机应用系统的可靠性问题通过系统冗余进行解决,具备安装维护简单、运行稳定可靠、监测直观等优点。

2针对内部因素的应对策略

2.1身份认证网络安全身份认证是一种系统确认用户身份的技术。确保网络安全方面,身份认证是第一道防线,也是最重要的一道。烟草企业作为用户访问烟草信息系统时,身份认证系统首先对访问用户的身份进行认证和识别,将用户的身份信息通过监控器传递给授权数据库,进而确定用户访问的权限和级别。根据需要管理员对授权数据库进行配置。

2.2访问控制进行网络访问时,访问的范围、资源,以及访问时所用到的协议和端口等,访问用户都要受到访问控制的影响和制约。

2.3流量监测在网络系统中,因流量检测不到位,使得网络受到拒绝服务攻击(DoS)、网络蠕虫病毒,以及网络扫描工具产生的大量假连接请求的影响,引发网络设备瘫痪的现象。因此,为了确保系统安全运行,需要对网络的异常流量进行实时的监控。用于监测流量的主要有两种,即为基于SNMP的流量监测和基于Netflow的流量监测。基于SNMP的流量监测进行异常流量信息检测时。需要收集输入字节数、输入非广播包数、输入广播包数、输入包丢弃数、输入包错误数、输入未知协议包数、输出字节数、输出非广播包数、输出广播包数、输出包丢弃数、输出包错误数、输出队长等网络流量信息。基于SNMP的流量检测,是借助网络设备Agent提供的MIB(管理对象信息库)中收集一些具体设备及流量信息有关的变量。基于Netflow流量检测通过该方案进行异常流量信息采集,是通过网络设备提供的Netflow机制完成网络异常流量信息的采集。在此基础上进行的流量信息的采集效率和效果,在一定程度上均能满足监测网络异常流量的需求。另外,处理异常流量最直接的解决办法就是切断异常流量源设备的物理连接,或者借助访问控制列表,采用包过滤或在路由器上进行流量限定,进而起到检测异常流量的目的。

2.4漏洞扫描受黑客和病毒的攻击,烟草企业内部的网络系统存在不安全隐患。目前,在硬件、软件、通讯协议等方面,烟草企业的网络系统都存在一定的安全隐患,检测系统的安全漏洞是确保系统安全的根本所在。定期地对内部网络系统进行漏洞扫描,可以及时发现安全问题,并在第一时间对系统完成有效防护。

访问流量范文篇5

许可使用是图书馆获得数字资源使用权的主要方式,图书馆通过支付一定对价获得在特定时间、地域范围内,按照约定的方式使用数字资源的权利。数字资源出版商或提供商(以下简称数据库商)为了维护自身的市场垄断地位,十分注重对数字资源内容的保护,往往会在许可协议中对数字资源的使用严加限制,不仅限制使用的地域、使用者身份,而且限制使用数量、使用方式以及复制和传播的途径。在数字资源许可使用法律关系中,图书馆代表本机构读者与数据库商签约。但图书馆并非最终用户,对于大学图书馆而言,终端用户不仅包括本校师生、临时的访学研究人员,还包括一定数量的社会读者。对于数字资源的访问权限,读者与图书馆之间存在信息不对称,读者不了解每个数据库许可协议中对于使用行为的具体规定,图书馆对读者的具体使用行为也无法知情、引导及控制。尽管有一种代表性的观点认为,图书馆只要尽到告知义务便可以免责[1],但是在工作实践中由此引发的读者盗用、滥用数据库等违规使用行为的问题均要图书馆协调解决。图书馆不仅要应付数字资源管理和服务中的问题,而且还面临着违反约定承担法律责任的风险。如何通过信息技术手段有效地构建防控数字资源违规使用行为的内部控制机制,从而降低此类风险的发生,一直是图书馆技术部门致力研究的问题。近年来,国内外图书馆界利用网络信息技术,就控制数字资源违规使用问题做了大量的研究和应用,并取得一定的效果。本文在对国内外电子资源使用进行统计分析和控制研究的基础上,以西安交通大学图书馆数字资源内部控制平台搭建和使用为依据,对数字资源许可合理使用提供一些思考和建议。

2国内外防控数字资源违规使用的现状

2.1数字资源违规使用行为概述。数字资源违规使用主要是指违反电子资源授权许可协议中约定的使用者、使用范围、使用方式等条款的所有行为。违规使用的划分是以“授权用户”为基点,包括“盗用”和“滥用”两种类型。其中“盗用”是指非授权用户的非法使用行为(本文暂不讨论)。“滥用”是指授权用户的不当使用,其具体行为包括“超量下载”“系统下载”“使用网络下载工具”等。数字资源的“滥用”问题是困扰图书馆管理与服务工作的难题[2]。许可协议中通常对“滥用”行为做了严格的禁止性规定,数据库商也在技术上进行了防控,大多数据库平台都对机器人、蜘蛛、爬虫等自动多线程下载和自动搜索、抓取、深链接等使用做出限制并在数据提供端进行检测和阻止。虽然对于超量下载没有明确规定,但通常认为超过正常阅读速度或浏览速度的下载即为超量。尽管大多数图书馆都在电子资源合理使用的规范中对这两种使用方式进行了提醒和禁止性声明,尽到了告知和提醒的义务,但这种方式依然是被动式的防控,在以往的管理工作中效果不佳。图书馆需要通过先进的技术手段,以事前预防为目标,以主动式的内部控制机制预防违规使用行为的发生,确保机构用户的正常使用,规避因此导致的法律风险。2.2目前防控违规使用行为的技术机制实践状况。国外学者在防控数字资源违规使用方面实践探索的基本技术路线是通过使用网络服务监控软件,采用远程登录到被监控机器上或者安装软件等方式,进行网络流量监测,并根据设置的参数进行阻断或放行,如SolarWinds公司的OrionNetworkPerformanceMonitor、网路岗、聚生网管等软件,均是按此思路设计并实现的。国内部分高校图书馆在此方面所做的实践与国外略有不同,通常不采用安装软件,主要是通过流量采集卡或者其他硬件设备抓取读者使用行为数据,监控数字资源使用原始流量数据,自动分析读者使用行为,对违规行为进行预警和阻断,及时防止数字资源违规使用情况的发生。例如,上海交通大学通过TCP(TransmissionControlProtocol,传输控制协议)会话劫持技术,在正常TCP的会话里注入额外的第三方信息,当系统按照默认阈值判断违规主机与外部数据库通讯时,违规封禁程序会侦听相应报文并采取措施来重定向页面或终止该TCP连接[3]。清华大学图书馆的电子资源访问管理与控制系统针对用户和数字资源间的已知协议(主要是http协议)进行抓取分析,获取用户访问内容,在用户端利用客户端软件Privoxy获取访问数据库的URL全文信息,当读者访问内容超过系统设置的违规阈值时,系统自动发送提醒页面,多次提醒后会终止该IP访问[4]。复旦大学图书馆建立了一个对常用网络服务、电子资源服务平台、常用数据库服务、图书馆专有的Z39.50等服务综合监控的平台,自动捕获用户访问、浏览、下载行为,从而监控读者使用网络服务的情况,对数字资源访问故障及时发邮件和短信通知系统管理员,全文下载量达到系统规定阈值后,管理员在后台切断访问进程并自动通知读者进行处理[5]。西安交通大学图书馆对网络流量进行采集处理,构建了一个基于目标IP地址网络分析的统计和控制综合服务平台,对用户超量使用数据资源自动进行阻断[6]。孟晓蓓、陈默等学者利用netflow分析技术,构建了一个针对特定数据库的控制单个IP流量以及并发数的流量监控系统,以控制恶意下载及规避知识产权风险[7-9]。流量监控系统与使用统计系统是相辅相成的,有部分国内高校图书馆虽未构建单独的流量监控系统,却构建了使用统计系统以对数字资源的使用行为进行数据抓取和分析。例如,哈尔滨工业大学图书馆引进了360Counter统计平台,图书馆可以通过一个用户友好界面查询并下载在线电子资源使用量统计报告,搜集期刊采购决策的可靠数据[10],也可以发现违规使用情况,但缺少及时预警和阻断的效果。深圳大学图书馆的USSER通过收集DRAA(DigitalResourceAcquisitionAllianceofChineseAcademicLibraries,高校数字资源采购联盟)平台、OpenERMS系统、第三方知识库、数据库商使用统计平台等的统计数据,为图书馆提供一个深度挖掘和比较数字资源统计利用的平台[11-12]。从国内外研究及实践可以看出,现有的数字资源防控主要针对用户使用流量进行分析,按照系统预先设置的阈值对用户违规使用行为进行事前干预和限制,避免违规使用。本研究综合并吸取了国内外在防控数字资源违规使用行为方面的实践经验,形成了以数字资源使用统计数据为基础,通过预先设置阈值对违规使用行为自动做出判断,并提前做出适度预警,及时阻断严重违规行为的机制。这种机制不仅可以有效防控违规使用法律风险,同时可以利用收集到的使用统计数据,分析不同学科用户的使用特征,灵活分配数据库访问控制流量,适度调整这部分用户的预警阈值,充分满足其对文献的需求;此外还可以通过本馆获取的使用统计数据与数据库商提供的使用统计数据之间进行对比,分析二者的差异点,及时发现数据库商未按照许可协议约定使用国际通用统计标准的情况,并督促其纠正,以防范数据库商在限制图书馆合理使用权问题上的权利滥用,从而维护图书馆和读者的合法使用权益。通过双向调节,达到防控数字资源违规使用、提高数字资源使用效益的目的。

3数字资源违规使用内部控制机制构建思路

对于图书馆而言,技术机制的构建应以优化管理、改善服务为基本出发点。数字资源管理强调合同管理,即围绕数字资源展开的一切管理和服务行为都要依据许可协议进行。对于违规使用行为的防控应以协议中数据库商与图书馆达成的一致性条款为基础。由于不同数据库商对违规使用的判定不同,无论是超量下载的数量,还是不当使用的行为均无统一标准,协议条款的约定也各不相同,因此若以某种信息化系统来实现防控目标,需要考虑以下几个因素。3.1能够获取相对准确的数字资源使用统计数据。超量下载是以单位时间内的下载量来判定的,因此系统应具备的基本功能即为可以获取相对准确的数字资源使用统计数据。通常情况下,数字资源提供商会提供COUNTER、E-Metrics、ICOLCGuideline等规范格式的统计数据。同时,读者访问数字资源过程中会产生相应的访问日志和原始访问记录,这些记录以规范化格式存储在本机构网关服务器上。两种途径都为数字资源使用提供了基础分析数据,结合这两方面原始数据,基本可以较为完整和准确地获取本机构数字资源使用统计数据。3.2能够针对不同数据库的个性化要求设置访问许可规则。数据库许可协议是图书馆与数据库商之间具有法律效力的合同文本,目前对违规使用行为的判定并无行业认定的统一标准,在许可协议中不同数据库对违规使用行为的描述和惩罚措施都不一样,有的简单描述为超过正常阅读速度即为违规使用,有的规定不可一次下载超过内容的1/3,有的规定不可从封面到封底(cover-to-cover)整本下载,有的规定不能用网络蚂蚁、迅雷等点对点工具下载,有的规定一次登录不能下载超过30篇……因此,防控机制需要具有针对不同数据库要求的阈值设定功能,需要由数据库采访人员根据许可协议的具体要求逐一进行配置,对于要求不明确的数据库按照经验阈值进行配置,配置的精确度会直接影响系统预警和阻断违规使用行为的效果。3.3能够针对不同读者群体的个性化需求设置合理使用规则。不同学科的读者对不同数据库访问的需求不尽相同,图书馆在应用技术机制防控违规使用行为的同时,应促进读者更加有效地利用数字资源。因此防控机制需要在合理规避许可协议禁止性条款的基础上,为读者构建特色化的访问规则,如NEJM、OVIDPrimalPictures、中华医学会电子期刊等生物医学类型数据库的读者对象主要是以生物医学学科为研究对象的用户,防控系统可以在分析使用统计数据的基础上通过平衡网关负载设置,将主要来源于生物医学类资源的读者访问需求进行负载平衡,以提高生物医学类资源使用效率,在许可协议范围内,为普通读者、特色学科用户提供差异化流量控制。

4西安交通大学图书馆数字资源统计与防控实践

2010—2012年,西安交通大学图书馆构建了电子资源利用统计网关系统和电子资源流量控制系统[6,13],实现了基于使用统计数据分析的数字资源违规使用防控机制,取得了良好的使用效果。流量控制系统从校园网出口获取所有图书馆购买的数字资源的http访问流量,根据系统设置的访问阈值,实现电子资源流量控制。随着Wi-Fi、VPN、移动图书馆访问等多种数字资源访问途径的出现,校园网网络环境复杂化程度增加,原有防控系统不能更好地满足复杂环境下读者多途径、多方式访问数字资源的需求。因此,需要在此基础上进一步研究构建基于使用统计分析的可灵活设置预警阈值、动态实现负载平衡的使用统计与防控系统。4.1数字资源统计与防控平台方案。基于数字资源管理实践中的新问题和新需求,在原有系统的基础上进行了功能上的优化和整合,在一个平台上实现了数字资源统计与防控功能。该平台将数字资源基于读者使用日志分析的流量控制与数据库商使用平台的COUNTER统计数据统一整合,同时,通过对读者使用流量阈值的限制,实现对数字资源违规使用的控制。数字资源统计与防控平台的具体情况如图1所示。图1数字资源统计与防制平台示意图从图1中可以看出,平台利用采集器从校园网IP池获取目标流量,过滤后的目标流量进入统计控制系统后台进行处理。统计平台对流量进行分析统计并通过Web客户端提供给管理员,同时流量控制系统按照系统预定的每一个数据库阈值,针对单个IP地址单位时间内访问次数、下载数量做出判断,如果发现超过系统预设值后将阻断信息发送给采集器处理,随后读者访问被阻断并且发送相应的违规邮件。统计平台通过分析来自不同IP池的流量,针对不同分组读者,自动负载平衡,实现个性化流量控制。4.2数字资源统计与防控平台模块设置。图2数字资源统计与防控平台数字资源利用统计平台主要由资源、用户管理,系统数据管理,SUSHI管理,资源对比分析和系统报表管理模块组成。资源管理:可用于图书馆对试用数据库、引进数据库,开放获取资源、自建数据资源进行管理,并可以根据不同模板导入不同类型数字资源。用户管理:可以针对不同用户进行分组,对不同学科的用户设置不同访问流量阈值。系统数据管理:主要针对读者使用行为,按照读者分组进行数字资源访问分析,同时提供数据库、电子期刊和电子图书访问统计。SUSHI管理:主要包括SUSHIID管理和SUSHI数据库统计。资源对比分析:主要包括检索下载成本分析以及对比分析。系统报表管理:主要输出COUNTER数据报表和防控平台产生的报表。从以上主要模块可以看出,平台涉及数字资源、用户管理及相关数据统计分析功能。针对普通读者和学科用户设置不同的控制机制,网关服务器访问高峰期按照读者登录类型负载平衡,为学科用户分配额外的访问流量。平台支持SUSHI协议,可自动收割各个数据库的COUNTER使用统计报告,并可与该平台产生的报表进行对比分析。此外该平台还可以对数字资源URL地址定期检测,一旦发现异常链接将及时通知管理员。该平台具有如下特点。(1)精准数据流量采集平台在不影响校园网正常访问情况下,以旁路获取方式从校园网接口获取用户所有原始访问流量,此后通过采集器进行目标流量采集、过滤和阻断发送,采集器对所有访问数字资源的流量(以http协议访问流量为主)按照设定规则过滤后缀为gif、swf、css等无效访问记录及返回状态代码大于299的日志记录。处理后的目标流量进入流量采集系统进行数据分析,采集器每天可以处理10GB网络原始流量。同时,对于用户使用数字资源超过系统阈值的IP地址,采集器采用逆向发送阻断信息包模式,在3~5分钟内阻断该用户对话,可适度预警防止数据库违规使用情况发生。(2)自动流量调节用户使用数字资源具有相对的学科特征。统计平台通过分析用户访问地址,下载数字资源学科特征,为管理员推荐特定的学科读者群。针对不同学科读者,数字资源统计与防控平台可以自动进行流量调节,及时调整学科用户流量阈值,为学科读者提供个性化的服务。例如,OVIDPrimalPictures数据库主要使用对象是医学和生物医学读者,统计平台选取2015—2017年用户访问该数据库统计记录,选取使用量最大的IP地址,与校园网提供的IP地址对照,可以判断主要访问读者IP集中在医学校区和生命学院。管理员将这些IP地址设定为生物医学学科用户,在整个系统网关出口对这些IP访问OVIDPrimalPictures数据库自动进行流量调整,确保这些学科用户可以在可控范围最大程度使用数字资源。(3)开放性的数据接口平台采用标准API架构、开放数据分析和阻断控制接口,可以与图书馆电子资源管理系统(ElectronicResourceManagementSystem,简称ERMS)、下一代图书馆信息管理系统、校园网资源整合系统进行数据对接。实现数据对接后,平台可以给对接系统提供数字资源访问、读者行为等元数据,为这些系统中的使用统计、资源评估等相关功能提供数据支撑。4.3平台运行情况。目前平台内已设置本馆引进数据库184个,试用数据库7个,OpenAccess资源4个,覆盖中文电子期刊27217种,外文电子期刊24651种。此外,根据本校学科特色,系统建立了生物医学、法律经管类、机械化工类等10多个学科用户组,按照学科用户分组自动分配网络负载,在确保不违反数字资源使用的禁止性条款的前提下使学科用户在合理范围内最大程度地使用数字资源。平台试运行以来在机制上较好地实现了使用统计和防控两种功能的结合,实现了对配置数据库近一年内使用情况的有效统计和防控(见图3),同时对Elsevier出版社电子期刊数据库、WileyInterScience电子期刊数据库、CNKI中国期刊网全文数据库等容易被数据库商投诉的数据资源违规使用也进行了20万次以上的有效阻断(见图4),很大程度上缓解了数字资源违规使用给图书馆带来的压力。

5基于内部防控系统防范数字资源违规使用法律风险的思考

访问流量范文篇6

关键词:计算机网络;网络安全技术;访问控制;入侵检测技术

网络安全是计算机网络发展中关注的重要问题,网络安全维护技术可以保证计算机网的稳定运行,并更好地为人们提供互联网服务。在网络安全维护管理体系的基础上,通过计算机网络安全维护技术来构建网络安全维护管理系统,对计算机网络进行科学的管理和控制,可以保证计算机网络的安全性。

1网络安全概念

随着互联网技术的应用和发展,网络安全成为社会普遍关注的焦点问题。网络安全维护和管理不仅关系到社会的稳定和发展,而且在网络信息安全方面关系到国家的安全。网络安全包括信息安全,信息安全是保护数据信息的安全性,避免信息被泄露和篡改,保证数据信息的完整性和真实性。随着大数据的发展,网络安全中数据信息安全占有重要的位置,因此数据信息的加密和保护显得尤为重要。从广义的层面上,网络安全是对国家数据信息安全的防护,防止内部数据被外界非法的机构或者不法分子窃取以及破坏。从狭义的层面上,网络安全是数据信息系统内的数据信息安全,保证系统内部数据信息的安全性,保证系统安全稳定运行,防止网络服务被中断的情况发生,保护系统内部的数据不被非法窃取或者被外界篡改和破坏。社会的进步和发展离不开网络,网络建设是国家基础性建设的重要内容。在信息化技术快速发展的今天,网络安全的维护和管理关系到社会经济发展,以及国家的安全建设。网络安全维护是对网络进行保护,防止内部网络被外界的病毒或者木马入侵破坏。网络安全维护可以保证内部数据安全,避免网络用户被非法控制,网络安全维护要加强网络内部的安全保护,并提高网络边界的安全防控能力。从国家安全部门的角度出发,就是保护网络系统内部数据信息的安全和稳定,并对网络数据进行有效的过滤,把网络中的不健康内容以及恶意程序进行屏蔽,进一步保证网络数据信息的安全。

2网络安全维护技术

2.1访问控制。在网络安全维护中,网络访问控制技术可以有效地对非法用户进行访问限制的一种网络技术。访问控制技术可以保护内部网络不被外界非法用户进行访问,只有被授权合法身份的用户才可以对网络内部进行访问。访问控制技术防止网络内部资源被非授权访问,目的使保证在合法的范围内对资源进行有效的管理和使用。访问控制可以对访问系统的用户身份进行识别并判断,并对合法用户访问资源的类型进行确定。访问控制技术功能是保护合法用户对资源进行访问,防止非法主体入侵网络资源,访问控制首先对访问用户的身份进行验证,并通过访问控制策略进行管理,合法用户对资源进行访问的时候还要对越权的行为进行监控,访问控制技术不仅是用户身份的认证和控制策略的实施,还包括访问控制的安全审计。2.2防火墙。在网络安全管理中,防火墙技术是比较成熟的数据过滤技术。根据防火墙控制原理可以过滤两层之间的所有通信数据,并根据制定的规则在对数据进行过滤的时候,把非法的数据删除。防火墙技术是网络边界中内网和外网之间的防护屏障,防火墙的合理配置可以对数据信息进行有效的防护,防止非法数据对内网进行渗透,并且可以对指定IP访问和登录进行控制和管理。目前常用的防火墙技术中应用级防火墙可以有效地对网络服务器中的数据进行过滤扫描,对异常信息进行判断,如果发现服务器到计算机的数据传输过程中有异常数据信息,那么可以及时地把计算机和服务器之间的通信切断,这样可以保护内网计算机数据信息的安全性。防火墙技术中包过滤防火墙技术对网络服务器中的数据信息进行判断,判断并过滤网络服务器中传输的异常数据信息,判定正常的数据信息可以传输到计算机并提供给用户使用。2.3流量控制。流量控制技术是网络通信中常用的一种网络安全维护技术,可以防止网络中某一特定资源被频繁地恶意访问而发生网络阻塞的情况。如果在网络通信中发生资源被频繁访问的攻击行为,那么网络的访问速度就会降低,严重影响网络的使用效率。网络流量控制主要在网络中控制网络访问的数据流量,主要控制管理对象是数据流,在网络安全中有效地对数据流进行控制,可以在更大程度上保证整个网络的安全性。非法的访问资源的行为造成网络带宽被侵占,带宽阻塞的情况发生,严重的会影响网络的正常通信能力。网络流量控制可以有效地对数据流量进行管理和控制,防止带宽资源被非法滥用,造成网络通信速度降低,进而影响互联网业务的服务质量。2.4防病毒。网络安全维护中防病毒技术可以保护网络系统内部不受病毒的入侵,防止病毒对网络进行攻击而造成严重的后果。防病毒技术采用的病毒软件可以在固定周期进行病毒库的更新,并且可以实时地对网络接口以及文件进行病毒扫描和监控管理,如果发现病毒可以及时地查杀。防病毒技术可以防止病毒通过网络漏洞进入到系统内部,对系统内部的数据文件进行破坏。防病毒技术在网络安全维护中的应用,实时对系统中的漏洞进行修复,及时对系统存在的安全漏洞进行补丁修复,提高网络系统的安全性。病毒对计算机的软件和硬件都可以造成严重的破坏,不仅会对计算机内部的数据进行破坏,而且还会导致计算机瘫痪。防病毒软件的安装可以避免网络内部的计算机遭到病毒的危害,防病毒技术在网络安全维护方面可以有效地保护计算机安全。2.5数据加密。数据加密技术是对需要保护的数据信息进行加密后转变成密文,然后通过网络对加密的数据进行传输,当到达接收端后拿出秘钥对加密的密文进行解密,就可以得到明文。数据加密技术可以保证数据在传输过程中的安全性,在传输过程中保证数据不被非法分子窃取,进而保护数据的完整性和准确性。常见的数据加密技术有对称加密和非对称加密,可以根据数据保护的等级来选择相应的数据加密技术。数据加密技术中秘钥要保存好,在对数据进行加密和解密的时候需要秘钥进行加密和解密。数据加密技术是网络通信双方,按照约定的规则对传输的数据信息进行保护的一种密码技术。数据加密技术可以有效地保证网络传输数据的完整性和不可抵赖性,其中数字签名技术可以有效地对数据的完整性进行验证。2.6入侵检测。入侵检测技术可以对网络中的病毒和木马的破坏,以及恶意入侵行为进行预防并及时发现入侵行为,是网络安全维护中的重要的检测手段。入侵检测技术可以有效地对网络入侵行为进行排查,也可以对主机的入侵行为进行及时的发现,进而有效地保护整个网络的安全性。黑客通过网络入侵计算机系统,并窃取网络中重要的数据和信息,采用入侵检测技术可以有效地保护网络数据安全。入侵检测技术可以对未经授权的行为进行检测,并对非授权的用户对网络内部进行访问的行为进行阻止。入侵检测技术会对检测到了网络攻击行为进行制止,如果入侵攻击被检测到,那么就可以对网络进行断网,并启动防火墙和病毒杀毒软件,提高了网络的安全性。基于入侵检测技术的远程监控系统,可以采用远程的方式对企业或者政府内网进行检测,从而有效地保护网络环境的安全。

3计算机网络安全维护系统构建

3.1设计原则。构建基于网络安全维护技术的计算机网络安全维护系统,把网络安全维护技术应用与系统的设计中,提高系统设计的安全性和可靠性。计算机网络安全维护系统的设计要具有全面性,对网络安全管理和维护的各个方面都要充分考虑,并针对相关的问题设计相应的解决方案。对网络安全维护管理系统进行全面的安全性评估和调研,满足网络安全维护管理体系设计的基本需求。在网络安全维护管理体系的基础上,通过计算机网络安全维护技术来构建网络安全维护管理系统,对计算机网络进行科学的管理和控制,可以保证计算机网络的安全性在设计上考虑用户的使用需求,因此系统设计要操作简单,具有可操作性。系统的开发设计要具有一定的经济性,对系统的开发成本和运行成本都要进行科学合理的设计,对硬件设备的选择要保证具有一定的升级空间和可扩展性,这样可以节省很大的投入资金。系统设计要具有一定的先进性,实现网络安全维护的智能化和自动化,满足计算机网络安全维护的基本需要。采用网络安全维护技术,为系统的开发和应用方面提供了关键的技术保证。3.2系统结构及模块功能。系统开发环境是在基于Java+SQLServer2018的环境下进行设计的,运行环境安全可靠,对开发设计以及管理的技术需求比较低。系统的设计采用B/S架构,在系统内部网络采用入侵检测技术和防病毒技术,在网络内部和外部的边界设置防火墙,对系统整体采用流量控制技术有效地对网络带宽进行控制,并采用访问控制技术实现对系统的访问控制和管理。系统设计要结合网络应用的实际情况,采用网络安全维护技术,并对系统的模块功能进行有效的设计,并构建网络安全逻辑模型,对网络安全中可能遇到的攻击行为以及风险问题进行分析,并核定有效的应对方案。系统模块结构设计如图1所示。网络维护模块主要是基于网络安全维护技术对网络进行维护和管理,采用防火墙技术,病毒检测技术以及入侵检测技术应用于网络维护管理中,并实现对网络数据信息的保护。其中网络拓扑管理是从层次结构上对系统进行维护和管理,采用虚拟图像和节点图对网络拓扑结构进行表达,并通过线路来表达出数据传输方向和流量。链路状态管理是对网络链路中实时的数据流量进行管理,并对链路中的IP地质信息进行设置。在故障显示中,在网络拓扑图上通过颜色对故障进行判断,绿色代表网络设备运行正常,红色代表设备运行出现故障,黄色代表设备运行满负荷。性能检测模块主要是对网络性能进行监测,并对网络设备性能进行管理,并通过流量控制技术实现对网络流量的管理和控制。性能检测模块可以实现对网络性能、网络可用性以及网络业务等功能进行管理。通过设备流量监测对设备的实时流量状态进行监测,可以查看设备的基本信息,以及监测数据端口的丢包率。故障维护模块功能是发现故障后发出警报通知,警报设置可以通过邮件的形式发送到管理者,然后对警报进行分析和计算,包括CPU的利用率,网络连通的状态,内存的使用情况等信息,并通过故障统计图显示给管理人员。系统对报警的故障进行处理,包括终端占用合法IP设置,主机/交换机绑定过设置,终端端口更改等处理方式。报表管理模块可以为网络安全维护管理,提供重要的报表依据,提高了网络安全维护的效率和质量。系统管理模块对用户访问登录系统的权限进行管理,可以合理地分配用户使用权限,并采用数据加密技术对用户的登录密码等重要的数据信息进行加密保护。采用访问控制技术实现对非法用户访问权限的限制,保护网络内部数据的安全性。采用访问控制技术保护合法用户对资源进行访问,防止非法主体入侵网络资源。访问控制技术对访问用户的身份进行验证,并通过访问控制策略进行管理。并对网络系统进行综合性管理,合理地添加或者删除机构属性等信息,并生成系统日志,记录系统运行情况的基本数据信息。

4结语

计算机网络安全维护技术在网络安全中的应用和研究,不仅提高了网络运行的安全性和稳定性,而且保证了网络数据信息的完整性和真实性。

参考文献

[1]聂斌.计算机通信网络安全维护措施分析[J].城市建设理论研究(电子版),2016,006(008):3681-3681.

[2]焦转义.计算机通信网络安全与防护技术分析[J].通讯世界,2018,335(04):117-118.

[3]张亚琦.计算机通信网络安全及防护方案探究[J].信息与电脑(理论版),2019,423(05):201-202.

[4]王锋.探究计算机网络安全问题及其防范措施[J].信息与电脑,理论版,2017,(19):211-212+215.

访问流量范文篇7

一、网络建设要求

移民信息平台中的网络层主要是由网络基础环境与通用访问接口组成,是系统数据层与业务应用逻辑层的衔接纽带。用户需要将PC、移动终端等设备上接入互联网访问移民信息平台。因此平台在网络建设方面必须满足稳定、可靠、安全、开放等要求,并利于平台扩充、便于管理、方便用户接入。

二、网络架构

水库移民信息平台网络基于互联网进行建设,服务端采用互联网运营商链路接入,通过多链路负载均衡器为用户访问系统进行智能选路和负载均衡,防火墙为系统和互联网进行安全隔离,在服务器群规划两个区域:DMZ区部署Web访问服务器,主要提供用户访问,内网区部署GIS、DB、File和备份服务器;客户端用户使用计算机、平板电脑、智能手机设备通过互联网访问该平台。

三、带宽规划

水库移民信息平台带宽接入可通过中国电信、中国移动、中国联通等多种方式。

四、网络安全

(一)网络安全策略

1)水库移民信息平台服务器群与互联网通过防火墙进行隔离,有效阻断网络攻击;2)在防火墙和多链路负载均衡器之间部署Web墙,对访问请求进行扫描和识别,有效阻断不安全的访问请求;3)对水库移民信息平台服务器群进行分区,DMZ区部署Web访问服务器,主要提供用户访问,内网区部署GIS、DB、File和备份服务器,主要存放系统资源;通过防火墙访问控制策略,实现用户只能访问Web服务器,无法直接访问系统资源,进一步提升系统的安全性;4)服务器端与用户直接数据传输采用加密方式,增强系统的安全性。

(二)网络安全设备

1)防火墙:防火墙主要由服务访问规则、验证工具、包过滤和应用网关组成。防火墙的功能是确保网络流量的合法性,并且将网络的流量快速的从一条链路转发到另外的链路上去。防火墙适用于用户网络系统的边界,属于用户网络边界的安全保护设备。防火墙的目的就是在网络连接之间建立一个安全控制点,通过允许、拒绝或重新定向经过防火墙的数据流,实现对进、出内部网络的服务和访问的审计和控制。2)Web墙:Web应用防火墙是增强Web应用安全性的工具,有以下四个方面的功能:a.审计设备:用来截获所有HTTP数据或者仅仅满足某些规则的会话;b.访问控制设备:用来控制对Web应用的访问,既包括主动安全模式也包括被动安全模式;c.架构/网络设计工具:当运行在反向模式,他们被用来分配职能,集中控制,虚拟基础结构等;d.WEB应用加固工具:不仅能够屏蔽WEB应用固有弱点,而且能够保护WEB应用编程错误导致的安全隐患。3)多链路负载均衡器。多链路负载均衡器功能:一是多链路负载均衡,二是服务器负载均衡。多链路负载均衡能够解决分布式存储负载均衡网络请求的重定向和内容管理问题。目的是通过在现有的Internet中增加一层新的网络架构,将网站的内容到最接近用户的网络“边缘”。使用户可以就近取得所需的内容,解决网络拥塞状况,提高用户访问网站的响应速度。以达到解决由于用户访问量大,网络带宽小,网点分布不均等原因,使得用户访问网站的响应速度慢的问题。当流量进入链路负载均衡设备后,链路负载均衡设备会根据访问流量的目的IP地址对照运营商列表进行逐一匹配。在匹配的过程中该地址如果命中某一运营商的IP地址,链路负载均衡设备则将流量引导向该运营商所对应的接口,从而将流量成功的进行分流引导。服务器负载均衡是将负载进行平衡、分摊到多个操作单元上进行执行,从而共同完成工作任务。单个重负载的运算分担到多台节点设备上做并行处理,每个节点设备处理结束后,将结果汇总返回给用户,这就是集群技术。第二层含义就是:大量的并发访问或数据流量分担到多台节点设备上分别处理,减少用户等待响应的时间,这主要针对Web、FTP、关键应用服务器等网络应用。负载均衡会根据网络的不同层次来划分。其中,第二层的负载均衡指将多条物理链路当作一条单一的聚合逻辑链路使用,这就是链路聚合技术。现代负载均衡技术通常操作于网络的第四层或第七层,这是针对网络应用的负载均衡技术,它完全脱离于交换机、服务器而成为独立的技术设备。

五、可靠性设计

1)采用不同运营商多链路接入互联网,确保系统的连通性。2)采用多链路负载均衡器,一方面为用户提供最佳的访问路径,另一方面为用户访问Web服务器提供冗余,即一台Web服务器失效,用户请求会自动发送到运行正常的Web服务器上。3)网络建设采用双冗余设计,防止因单独故障引起的硬件级故障。4)对GIS、数据库信息进行数据备份,为系统失效提供最后的保障。六、可扩展性设计1)系统接入链路的带宽可根据实际应用使用情况进行扩容;2)采用多链路负载均衡器,可建立Web服务器群,分担用户并发访问请求,及时响应用户请求;3)后端资源服务器(包括GIS、DB、File等服务器)可根据应用需要进行扩展。

作者:赵四堂 单位:华能澜沧江水电股份有限公司

访问流量范文篇8

1.1典型的研究计划

美国和欧盟针对图书馆数字资源的访问统计已经展开了一些针对性的研究计划,比如,由美国研究图书馆协会资助的E-Metric项目、美国多个机构(包括ARL、JISC、NISO等)资助的COUNIER项目、欧盟TelematicsforLibrariesProgramme支持的EQUINOX项目等,这些项目多为研究制定描述电子信息服务和资源的统计指标和绩效测度及其方法。

1.2相关标准

在相关的标准方面,面对新的信息环境和图书馆形态,一些组织开始尝试将新的电子资源绩效评估标准融入原有相关标准/指南的框架。例如NISO在2004年批准了图书馆和信息提供者信息服务和利用的测度和统计数据字典(NISOZ39.72004InformationServicesandUse:Metrics&statisticsforlibrariesandinfomationproviders--DataDictionary),该标准在传统图书馆工作的基础上,还特别增加了网络服务、网络资源、网络运行的新的测度方法,这套数据字典将逐渐纳入美国图书馆统计工作,成为美国图书馆统计工作的参考依据,

ICOLC1998年制定的《网上索引、文摘和全文资源使用统计测度指南》(GuidelinesforStatisticalMeaSuresofUsageofWeb-BasedIndexed,AbstractedandFullTextResources)提供了一套网络化信息资源使用的绩效测度指南。2001年的修订版明确了网络信息使用数据统计的最基本要求,并提供在隐私、保密、获取、传递和报告形式方面的指导。

ISOISO/CD11620也在传统服务统计指标的基础上,结合ICOLC和COUNTER的研究,进行了图书涫数字资源测度及其定义、方法的描述。

1.3国内图书馆数字资源访问统计的研究和应用

国内随着公共图书馆、大学图书馆、科学图书馆系统图书馆评估工作的进行,图书馆界开始逐步重视对图书馆数字馆藏、图书馆数字化信息服务的评估。

参考文献2中提出了数字资源后评估的概念,但是对图书馆数字资源访问统计等后评估的方法和指标体系尚未全面展开评论。一些图书馆自行开发了基于jsp或者asp的图书馆网站访问统计软件,一些数字图书馆系统,如清华同方的TPI、北京拓尔思的TRS、浙江天宇的CGRS等等也提供了相应的统计功能,但是尚没有一款商业化的软件针对图书馆的各种类型的数字资源提供一揽子的访问统计方案。

二、图书馆数字资源访问统计的方式

2.1WEB日志方式

web服务器在工作时,时刻将WWW访问的结果记录在一些log(日志)文件中,通过对服务器日志的分析可以得到以下信息。

(1)通过对访问时间进行统计,可以得到服务器在某些时段的访问情况;

(2)对访问者的IP进行统计,从中可以判断主要是那些用户在访问Web服务器;

(3)对访问请求的错误进行统计和分析,可以找出有问题的页面加以改正;

(4)对访问者清求的URL进行统计,就可以判断出读者对那些页面的内容最感兴趣,对哪些页面的内容不感兴趣。

各种web服务器日志文件的格式和内容大致相同。根据W3C的际准,一般Web日志都包括诸如用户的IP地址、请求时间、方法(GET/POST等)、被请求网页或文件的URL、发送/接收字节数、协议版本等信息。表1列出了几种不同类型的Web日志。

但这些日志文件信息量很大,用户难以直接从log文件获得直观的结果。对日志文件的分析,可以借助一些商业性的或者源代码开放的软件完成。其中比较好的开放源代码的日志分析软件有:AWStats、webalizer等。

从日志文件提供的信息进行统计和分析,就可以对整个网站有一个数字化、精确的认识,从而对网站的设计和内容进行改善和调整,使图书馆网站更好地为读者提供服务。

2.2资源提供商提供

数据库的使用情况属于后评估指标,主要用于更新、续订数据库时使用,一般在图书馆购买资源提供商的数字资源时,应该要求由出版商或数据库商提供使用报告,再据此进行各类分析。

目前出版商/数据库商提供的统计报告常用的相关统计指标有:

①检索次数(searfh/query):用户在某一个数据库中提出检索式的次数。

②登录次数(session/signon):用户打开某个数据库的次数。

③下载文摘/全文(abstract/fulltextpage/image):用户在某一个数据库中下载到本地客户机中的文摘或全文篇数。

2.3通过网络proxy

服务器(ProxyServer)是一种服务器软件,它的主要功能有:设置用户验证和记帐功能,可按用户进行记帐,没有登记的用户无权通过服务器访问Internet网,可以对用户的访问时间、访问地点、信息流量进行统计。

目前服务器软件产品十分成熟,功能也很强大,可供选择的服务器软件很多。主要的服务器软件有WinGate公司的WinGatePro、微软公司的MicrosoftProxy、Netscape的NetscapeProxy、SybergenNetworks公司的SyGate等,这些软件不仅可以为局域网内的PC机提供服务,还可以为基于Novell网络的用户,甚至UNLX的用户提供服务。目前绝大部分Intemet的应用都可以通过方式实现。大多数服务器软件产品具有登记内部网用户访问外部网的日志记录,有些产品还可以直接将日志记录到数据库中。根据日志记录文件或数据库,可以统计内部网每个用户的网络流量以及上网时间,甚至可以按服务网络类型(如:HTTP、SMTP、FTP等)分别进行统计。

2.4利用脚本语言自行开发

通过web服务器的日志可以获得用户访问图书馆网站信息的情况,但是,这种方式需要对日志的格式进行了解,然后用相应的工具软件或者进行一定的开发来完成。还有一种获取网站访问情况的方法是利用asp或者isp等网络脚本语言,利用它们内置的server、session、request对象等获取相关的信息,获取数据进行统计。比如:利用Jsp我们可以用Jsp的内置request对象的获取参数方法request.getParameter("userid"),获取用户名;用(request.getRemoteAddr)获取访问者的IP地址;通过request.getHeader("User-Agent")获取包含浏览器和操作系统的信息,然后用字符串分割substring()方法来分别得到浏览器和操作系统;通过Jsp的内置对象session的方法session,getCreation-Time()返回Session被创建的时间,而session.getLastAccessedTime()则返回当前Session对象最后被客户发送的时间,两者之差为停留时间。

主要分以下几个开发步骤:公务员之家

(1)确定将要统计的信息;

(2)建立数据库;

(3)实时的访问信息纪录,记录每次点击的信息,包括页面信息、用户信息、访问IP、访问时间;

(4)实时信息的分类存储;

(5)显示方式的选择。可以用Windows的表格系统,也可以自行编制表格显示。

访问流量范文篇9

2.1WEB日志方式

web服务器在工作时,时刻将WWW访问的结果记录在一些log(日志)文件中,通过对服务器日志的分析可以得到以下信息

(1)通过对访问时间进行统计,可以得到服务器在某些时段的访问情况;

(2)对访问者的IP进行统计,从中可以判断主要是那些用户在访问Web服务器;

(3)对访问请求的错误进行统计和分析,可以找出有问题的页面加以改正;

(4)对访问者清求的URL进行统计,就可以判断出读者对那些页面的内容最感兴趣,对哪些页面的内容不感兴趣。

各种web服务器日志文件的格式和内容大致相同。根据W3C的际准[2],一般Web日志都包括诸如用户的IP地址、请求时间、方法(GET/POST等)、被请求网页或文件的URL、发送/接收字节数、协议版本等信息。表1列出了几种不同类型的Web日志。

但这些日志文件信息量很大,用户难以直接从log文件获得直观的结果。对日志文件的分析,可以借助一些商业性的或者源代码开放的软件完成。其中比较好的开放源代码的日志分析软件有:AWStats、webalizer等。

从日志文件提供的信息进行统计和分析,就可以对整个网站有一个数字化、精确的认识,从而对网站的设计和内容进行改善和调整,使图书馆网站更好地为读者提供服务。

1.2资源提供商提供

数据库的使用情况属于后评估指标,主要用于更新、续订数据库时使用,一般在图书馆购买资源提供商的数字资源时,应该要求由出版商或数据库商提供使用报告,再据此进行各类分析。

目前出版商/数据库商提供的统计报告常用的相关统计指标有:

①检索次数(searfh/query):用户在某一个数据库中提出检索式的次数。

②登录次数(session/signon):用户打开某个数据库的次数。

③下载文摘/全文(abstract/fulltextpage/image):用户在某一个数据库中下载到本地客户机中的文摘或全文篇数。

1.3通过网络proxy

服务器(ProxyServer)是一种服务器软件,它的主要功能有:设置用户验证和记帐功能,可按用户进行记帐,没有登记的用户无权通过服务器访问Internet网,可以对用户的访问时间、访问地点、信息流量进行统计。

目前服务器软件产品十分成熟,功能也很强大,可供选择的服务器软件很多。主要的服务器软件有WinGate公司的WinGatePro、微软公司的MicrosoftProxy、Netscape的NetscapeProxy、SybergenNetworks公司的SyGate等,这些软件不仅可以为局域网内的PC机提供服务,还可以为基于Novell网络的用户,甚至UNLX的用户提供服务。目前绝大部分Intemet的应用都可以通过方式实现。大多数服务器软件产品具有登记内部网用户访问外部网的日志记录,有些产品还可以直接将日志记录到数据库中。根据日志记录文件或数据库,可以统计内部网每个用户的网络流量以及上网时间,甚至可以按服务网络类型(如:HTTP、SMTP、FTP等)分别进行统计。

1.4利用脚本语言自行开发

通过web服务器的日志可以获得用户访问图书馆网站信息的情况,但是,这种方式需要对日志的格式进行了解,然后用相应的工具软件或者进行一定的开发来完成。还有一种获取网站访问情况的方法是利用asp或者isp等网络脚本语言,利用它们内置的server、session、request对象等获取相关的信息,获取数据进行统计。比如:利用Jsp我们可以用Jsp的内置request对象的获取参数方法request.getParameter("userid"),获取用户名;用(request.getRemoteAddr)获取访问者的IP地址;通过request.getHeader("User-Agent")获取包含浏览器和操作系统的信息,然后用字符串分割substring()方法来分别得到浏览器和操作系统;通过Jsp的内置对象session的方法session,getCreation-Time()返回Session被创建的时间,而session.getLastAccessedTime()则返回当前Session对象最后被客户发送的时间,两者之差为停留时间。

主要分以下几个开发步骤:

(1)确定将要统计的信息;

(2)建立数据库;

(3)实时的访问信息纪录,记录每次点击的信息,包括页面信息、用户信息、访问IP、访问时间;

(4)实时信息的分类存储;

(5)显示方式的选择。可以用Windows的表格系统,也可以自行编制表格显示。

利用这种方法相对比较简单,但是可获得的统计指标也有限。

除了上述几种统计方式外,还有基于路由器的流量统计、基于防火墙的流量统计、基于以太网广播特性的流量统计。但是这些方法所提供的简单流量的统计功能,不能完全满足图书馆数字资源访问统计的目标。

1图书馆数字资源访问统计的现状

1.1典型的研究计划

美国和欧盟针对图书馆数字资源的访问统计已经展开了一些针对性的研究计划,比如,由美国研究图书馆协会资助的E-Metric项目、美国多个机构(包括ARL、JISC、NISO等)资助的COUNIER项目、欧盟TelematicsforLibrariesProgramme支持的EQUINOX项目等,这些项目多为研究制定描述电子信息服务和资源的统计指标和绩效测度及其方法。

1.2相关标准

在相关的标准方面,面对新的信息环境和图书馆形态,一些组织开始尝试将新的电子资源绩效评估标准融入原有相关标准/指南的框架。例如NISO在2004年批准了图书馆和信息提供者信息服务和利用的测度和统计数据字典(NISOZ39.7-2004InformationServicesandUse:Metrics&statisticsforlibrariesandinfomationproviders--DataDictionary),该标准在传统图书馆工作的基础上,还特别增加了网络服务、网络资源、网络运行的新的测度方法,这套数据字典将逐渐纳入美国图书馆统计工作,成为美国图书馆统计工作的参考依据,

ICOLC1998年制定的《网上索引、文摘和全文资源使用统计测度指南》(GuidelinesforStatisticalMeaSuresofUsageofWeb-BasedIndexed,AbstractedandFullTextResources)提供了一套网络化信息资源使用的绩效测度指南。2001年的修订版明确了网络信息使用数据统计的最基本要求,并提供在隐私、保密、获取、传递和报告形式方面的指导。

ISOISO/CD11620也在传统服务统计指标的基础上,结合ICOLC和COUNTER的研究,进行了图书涫数字资源测度及其定义、方法的描述。

1.3国内图书馆数字资源访问统计的研究和应用

国内随着公共图书馆、大学图书馆、科学图书馆系统图书馆评估工作的进行,图书馆界开始逐步重视对图书馆数字馆藏、图书馆数字化信息服务的评估。

参考文献2中提出了数字资源后评估的概念,但是对图书馆数字资源访问统计等后评估的方法和指标体系尚未全面展开评论。一些图书馆自行开发了基于jsp或者asp的图书馆网站访问统计软件,一些数字图书馆系统,如清华同方的TPI、北京拓尔思的TRS、浙江天宇的CGRS等等也提供了相应的统计功能,但是尚没有一款商业化的软件针对图书馆的各种类型的数字资源提供一揽子的访问统计方案。

2图书馆数字资源访问统计的方式

2.1WEB日志方式

web服务器在工作时,时刻将WWW访问的结果记录在一些log(日志)文件中,通过对服务器日志的分析可以得到以下信息

(1)通过对访问时间进行统计,可以得到服务器在某些时段的访问情况;

(2)对访问者的IP进行统计,从中可以判断主要是那些用户在访问Web服务器;

(3)对访问请求的错误进行统计和分析,可以找出有问题的页面加以改正;

(4)对访问者清求的URL进行统计,就可以判断出读者对那些页面的内容最感兴趣,对哪些页面的内容不感兴趣。

各种web服务器日志文件的格式和内容大致相同。根据W3C的际准[2],一般Web日志都包括诸如用户的IP地址、请求时间、方法(GET/POST等)、被请求网页或文件的URL、发送/接收字节数、协议版本等信息。表1列出了几种不同类型的Web日志。

但这些日志文件信息量很大,用户难以直接从log文件获得直观的结果。对日志文件的分析,可以借助一些商业性的或者源代码开放的软件完成。其中比较好的开放源代码的日志分析软件有:AWStats、webalizer等。

从日志文件提供的信息进行统计和分析,就可以对整个网站有一个数字化、精确的认识,从而对网站的设计和内容进行改善和调整,使图书馆网站更好地为读者提供服务。

2.2资源提供商提供

数据库的使用情况属于后评估指标,主要用于更新、续订数据库时使用,一般在图书馆购买资源提供商的数字资源时,应该要求由出版商或数据库商提供使用报告,再据此进行各类分析。

目前出版商/数据库商提供的统计报告常用的相关统计指标有:

①检索次数(searfh/query):用户在某一个数据库中提出检索式的次数。

②登录次数(session/signon):用户打开某个数据库的次数。

③下载文摘/全文(abstract/fulltextpage/image):用户在某一个数据库中下载到本地客户机中的文摘或全文篇数。

2.3通过网络proxy

服务器(ProxyServer)是一种服务器软件,它的主要功能有:设置用户验证和记帐功能,可按用户进行记帐,没有登记的用户无权通过服务器访问Internet网,可以对用户的访问时间、访问地点、信息流量进行统计。

目前服务器软件产品十分成熟,功能也很强大,可供选择的服务器软件很多。主要的服务器软件有WinGate公司的WinGatePro、微软公司的MicrosoftProxy、Netscape的NetscapeProxy、SybergenNetworks公司的SyGate等,这些软件不仅可以为局域网内的PC机提供服务,还可以为基于Novell网络的用户,甚至UNLX的用户提供服务。目前绝大部分Intemet的应用都可以通过方式实现。大多数服务器软件产品具有登记内部网用户访问外部网的日志记录,有些产品还可以直接将日志记录到数据库中。根据日志记录文件或数据库,可以统计内部网每个用户的网络流量以及上网时间,甚至可以按服务网络类型(如:HTTP、SMTP、FTP等)分别进行统计。

2.4利用脚本语言自行开发

通过web服务器的日志可以获得用户访问图书馆网站信息的情况,但是,这种方式需要对日志的格式进行了解,然后用相应的工具软件或者进行一定的开发来完成。还有一种获取网站访问情况的方法是利用asp或者isp等网络脚本语言,利用它们内置的server、session、request对象等获取相关的信息,获取数据进行统计。比如:利用Jsp我们可以用Jsp的内置request对象的获取参数方法request.getParameter("userid"),获取用户名;用(request.getRemoteAddr)获取访问者的IP地址;通过request.getHeader("User-Agent")获取包含浏览器和操作系统的信息,然后用字符串分割substring()方法来分别得到浏览器和操作系统;通过Jsp的内置对象session的方法session,getCreation-Time()返回Session被创建的时间,而session.getLastAccessedTime()则返回当前Session对象最后被客户发送的时间,两者之差为停留时间。

主要分以下几个开发步骤:

(1)确定将要统计的信息;

(2)建立数据库;

(3)实时的访问信息纪录,记录每次点击的信息,包括页面信息、用户信息、访问IP、访问时间;

(4)实时信息的分类存储;

(5)显示方式的选择。可以用Windows的表格系统,也可以自行编制表格显示。

利用这种方法相对比较简单,但是可获得的统计指标也有限。

除了上述几种统计方式外,还有基于路由器的流量统计、基于防火墙的流量统计、基于以太网广播特性的流量统计。但是这些方法所提供的简单流量的统计功能,不能完全满足图书馆数字资源访问统计的目标。

3图书馆数字资源访问统计的指标

3.1国际图书馆联盟的统计指标指南

国际图书馆联盟认为,信息资源提供商对他们提供的特定的电子信息资源所提供的统计数据应该满足以下的最低需求。

必须提供的数据元素是:

a)会话(session)数量(或者登陆数量)numberofsessions。为了满足政府机构和专业组织的报告的需要,应该提供会话数量或者登陆数量。在没有国界的网络环境中,会话数量的统计是一个粗糙的指标。

b)提问数(numberofqueries),即经过分类的提问数量。一次检索是一次独立的知识查询。典型地,一次检索被记录为向服务器提交的一个检索表单,之后的浏览行为或者选定一个单独条目的行为没有表现为额外的检索,除非通过提交二次检索。立即进行重复的检索、双击或者其他用户的无意识行为都不应计入其内。

c)菜单的选择数(numberofmenuselections),如果数据的显示需要通过使用菜单来进行浏览,则应该提供这个指标(如一个电子期刊网站提供的基于音序和主体的菜单选择)。

d)全文的数量(打开的、下载的或者提供给用户的全文,这些全文都是由服务器控制的而不是由浏览器控制的):

期刊文章-按照期刊名称列出刊名和issn;

电子书——按照书名列出书名和isbn;

参考资料——按照改资源的内容单元(如字典的定义、百科全书的文章、传记等);

非文本型资源——按照自愿的文献类型(如图像、音频、视频等)。

上述的每个数据元素应该按照每个特定的数据库提供商、按照每一组机构的IP地址或其他特别的元素(如账号),以及机构名称、协会名称和时间跨度(每月或者每年)分组描述,供应商还应该提供每天、每小时的统计数据,并且还应该可以动态地集成几个月或者某一段时间的数据,而不用限制是当年数据还是由供应商限定的时间段。

3.2E-Metrics推荐的统计指标

为了了解图书馆数字资源的使用情况,确定数字资源的花费是否合理,MRL的E-Metrics项目推荐的指标如下:

(1)用户可检索的电子资源。包括:R1电子全文期刊种数、R2电子参考资源种数、R3电子书的种数。

(2)对网络资源和服务的使用情况。包括:U1电子参考事务的数量、U2登录电子数据库的数量(会话session数)、U3电子数据库的提问和检索数量、U4电子数据库的请求条数、U5对图书馆网站和书目的远程访问次数。

(3)网络资源和相关设备的花费。包括:C1全文电子期刊的成本、C2电子参考资源的成本、C3电子书的成本、C4图书馆对书目设备、网络环境等相关设备的花费、C5对书目设备、网络环境等相关设备的外部花费。

(4)图书馆数字化活动。包括:D1数字馆藏的大小、D2数字馆藏的使用、D3数字馆藏建设和管理的成本。

E-Metrics的统计指标,既考虑了数字资源和数字化服务的访问量,还考虑了数字资源及其支持成本,便于从成本/效益的角度进行分析。

3.3我国图书馆常用的数字资源访问统计指标

对于图书馆数字资源访问统计的指标,在我们常见的统计分忻工作中,统计指标围绕什么被使用?谁在使用?如何使用?什么时候使用?为什么使用?哪些资料经常被下载?哪些资料被检索最频繁?资料检索来自哪些单位?哪个单位使用量最多等问题,通常采用数字资源提供商提供的访问统计数据与对图书馆网站及自建数字资源的访问统计相结合的方式,除了资源提供商提供的数据外,往往采用网站访问流量、访问者的IP、网站点击次数、数字资源的点击次数、下载的篇数等指标。

与国外相比,我国图书馆的数字资源访问统计指标设定相对比较粗略,没有统一的、针对各种类型数字资源的一致的标准,而且统计指标往往仅仅反映了访问情况,未能与数字资源的购买和管理成本挂钩进行成本/效益分析。

4图书馆数字资源访问统计存在的问题

4.1资料库不在馆内,正确及时的统计数据不易取得

随着各个图书馆在数字资源建设方面的积累和发展,图书馆数字资源的来源多样,既有通过远程镜像或者资源提供商服务器访问的数据,也有在本地镜像的数据,还有图书馆自建的数字资源。尤其对于资料库不在馆内的情况,需要厂商配合协助,但是最大的问题在于没有办法从厂商那里得到充分的数据,或是厂商提供的数据不标准,或是提供的资料不是图书馆想要的,而且由于统计数据是由资源提供商提供,其客观性和真实性的保障机制弱。这样,正确及时的统计数据不易取得。

4.2缺乏标准的统计指标

由于资源来源多样,统计指标不规范,不同的系统提供的统计报告五花八门,没有统一指标。统计指标定义混乱、不明确,例如“search”在大多数系统内被定义为用户发送检索式的次数,但有些数据库却用“query”来表示同样含义的指标,而CSA数据库则同时使用了“search”和“query”,二者的含义和区别并不明确。没有一致、标准、科学的统计指标体系,对用户访问统计的分析及其对图书馆决策的支持可信度就会降低。同时对于数字资源的访问统计指标还应该结合每种数字资源的类型、考虑数字资源服务的研究人员规模等参数。

4.3图书馆数字资源的后评估,应该结合多种评估途径展开

图书馆数字资源的访问统计,是图书馆数字资源后评估的方法之一,目前的图书馆数字资源的访问统计存在统计指标不一致、不标准的问题,而且网站访问统计不能确定是否与使用者的目的相符,无法完全反映使用者真正的使用状况,因而,图书馆数字资源的后评估可以结合数字资源的访问统计、用户使用调查、用户访谈等方式完成。

4.4用户隐私的问题

图书馆数字资源访问统计的数据主要来自webserver的logfiles,目前法律上并无相关条文规定logfile资料的处理,但由于其中包含使用者的IP地址,应该与图书馆的流通记录一样,加以保密。不论图书馆决定如何分析logfile的数据,对于收集何种数据、谁能判读数据以及如何使用数据等,都应有详细的规定和说明,以免一时大意触犯子个人隐私权。未经个人用户同意,不能收集用户的个人信息,也不能将所收集的统计信息用于分析和识别用户个人信息。如果为提供特定服务必须采集用户的个人信息,必须向用户告知他的权利、个人信息用途及其保护方式,只有在用户知情同意的情况下才能基于该服务明确相关的个人信息。并且必须对合法采集的用户个人信息必须进行安全保管,未经用户同意不得公开,不得将个人信息转给第三方,而且服务中止后,必须立即删除。

【参考文献】

1/stats/newmeas/emetrics/index.html

2/index.html

3equinox.dcu.ie/

4/emetrics/index.cfm

5,9ICOLC.GUIDELINESFORSTATISTICALMEASURESOFUSAGEOFWEB-BASEDINFORMATIONRESOURCES<www.library.yale.edu/consortia/2001webstats.htm

6/article/CA411564?display=FeaturesNews&industry

7张川,肖金升,周振,胡运发.具有访问时间完整性的web日志方法.计算机应用与软件.2004(2):105-107

8梁玉环,李村合,索红光.基于JSP的网站访问统计系统的设计与实现.计算机应用研究.2004(4):166-167

10詹丽萍.E-Metrics在数位图书馆使用评估的应用.p105.lib.nctu.edu.tw/2001conference/pdf/1-1.pdf

11张晓林、宛玲、徐引篪、宋小冬、王欣.国家科学效字图书馆数字资源采购的技术要求.中国图书馆学报.2004(7),14-19

访问流量范文篇10

关键词:智能负载平衡BGP路由

1.引言

随着学校信息化的进一步加强,局域网与Internet的联系也越来越密切。从现有的网络状况看,局域网现在已拥有了2条连接Internet的链路,分别为:100MBps链路连接到中国网通;100MBps链路连接到大庆油田通信。这两条链路不但提供整个局域网用户访问Internet的通道,同时也确保局域网的Web站点和Email系统的Internet通路。由于我校非ISP运营商,无法提供BGP路由,故无法充分利用现有两条链路的带宽;同时对外服务的Web和Email无法在某条Internet链路发生故障的时候自动切换到其余的链路上,必须手工设置切换。然而,由于无法及时发现故障,常常导致故障持续较长时间才得到修复,作为我校对外宣传服务的窗口,Web站点和Email服务的稳定性将直接影响到我校的形象。针对以上问题,同时基于目前7层网络交换技术的成熟应用,提出了一个从系统架构高度出发的解决方案,不但能够解决以上问题,而且能够进一步加强我校网络的稳定性,并提供系统充分的扩展手段。

2.负载平衡

负载均衡通过实时地分析数据包,将大量的并发访问或数据流动态地分发到多台节点设备上分别处理,以提高响应速度,也可以把单个重负载的运算分发到多台节点设备上并行处理。处理结束后,将结果汇总返回给用户,从而提高系统的处理能力。

2.1基本原理

负载均衡的实现通常有软件和硬件设备两种。软件负载均衡的实现方式是指在一台或多台服务器相应的操作系统上安装附加软件来实现负载均衡,如DNSLoadBalance等。虽然软成本低,操作简便,但是系统开销大,可扩展性差,又受制于操作系统,不适于大型网络。

硬件负载均衡的实现是直接在服务器和外部网络间安装负载均衡设备,由于它独立于操作系统,使得整体性能得到大幅度提高,再加上多元化的策略,智能化的管理,可达到最佳的负载均衡需求。

负载均衡技术通常操作于网络的第四层或第七层。第四层为传输层,它负责在数据源和目的系统之间协调通信。该协议层包括传输控制协议(TCP)和用户数据报协议(UDP);第七层为应用层,它控制应用层服务的内容,提供了一种对访问流量的高层控制方式,适合对HTTP服务器群的应用。

第四层的负载均衡是将一个外部IP地址映射为多个内部服务器的IP地址,对每次TCP链接请求动态使用其中一个内部IP地址(内部IP地址采用虚拟IP-VirtualIP)来达到负载均衡的目的。负载均衡交换机根据源端口和目的端口的IP地址、TCP或UDP端口和一定的策率,在服务器IP和虚拟IP间进行映射,选取服务器群中最好的服务器来处理链接请求。

第七号层负载均衡技术则是通过对访问流量的高层控制来实现负载均衡的,它检查流经负载均衡交换机的HTTP报头,根据报头内的信息来执行负载均衡的策略。这就是我们所说的七层交换技术或Web内容交换技术。

负载均衡使用哈希(HASH)算法来将链接的用户映射到基于IP地址、端口和其他信息服务器群主机上。在检查收到的数据包时,所有主机均同步执行这种映射以迅速决定哪个主机应处理该数据包。除非服务器群主机数量发生变化,否则该映射会保持不变。

在负载均衡的设计方案上,首先要满足当前和将来的应用需要,同时必须对现有投资进行保护;第一性能要高;第二要有高可靠性;第三扩展性要好,第四要有充分的灵活性;第五要易于管理。

3.局域网智能负载平衡系统的实现

3.1局域网负载均衡需求分析及目的

根据局域网建设的总体设计方案要求,我们总结出网络流量管理的具体需求如下:

国际网络连接的负载均衡,其中包括内部用户对外的访问流量和外部用户对内部服务器的访问,要求在正常情况下两条链路上的流量是均衡的,在某链路故障时自动将其流量切换到另外的链路,自动的透明容错,当链路恢复时自动将其加入到负载均衡中来。

学校内部用户通过服务器的负载均衡机制来实现对互联网的的访问,多台服务器同时并行工作,某台服务器发生故障时由负载均衡产品自动检查到,并且将其从服务器群组中排除,透明的容错,避免单台服务器的性能瓶颈问题。

对两台NS500防火墙的负载均衡,包括External,Internal,DMZ的端口的负载均衡;要求在正常情况下两台防火墙上的流量是均衡的,在某台防火墙故障时自动将其流量切换到另外的防火墙,自动的透明容错,当故障的防火墙恢复时自动将其加入到负载均衡中来。

均衡系统具备灵活的扩展空间,根据实际应用的需求灵活投资,提高整体服务能力。

3.2学校Internet链路负载均衡方案

针对以上提出的需求分析,我们充分分析目前局域网的实际状况,结合4~7层网络交换机在国际上网络优化案例的经验,总结出以下流量管理和均衡解决方案。

方案采用两台7层IP应用交换机LCCatalyst2400分别提供防火墙和服务器的负载均衡服务。7层IP应用交换机之间的容错可以通过FailOverCable实现,同时7层IP应用交换机可以通过FailOverCable检查对方的运行状态,复制对方的所有的Session和状态信息。LCCatalyst2400对ISP国际网络接入流量的负载均衡实现方法如下:

在双ISP接入时,每个ISP接入都单独采用一台接入路由器,紧跟路由器的后面连接两台LCCatalyst2400,两台LCCatalyst2400做冗余备份,两台LinkController之间有专用的心跳线检测检测备份的激活设备的状态,其后连接两台防火墙,对两台防火墙采用冗余连接方式。防火墙外网的默认路由指向LCCatalyst2400;接入路由器的默认路由指向ISP端的路由器。这样确保在一台防火墙出现故障时可以通过另外一个访问Internet。

3.3系统说明

从内网至Internet流量的负载均衡

(1)LinkControl上为两个默认路由端建立路由组VIP=0.0.0.0;

(2)LinkControl依据预先设定的策略以及当时线路状况动态智能选择外出流量通过的路由;

(3)若有必要LinkControl可以作相应的地址转换工作,将用户的地址依其将通过的ISP转换成相应网段的地址,以确保返回的数据包从同一链路返回。

从Internet进入的访问流量负载均衡

(1)相应二条路由建立2个对应的虚拟服务器,各自的地址分别属于2个ISP的网段;

(2)LinkControl内置了3DNS功能完全替代了传统的DNS功能,同时又增加了对各个虚拟服务器的状态和可达链路的状态的监控,确保提供给用户真正能够提供服务的服务器;

(3)用户请求petrodaqing.com均由LinkControl进行解析,LinkControl可依据用户在27种策略中选定的方案分配用户通过哪条链路访问,或者完全由LinkControl实现动态分配;

(4)LinkControl可同时监控服务器的状态和链路状态,并且监控链路状态时可以看该链路上的多个HOP。

3.4方案特点

提供多台防火墙的负载均衡能力;

提供在线维护防火墙的方法;

解决了单台防火墙的处理能力瓶颈问题;

提供了系统的扩展能力。

4.局域网服务器机群负载均衡

我校局域网通过服务方式访问Internet的结点有1万台,由于受到单台服务器的性能瓶颈和系统故障等问题,影响了访问Internet的稳定性。为此我们采用服务器的负载均衡机制解决这一问题。

我们在七层交换机设置虚拟IP地址(VIP由IP地址和TCP/UDP应用的端口组成,它是一个地址)来为用户的一个或多个目标服务器。因此,它能够为大量的基于TCP/IP的网络应用提供服务器负载均衡服务。七层交换机连续地对目标服务器进行L4到L7合理性检查,当用户通过VIP请求目标服务器服务时,BIG/IP根椐目标服务器之间性能和网络健康情况,选择性能最佳的服务器响应用户的请求。如果能够充分利用所有的服务器资源,将所有流量均衡的分配到各个服务器,这样就可以有效地避免“不平衡”现象的发生。七层交换机是一台对流量和内容进行管理分配的设备。它提供12种灵活的算法将数据流有效地转发到它所连接的服务器群。而面对用户,只是一台虚拟服务器。用户此时只须记住一台服务器,即虚拟服务器。但他们的数据流却被L7灵活地均衡到所有的服务器。这12种算法主要包括:

·轮询(RoundRobin):顺序循环将请求一次顺序循环地连接每个服务器。当其中某个服务器发生第二到第7层的故障,BIG/IP就把其从顺序循环队列中拿出,不参加下一次的轮询,直到其恢复正常。

·比率(Ratio):给每个服务器分配一个加权值为比例,根椐这个比例,把用户的请求分配到每个服务器。当其中某个服务器发生第二到第7层的故障,BIG/IP就把其从服务器队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。

·优先权(Priority):给所有服务器分组,给每个组定义优先权,BIG/IP用户的请求,分配给优先级最高的服务器组(在同一组内,采用轮询或比率算法,分配用户的请求);当最高优先级中所有服务器出现故障,BIG/IP才将请求送给次优先级的服务器组。这种方式,实际为用户提供一种热备份的方式。

·最少的连接方式(LeastConnection);

·最快模式(Fastest);

·观察模式(Observed);

·预测模式(Predictive);

·动态性能分配(DynamicRatio-APM);

·动态服务器补充(DynamicServerAct.);

·服务质量(QoS);

·服务类型(ToS);

·规则模式。

4.1方案特点

实时监控服务器应用系统的状态,并智能屏蔽故障应用系统;

实现多台服务器的负载均衡,提升系统的可靠性;

可以监控和同步服务器提供的内容,确保客户获取到准确可靠的内容;

提供服务器在线维护和调试的手段;

5.结束语

本文介绍了我校局域网Internet出口智能负载平衡系统的实现方法,它成功的提高了整个网络运行的稳定性和安全性,保证了用户的高速可靠访问,避免了防火墙等关键网络设备出现单点故障;同时它提出了利用负载均衡器来实现对防火墙作负载均衡的解决方案,这将有力的保护了用户投资。在未来的企业信息化的建设中,负载均衡技术将会发挥更大的作用。