网络信息资源检索研究论文

时间:2022-05-04 06:40:00

网络信息资源检索研究论文

编者按:本文主要从引言;网络信息的特点;网络环境下的信息资源检索策略及其应用;结论进行论述。其中,主要包括:21世纪是一个高度信息化的社会,信息就是生产力、数量巨大而庞杂、内容范围广泛、信息类型丰富、网上信息具有高度动态性,各种信息处在不断生产、更新淘汰的状态、有序与无序,集中与分散并存、信息过滤技术及其应用、文本挖掘技术及其运用、文本内容挖掘在检索中的应用、文本结构挖掘在网络信息检索中的应用、文本行为挖掘在网络信息检索中的应用、全文检索技术及其运用、自然语言处理技术及其运用等,具体请详见。

[摘要]:因特网上的信息资源,是指以数字形式记录,以多媒体形式表达,存贮在网络计算机磁介质、光介质及各类通信介质上的信息集合。对网络信息资源及其检索进行必要的研究,有助于人们快速准确地获取网上有用信息,推动社会信息化与信息社会化的双向发展。因此本文阐述了网络环境下的信息资源检索策略及其应用。

[关键词]:网络环境,信息检索,信息过滤,文本挖掘

一、引言

21世纪是一个高度信息化的社会,信息就是生产力,在各个行业信息化发展的同时,人们对信息检索的完备、准确、快捷会有更严格的要求和期望。作为文献信息中心的图书馆也迎来了一个全新的信息环境,丰富的网络信息资源为图书馆的信息服务提供了广泛的资源基础,使网络环境下的信息资源检索策略发生了重大的变化。

二、网络信息的特点

(一)数量巨大而庞杂。Internet是一个基于TCP/IP协议连接世界各国数以百万计算机网络的通讯网,是一个集各种信息资源为一体的信息资源网。政府、机构、企业、个人等都可以在网上信息,因此它己成为无所不包的庞杂信息源,并具有跨地区、分布广、多语种、高度资源共享的特点。

(二)内容范围广泛。网上的信息源几乎涵盖了人类知识的全部领域,既有人文科学、社会科学、自然科学、工程技术信息,也有大量生活服务、娱乐消遣等方面的信息。

(三)信息类型丰富。其主要形式有网络出版,包括电子期刊、网上图书、电子工具书等;各种动态信息主要包括新闻、广告、股市行情、天气、交通、会议等;还有大量的书目数据库、联机数据库、软件资源以及个人主页、电子邮件等。这些信息都是数字式、多媒体,既有文本的信息,也有大量的图形、图像、音频、视频信息。

(四)动态性强。网上信息具有高度动态性,各种信息处在不断生产、更新淘汰的状态,同时连接在一起的各网络、网站、网页都时时刻刻在变化。网络信息还具有交互式特点,如BBS、聊天、游戏等。

(五)信息组织特殊、控制性差。因特网上信息的组织以超文本技术链接,构成立体网状文献链,把不同国家地区、不同服务器、各种网页、各类不同文献的相关信息都通过节点链接起来,使得检索相关文献、相关信息非常方便,加强了信息间的关联度,形成了一个网状结构。

(六)有序与无序,集中与分散并存。互联网上的信息没有统一控制,虽然从局部来说某个网站、某个数据库是有控制的、相对集中的、有序和规范的,但总的来说互联网的信息没有统一的控制,信息质量良荞不齐,信息也处于分散、无序、不规范的状态之中。

三、网络环境下的信息资源检索策略及其应用

科学技术的日新月异和用户需求的不断提高促使网络检索工具相应发展,网络环境下的信息资源检索策略及其应用可以分为以下几个方面:

(一)信息过滤技术及其应用

Internet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。

在用户的检索过程中,信息过滤可以通过多种途径实现。第一,关键词的选择。当用户要检索不太熟悉的领域时,系统可以通过提供机读类词表的方法方便用户选词,也可以通过后控词表等方法自动扩大或缩小(通常是通过近义词表扩大)检索范围,提高查全率和查准率;第二,利用过滤模型。过滤模型是目前Internet上信息过滤主要方法,它是通过设计过滤软件并附加到网络信息检索的程序中以增加过滤功能。这主要表现在两个方面,一方面,搜索程序在进行信息搜索时可通过过滤功能过滤掉一些认为价值不大或没有价值的信息;另一方面,用户也可根据自己的需求选择服务项目与内容,通过过滤机制快速找到所需的信息资源。其方法是根据需求设置过滤条件,如不希望获取的网址、某类主题的内容、某种类型或范围的信息等,程序在运行时一旦触发条件,则可将有关信息删除或拒之门外,而其他信息仍可输入。

(二)文本挖掘技术及其运用

文本挖掘是知识管理研究领域的新兴分支之一,为文本信息的整理、分析、挖掘提供了有效的手段。传统的信息检索或信息访问,主要根据用户提供的查询条件从文档数据库中检索出相关的文档信息。为了提高信息访问的准确性,检索系统增加了相关处理,如文档分类、自动文摘、主题词自动抽取等方法,使用户能够方便查找到所需信息。在文本挖掘处理中,大多采用神经网络模型描述文本及文档数据库各概念之间,以及概念和文档之间、文档与文档之间的相互关系在信息检索中,无须分析文档中概念之间的相互关系,只要依据用户的查询,返回相关文档集合。但是,文本挖掘不仅能够区分不同的概念,还能够分析不同概念结点之间的相互关联关系。

1、文本内容挖掘在检索中的应用。文本内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对文本文档的处理不够深入,因此,可以利用文本内容挖掘技术来对网络信息检索中的文本文档处理部分进行进一步的完善。

2、文本结构挖掘在网络信息检索中的应用。文本的信息组织方式采用了一种非平面结构,一般来说文本的信息组织方式是根据内容来进行组织的。但是由于文本的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信息,而是将文本页面作为平面机构的文本进行处理。但是,在文本结构挖掘中,通过对文本文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果。

3、文本行为挖掘在网络信息检索中的应用。文本行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过文本行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。

(三)全文检索技术及其运用

我国对全文检索技术的研究已经有一段时间了,也取得了一定的成果。主要集中在汉字全文检索、超文本全文检索、网络环境下的全文检索技术等方面。全文检索作为一种发展迅速的检索技术,近年来已得到广泛的关注并走向市场。有学者提出的“汉字全文检索系统的关键技术与实现”,在对中西文全文检索系统进行分析比较的基础上,提出了一种新的索引建立方式,并在此基础上,实现了支持模糊提问的全文检索。同时独立设计了自己的数据结构和算法,以及利用VisualC++在Windows环境下加以实现。全文检索技术的运用包括:1、检索主题要求对全文检索效果的影响:通过适当扩大检索范围或多字段联组检索来改善检索主题专指度过高;缩小检索主题范围,提高查找专指度,采取适当的检索策略,来限制检索主题范围太宽;提高检索主题要求的明确性;2、组配检索式对全文检索效果的影响,导致在确定检索词时,不仅仅要考虑到各检索词本身的切题与匹配。在这方面虽然取得一些成绩,但是国内的全文检索软件全是商品化的,其技术都不公开,导致低水平重复;汉语本身有难度,国内目前还没有公开的词库及可用的自然语言理解模块,重复研究的现象比较严重。

(四)自然语言处理技术及其运用

自然语言处理(naturallanguageprocessing,简称NLP)是语言信息处理的一个重要分支。所谓自然语言处理就是计算机对自然语言的形、音、义等信息的理解及词、句子、篇章的输入、输出、存储和识别等多方面的加工。尤其侧重于研究计算机对于句子、篇章的处理。

自然语言处理在网络信息检索中的应用方式主要有以下几种:

1、自动标引

由计算机实现文献标引,分为抽词标引和赋词标引两种类型,前者是从文献中自动抽出能表征文献主题的词作为标引词,而后者则在此基础上引入预先编制的词表来规范自动抽取出的词,不过这种词表从其生成来看与规范语言词表本质上是不同的,自动标引的目的是赋予文献自然语言标引词,以使检索时直接用自然语言词进行匹配查找。

2、自动文摘

利用计算机来完成文献文摘的编制。其一般过程为:(1)原始文献的录入,使之转化为机读形式;(2)确定每个单词和句子的“意义”与权值的测量标准;(3)通过计算每个单词和句子的权值来分析输入计算机内的文献,选出一组最能代表文献主题内容的句子;(4)排列和打印句子,形成文摘。

3、文本检索

文本是文献题名或文摘、文献的正文。文本检索就是不对文献进行标引,而是以自然语言表达检索课题。它需要借助计算机的自动匹配功能直接在篇名、文摘、正文中查找。文本检索要掌握字符串匹配、截词检索、位置逻辑检索等技术。

四、结论

总的说来,变化是因特网发展的永恒主题,也是网络信息检索的发展主题。随着因特网技术的发展,网络信息检索将不断的改进和完善,越来越满足人们的网络信息的获取需求。

[参考文献]:

1黎小妮网络信息资源检索研究图书馆学刊2006(5)

2王平网络环境下信息资源及信息检索遵义科技2006(3)

3陈剑网络信息资源检索存在的问题及解决对策情报资料工作2005(5)

4王林网络环境中信息检索的特点及发展趋势图书馆学研究2002(2)

5凌美秀关于搜索引擎当前存在的主要问题及其发展趋势的探讨高校图书馆工作2002(21)