WWW网络信息搜索技术叙述

时间:2022-05-04 03:39:00

WWW网络信息搜索技术叙述

摘要:本文针对网络搜索引擎工作中的重点技术作出详尽的阐述,它包括Robot程序、索引数据库、检索程序三个方面。通过他们来概述WWW网络信息检索技术的发展状况。

关键词:Robot程序、数据索引、遍历算法、相关性

Theabstractsofinformationretrievalsontheworldwideweb

Abstract:Thisschedualsdecribethedetailsoffataltechniquesabouttheinformationontheworldwidewebsite,includingthreeaspects:Robottechniques,Indexingdatabaseandsearchingprogrammes.Wecanlearnthedevelopingstatesofinformationretrivalsthroughthem.

Keywords:Robot,Indces,Revelance,arithmetic

随着互联网的发展,网络信息不断爆炸式的扩张,网民怎么才能从这样海量的信息中找到他们所需要的信息呢?搜索引擎,这是目前为止,世界上最流行的一种准确获得信息的一种工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、网络指南针、北大天网和华好网景的ChinaOK等等。这些都是世界上非常著名的搜索引擎。他们都是通过网络机器人搜集网络信息,建立索引数据库,并且不但的更新,通过一定的相关性算法,对用户提供的请求作出响应,并按一定的次序输出高质量的信息。它的主要由下面三个部分组成:蜘蛛程序、索引数据库、检索程序。三个部分协调一致,其工作原理(图1)如下:

1Robot技术程序

Robot是一种计算机的程序,可以自动地在网络中穿梭,该程序最重要的功能是使用索引策略,也就是查找网站和网页的次序。可以用题目、URL、关键词进行索引,也可以是以上几项的某种组合。由于Internet的数据量大,在现有的机器和网络条件下,搜索引擎只能对部分Internet上的资料进行采集;加上搜索的索引策略不同,所以对相同关键词的搜索在不同的搜索器上可以有截然不同的结果。如果把整个Internet看作是一个图或一棵树的话,可以发现Robot技术的基本工作原理和人工智能中的搜索树一样,这在计算机中可以方便地使用递归方法实现,具体如下:

(1)根据首页进行搜索,相当于搜索树的根;

(2)根据首页的第1个链接到下一个页面;

(3)重复(1)和(2);(4)到某页已经没有链接,回退上一级页面的下一个链接,如此循环往复。

但若要建立全面的索引数据库,必须对WWW系统进行遍历。我们可以进行这样假设:将WWW作为一个有向图处理,将页面看作图中的节点,页面中的超链看作图中的有向边。因此可以使用有向图遍历算法(深度优先或广度优先算法或启发式方式)对其进行遍历。WWW是个典型的CS结构系统,所以可在一台主机上完成WWW遍历。

遍历一般采用以下3种方法:

(1)定一个种子URL,Robot从种子URL开始对WWW遍历;

(2)定一组不同类别、被访问频率高的URL,Robot从这些URL开始遍历;

(3)据域名或IP地址将WWW空间划分为多个子空间,运行多个Robot程序并行地在不同子空间中进行遍历。在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Robot可以系统地、周期性地访问WWW,从而建立较为全面的索引库,并能保持对库的不断更新。

在遍历算法中,一般用到了两种方式,深度优先和广度优先两种基本的搜索策略。Robit以URL列表存取的方式决定搜索策略:

(1)先进先出,则形成广度优先搜索。当起始列表包含有大量的Web服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去。

(2)先进后出,则形成深度优先搜索。这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用在实际使用中,一般是将这三种方法组合起来使用。按照上述遍历算法,Robot可以系统地、周期性地访问WWW,从而建立较为全面的索引库,并能保持对库的不断更新。在遍历的过程中,为了提高其效率,可以融入人工智能的方法使其变得智能化,以下为可行的方法:

(1)搜索引擎基本信息的采集。考虑网络中海量的数据,首先选取一些网络的主要节点,使搜索引擎存放某些监控程序到站点中,和站点之间建立一种通信联系,使搜索引擎不必每次更新时都要一个个页面地比较,而是智能地知道自上次访问后哪些页面已更新,直接采集新的页面。

(2)搜索引擎数据库的建立。考虑数据库中数据的有用性,可以根据用户的访问频度,建立站点的用户访问频度表格,Robot查找链接和页面时,要查看该表格,从用户访问频度高的站点开始查找,对上升速度和下降速度特别快的还要特别处理。搜索引擎的数据库内容是用户经常访问并乐意访问的,使搜索引擎越来越贴近用户。

2索引技术

索引技术的目的是理解Robot所搜索的信息,从中抽取索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:

客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(LinkPopularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。

内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋予一个权值,以表示该索引项对文档的区分索引项的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表(Invers度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引,即由索引项查找相应的文档。索引表要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(Proximity)。

索引技术可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引(InstantIndexing),否则不能跟上信息量剧增的速度。索引算法对索引技术的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量,而索引的质量由索引技术和索引策略来决定;但现行的索引技术随着数据量的增大,其耗费的资源指数速度飞速增长,极大地影响到搜索数据库的容量和检索;考虑用提高索引智能化的方式来提高索引的质量。按建立索引的策略来看,应确定是全文关键字提取,还是内容提取,根据不同的查询目标会有不同的提取目标和提取范围,最终将大大影响数据提取的速度和效果,这是索引技术所要考虑的首要问题;按内容提取可以采用分类技术,把页面的主题或内容分类,进入到不同的数据库中,在输入关键词查询时,要求第n个关键词必须是内容类别的词,这样第n个关键词就可以使搜索引擎知道到哪个内容类别的数据库中查找,再匹配后面的关键词,这样可以大大减少系统匹配的时间。这项技术要求在相关词库的基础上,还要统计使用频度,再加上一定的算法方可实现。当然上述两者应有机地结合才可提高整个系统的性能。

3检索程序。

当用户检索的时候,首先需要输入关键词,系统将对其进行语言分析,分解成多个词或词组,在去服务器的索引数据库,根据检索词的相关性进行匹配,找到与检索词相关度逼近的网页,按照相关度的高低进行排序输出,关键词出现了的越多的结果排得越靠前,越知名的站点排得越靠前。这里,相关性的设计相当的重要,它直接影响着搜索的效率。但“相关性”的概念一直非常模糊。一方面,人们观察到特定文档对特定查询而言可以有多种“相关”的方式,比如用户输入一个关键词作为查询向系统提交,系统返回的文档列表中的文档A讲述与此关键词相关的事件,B谈论与此关键词相关的人物等等,都可以说与这个关键词“相关”,但我们显然觉得二者与查询的相关并不属于同一层次。另一方面,由于用户本身的差异使其对检出文档是否真正相关的判断也有诸多差异。但是在设计信息检索系统的过程中,不可避免地要用到相关性这个概念;具体地说,设计者必须对怎样才算是“相关”有一个比较明确的想法,在没有弄清楚什么是相关性之前就谈论怎样区别相关和不相关文档,的确令人觉得在逻辑上缺少了一个重要的环节。下面就相关性做详尽的阐述:

3.1相关性研究的理论框架

3.1.1系统角度的相关

信息检索似乎从一开始就定位为一种单方向的过程,即系统输出结果,用户是信息的接受者。这种理解置用户于被动的地位:基于这种理解,研究的重心自然落在系统本身。系统角度的相关一般有两种比较方式。其一是在文档本身固有的特征信息,如词频等等与用户提交的查询表达式中固有的特征信息之间进行比较。典型做法是在文档集中寻找出现了查询表达式中的索引项的文档;其二是在从文档中抽取的“主题”与用户查询表达式中体现的“主题”之间做比较,即首先计算文档中各索引项的权值,再按权值大小进行排序,以此为依据确定文档的主题词。这种做法比较简单明了,易于操作而且可以直接观察,所以一直是信息检索研究者们乐于接受的。

3.1.2改进后的系统相关

从系统角度定义的相关性(即主题性相关)最突出的优点,就是简明和可操作性;而至少目前的系统还无法把握人的主观感觉。这样看来,采取主题性相关的态度就是唯一可行的做法。然而并不能把词频统计作为唯一的解决办法。Fairthorne曾提出:如果允许个人推论和个人理解介入相关性判断,那么从某种角度来看,任何文本对任何请求都是相关的。所以,改进系统角度相关度计算方法似乎比较可以接受。基于此种看法,在这里可以做这样一个设想:如果主题词提取算法能体现用户的相关性判断直觉,那么用户的相关性判断就可以被描述,而检索系统的输出就可能更加令人满意(见下图)。系统角度相关不能解决相关性判断的不确定性。相关性判断的不确定性基本上集中于用户的主观因素上。信息检索研究者的观点往往局限在虽然简单但引起很多争议的系统角度相关。但是随着检索系统日益广泛的应用,人们开始更多地思索人机交互过程中人的因素。

3.2相关反馈技术在信息检索系统中的应用及局限

从用户角度讨论相关大体上就是观察用户对检索结果的反应,是系统输出向用户需求的投射。作为系统本身必须“知道”如何判断相关性,而这种机制实际上是设计者对用户判断方式的模拟。最终的系统只能将用户判断有差异这一事实“忽略”过去。在检索系统中,使用相关反馈技术的目的,是通过检索策略的调整来增强对相关文献的响应而抑制非相关文献。许多年来,相关反馈被用来修正提问的问题。较复杂一些的检索系统如以向量空间模型为基础的SMART和概率模型等等固然包含了某“相关反馈”技术,即以已经得出的检索结果和用户的相关性评价为依据,不断修正查询表达式和检索结果集合;但是,系统赖以区分相关与不相关文档集的算法却只考虑文档自身的特性。信息检索的主要工作简而言之就是提取文档内容特征项的过程。这就使得检索系统不能跳出“系统中心”的局限而用户判断的不确定性不能得到本质的运用。虽然从用户角度讨论相关性定义的文献多如牛毛,却从未有一个确定性的结论;用户的主观因素的确难以捉摸。

结束语:在当今的知识经济和网络环境下,对信息的占有和知识的发现,是发展生产力的重要一环,人们迫切需要一种智能性的检索工具来探索信息空间,检索信息并进一步进行数据挖掘和知识发现。因此,建立一个高效率的搜索引擎是当今社会和科学发展的强烈要求。

参考文献:

[1]石艳霞信息检索中“相关性”与“相关反馈”研究概述

[2]王家钺.信息检索中“相关性”概念的研究

[3]宋玲.,马军Internet个性化智能信息检索的分析与研究