搜索引擎研究十篇

时间:2023-04-02 18:55:54

搜索引擎研究

搜索引擎研究篇1

互联网对商业发展产生了巨大的推动作用,我国商业信息网站已经发展到成千上万家,在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”现象引起了人们的重视。如何高效、准确的获得包含用户所需的信息的网页,日益成为需要迫切解决的问题。

垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息,从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长,大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。

二、国内外现状与发展趋势

垂直搜索引擎大都处于研究和试验阶段,利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外,对有关主题搜索引擎的研究已经成为一大热点,我国主题搜索引擎的研究则刚刚起步。

目前面向主题的网络搜索主要有两种技术:

一是基于内容的搜索,这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。

二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似,通过对链接进行分析,可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关,所以就可以很容易地按照引用关系对大量网页分类。

三、技术关键

基于面向商业的垂直搜索引擎服务具有其自身的特性,下面列举出实现商业信息垂直搜索引擎的四大关键技术。

1.针对性、实时性和易于管理的网页采集技术:面向商业的垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中,但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加针对性、实时性和易于管理,并且网页信息更新周期也更短,获取信息更及时。

2.结构化数据的网页解析技术:由于面向商业的垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。在商业垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。

3.全文索引和联合检索技术:面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式。另外,还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。

4.智能化的文本挖掘技术:面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动重排,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。

四、设计方案

1.技术路线。采用如下的研究开发路线:

(1)针对商业信息的分布特点以及用户的实际需求,在充分调研的基础上,详细了解和比较其他研究人员在类似领域取得的一些重要而有一定创新性的成果,在此基础上初步提出平台的整体架构。

(2)结合面向对象设计技术,对上一步设计出的平台进一步细化,从而明确对该项目所采用的具体设计模式。

(3)根据设计模式所面临的具体问题(例如,如何提高爬行速度问题、系统资源限制问题、网页分类器问题、HTML文档解析问题等)给出有效的解决方案。

(4)将以上的方案付诸实施,形成一个面向商业的信息查询与共享平台;同时对系统的各种参数进行进一步测试,不断地完善和优化,最终形成一个界面友好、响应速度/查全率/查准率均符合用户要求的面向商业的垂直搜索引擎。

2.创新点。为达到商业信息搜索引擎预期的响应速度、查全率和查准率,在系统的开发中有如下创新点:

(1)系统总体为模块化结构,各个模块之间高内聚,低耦合。

(2)系统使用面向对象语言开发,能够有效地重用系统部分代码。

(3)在设计过程中,使用面向对象的思想做指导,建立系统类图,便于开发人员之间的交流。在编码过程中,不断重构代码,使得代码具有很高的运行效率,大大提高其重用性。

(4)系统集成时,使用XML文档作为模块间传递信息的工具。

搜索引擎研究篇2

关键词:FTP;搜索引擎;网络爬虫;索引

中图分类号:TB 文献标识码:A doi:10.19311/ki.1672-3198.2016.06.087

0引言

随着网络的发展,尤其是互联网的全球普及,使互联网上的信息急剧增长,很多个人和企业用户都建立对外开放的FTP服务器,提供了大量的信息供网民下载。如何从这信息的海洋中找到符合用户要求的有用信息,成为一个迫切需要解决的问题。对互联网上各个FTP站点上的资源进行整合汇总,以便快速、准确的了解到各个站点所提供的信息,显得十分必要。在各个FTP站点上的信息源有种类繁多,比如文本、图像、视频和声频文件等等。本设计针对FTP站点提供的信息资源进行爬取和分类,为后期建立索引的方便,对每个站点建立了一个经过初步处理的原始数据文件。

本系统主要是完成了对FTP站点信息的提取和分类,依据用户提供的站点列表、站点扫描范围以及扫描端口号进行扫描。其中对于爬虫模块来说最重要的两个步骤就是FTP站点信息的获取和对数据源的格式组织。

1 FTP搜索引擎爬虫模块介绍

1.1设计思路

任何FTP站点的建立都符合文件传输协议(File Transfer Protocol,FTP),由于FTP协议任务是从一台计算机将文件传输到另外一台计算机,它与这两台计算机所处的位置、连接方式、甚至是否使用相同的操作系统都没有关系。在使用FTP协议对话时,我们都可以使用FTP命令来传输文件。虽然在每种FTP服务器上支持的FTP命令有一些细微的差别,但它们所使用的基本命令结构是相同的,对于标准FTP命令也都支持。因此通过FTP命令获取FTP站点数据应该可行,而且拥有较好的兼容特性。本设计为FTP搜索引擎爬虫模块,所需要获取的数据有资源名称、类型、大小和最后修改时间。可以使用FTP服务器提供的标准命令满足此次设计的需求。

1.2设计步骤

1.2.1扫描站点

按照用户的设置,从众多潜在可访问站点中找出可访问的FTP站点。

1.2.2获取数据

利用FTP命令获取该FTP站点下的文件和目录,并分别记录各个目录下的文件和子目录。

1.2.3数据分类

读取分类号。按照数据类型的编号列表,对不同类型的文件数据标号。以便对数据进行分类。

1.2.4生成源文件

利用步骤(1.2.2)和(1.2.3)中获取的数据建立完整的数据源,并且按约定协议存在指定的目录下。

1.2.5生成站点列表

将可访问的站点存入站点列表中,便于下次扫描使用。

1.2.6建立索引文件

利用源文件建立索引数据库,方便数据的检索操作。

2 FTP搜索引擎概要设计

2.1工作原理

用户对在完成对FTP搜索引擎的爬虫模块配置文件的配置,便可执行爬虫程序。FTP搜索引擎的工作模式大概如下:

(1)爬虫程序会自动生成用户指定IP网段中包含的所有IP地址,对它们逐一进行扫描,已确认哪些站点提供了匿名的FTP服务。

(2)当程序成功登录某个FTP站点之后,程序会自动获取其各级目录下的文件和目录列表,并且会获取各个文件的大小、最后修改时间,最后程序会根据对照表对获取的各个文件进行分类。

(3)在所有操作完成之后,会生成该站点的目录和源文件。在扫描完用户配置的站点之后,扫描成功的站点会写入一个站点列表的文件,以便以后使用。

在索引模块中,会根据爬虫模块获取的数据,进行处理,建立索引数据库。

2.2工作流程图

工作流程如图1所示。

3 FTP搜索引爬虫模块详细设计

3.1设计目的

如今很多企业和个人都建立了自己的FTP站点,在各个FTP站点中包含有大量的资源,如何才能快速的在浩如烟海的资源中找到自己需要的资源,已经成为一个需要我们不得不解决的难题。要解决这一问题,需要我们建立一个有效的FTP搜索引擎,而实现搜索引擎的第一个问题就是如何获取各个站点提供的资源信息。本次设计的题目为FTP搜索引擎爬虫模块,其用途就是搜集各个FTP站点的数据信息,并且组织成一个特定的数据格式,索引模块得去这组数据之后,利用再次处理这些数据,建立索引数据库。

3.2功能模块设计

3.2.1网段扫描

设计思路。

经过查阅资料,由于FTP搜索引擎与WWW搜索引擎最大的区别就在于FTP站点内没有与WWW页面相对应的超链接,因而FTP搜索引擎的站点获得策略就不能模仿搜索引擎业非常时兴的超链分析技术。在本次FTP搜索引擎爬虫模块的设计里,我采用了IP扫描技术和手工添加技术的中和。一方面,程序一开始会读取系统的配置文件,获知本次扫描的网段范围,在对配置文件进行数据效验通过之后,程序会调用相应模块生成该网段中所有的等待访问的IP地址。另一方面,程序本身维护有一个IP站点列表,该列表中会保存用户手工配置的以及上一次扫描成功的IP站点,该IP列表中包含有提供FTP服务站点的IP地址和端口号。

3.2.2获取数据

(1)设计思路。

这一部分的实现虽然比较复杂,但是设计思路却较为简单,首先需要向目标站点发送数据请求。FTP站点会根据请求回传的数据,若请求有误,则会回传错误信息。

(2)获取文件列表。

设计思路:使用List命令获取文件和目录列表,根据回传的数据中包含有标志位,说明了该文件名表示的是目录还是文件。

在此处遇到了一个服务其兼容的问题,测试时发现FTP服务器返回的数据格式风格不同,如IIS和Serv-U,IIS返回的数据为Windows风格,而Serv-U返回的数据则是Linux风格,因此这里对于返回数据的处理不可能用同样的方法,具体解决方法请参见下文3.2.4服务器兼容中的描述。

(3)获取目录列表。

设计思路:使用List命令获取文件和目录列表,根据回传的数据中包含有标志位,说明了该文件名表示的是目录还是文件。

在此处遇到了一个服务其兼容的问题,测试时发现FTP服务器返回的数据格式风格不同,如IIS和Serv-U,IIS返回的数据为Windows风格,而Serv-U返回的数据则是Linux风格,因此这里对于返回数据的处理不可能用同样的方法,具体解决方法请参见下文3.2.4服务器兼容中的描述。

(4)获取文件大小。

设计思路:使用SIZE命令获取指定目录下指定文件的大小,根据回传的数据中包含有标志位,说明了该命令是否执行成功,若执行成功,则获取了文件的大小。

(5)文件分类。

设计思路:在配置文件中建立一个文件分类列表,由于文件的类型划分是根据文件的后缀名进行的,因此单独将文件的后缀名分离出来,对照文件分类表进行类型匹配。若匹配成功则返回类型编号,若失败,则返回一个默认编号。

3.2.3关于编码问题的解决

解决方法。

.net提供了Encoding的方法进行编码的转换,于是我尝试将传送数据的编码由ASCII转换为GB2312。因为ASCII编码不支持汉字,而GB2312支持汉字。结果最终发现当发送的字符转换为GB2312后,FTP服务器仍然不能正确解析,获取文件大小以及最后修改时间是仍然会发生错误。

之后又尝试将编码方式改为UTF8编码,结果仍然是不能解决汉字问题。如果FTP搜索引擎的爬虫部分不能有效的获取带有汉字的文件数据,那么它的实用性将大大的降低。经过几天尝试和查阅网上资料,发现编码问题应该是可以解决的,网上也有人提供了使用其它方式实现的支持汉字的FTP类。由于改动这个FTP类会对本程序造成较大的改动,所以我仍然决定在现有的基础上对程序进行修改。

经过努力,最后终于找到了修改的方法,代码的修改其实很简单,却很容易让人忽略,其方法为将代码Encoding ASCII=Encoding.ASCII改为Encoding AS-CCI=Encoding.Default。经此修改,虽然在有些服务器上仍会出现汉字的乱码,但是却能成功的使用这些获取的数据向FTP服务器发送请求。而且这些乱码也可在数据获取完成后使用转码的方式进行修正。

3.2.4服务器兼容

解决方法。

如何解决兼容性问题是程序开发中的一个难题,在本次设计开始之初,我就考虑过这个问题,尽量的使用了标准的命令来对服务器进行操作。然而虽然使用FTP命令后对服务器的操作实现了兼容,但是回传数据没有兼容。因此不得不对回传的字符串进行分析。

两个服务其回传的数据的差距是十分巨大的。但是经过观察,两组数据的相同点也有很多,比如各组数据在其中所占的字符数大致相同(文件名除外),这为我从中提取有效数据带来了很多便利。

另外,要区别这两组数据也并不困难。IIS回传数据的开头始终是日期,而Serv-U的开头始终是Linux风格的权限标识。利用这个特点,可以较为容易的将他们区别开来。

由于回传字符串的问题,对于这两种风格的字符串必须分别编写代码对它们进行解析。经过分析,各组数据都有一个共同的特点,就是其中的间隔数是相同的,利用这一点,可以从字符串的指定位置提取出需要的数据。

3.2.5生成数据文件

生成的数据源文件主要用于为后面的建立索引做准备。

设计思路。

这部分功能主要是将爬虫模块获取的文件按照指定的格式存为文件,以便为建立索引,方便检索。由于前期已经将实现将爬取的数据分目录暂时存在内存中。因此这部分的工作主要就是将内存中的数据按约定格式写入文件。

3.2.6生成站点列表

设计思路。

将连接成功的FTP站点保存在一个List类型中,在程序执行完成之后,所有成功获取到数据的站点存到一个名为ipList的文件中。以便之后用户的使用和查阅那些能够提供FTP服务的站点。

4 FTP搜索引擎索引模块详细设计

4.1格式化数据

设计思路:在得到倒排索引前,首先就要对原始数据进行特殊的处理。因为如果直接从原始数据得到索引,这样执行的效率会很低,而却实现起来也会比较困难。因此,提前执行一次数据处理,这样在后面建立文件索引时效率会有效的提高。

4.2汇总属性文件

设计思路:文件的10操作通常会耗费大量的时间,由于源文件分散在各个目录中,因此在读取时不可避免的会频繁的打开和关闭文件进行操作。因此我在这里将属性文件汇总,这样所有的有效数据都集中在了一个文件中,最大限度的减少了10操作的发生。

4.3双字母建立索引

设计思路:如何才能快速有效的从原始数据中找出用户需要的数据,这是索引部分索要解决的最大问题,经过查询资料,倒排索引是目前各大搜索引擎所常用的索引建立方式。在数据检索时,用户常采用关键字搜索的方式,因此,在建立索引时我们采用了同样的方式建立了索引数据库。

4.4索引数据库

搜索引擎是对大量的数据进行处理,因此用到数据库是必然的。数据库的重点功能在存储。查看资料发现某些搜索引擎是采用标准的数据库来存放索引数据,但是当数据量达到千万级的时候再执行SQL语句,速度将会变得很慢,特别是执行含有like的select语句时。比如一个采用MySQL存储的客户信息表数据记录达到500万行以上时,就算增加再多的索引,采用标准select语句执行查询时,所需时间至少也在2分钟以上,Oracle数据库虽然可以采用分区,或采用Ora-cle的内置函数来辅助查询,但时间也在1分钟以上。而使用文件系统来存储时,这样的查询耗时一般就是零点几秒。

4.5字符编码

由于ASCII编码并不支持汉字,因此不能选用其作为索引文件的编码。UTF-8的编码方式虽然应用广泛,但是其编码的方式较为特殊,因此最后我选用了GB2312的编码方式作为搜索引擎文件的统一编码。

5总结

此次论文的题目在此之前虽然有所了解,但是我却从来也没有深入的学习思考搜索引擎爬虫模块的实现方式,如何从浩如烟海的站点中找到提供FTP服务的站点,FTP站点如何匿名登录等等一系列的问题在此之前,都没有进行系统的了解。因此,在本次论文开始时,我也曾怀疑自己能否顺利的完成此次论文。毕竟平时一直认为网络爬虫的实现都是一些高手才能实现的,而我自己仅仅是一个在校的大学生。

搜索引擎研究篇3

[关键词]高校学生 搜索引擎 使用行为

[分类号]G20

1 引言

自20世纪中叶以来,对用户信息需求及相关信息行为的研究日益受到研究者的广泛关注。1959年Bruce Westley和Lionel C.Barrow提出,用户信息查寻模式应重点研究个体对信息查寻时的心理行为与确认决定行为的因素上。他们把“信息查寻”当做因变量,试图找出其影响因素。此后,来自图书情报学以及新闻传播学领域相关的研究层出不穷。特别是近年来随着网络信息环境的发展,用户信息查寻行为的研究更逐渐成为当前图书情报学以及新闻传播学的一个热点。英国牛津大学出版社出版的著名的传播学期刊Human Communication Research 2002年第28卷第2期出版了针对用户信息查寻行为进行探讨的专辑。同时,在国内也有一些研究者注意到了网络信息环境中用户信息查寻行为的研究价值。陈力丹就曾指出:“传统的讨论用户寻找、处理所需信息的复杂过程(心理的、程序的和策略的)的‘信息查寻模式’理论,对于分析在互联网上查寻信息时的用户状况就有重要参考价值”。

本文将研究的重心聚焦于目前网络信息查寻中备受研究者关注的搜索引擎使用行为。搜索引擎由于其独特的功能及效果,是目前互联网服务中最受经营者和使用者关注的一种服务,对它的研究将有助于进一步提高搜索引擎的功效,同时也有助于深入了解网络用户的使用行为,认识和把握这些行为将会为网络信息资源管理以及网络传播服务的改进提供参考依据。

CNNIC2010年7月最新公布的中国互联网发展状况统计报告显示,中国的网络用户已达到4.2亿,其中30岁以下网民占到近60%。在这个年龄群体中,最具代表性的应该是大学生,他们也是中国最先接触和最先接受互联网的群体之一。因此,本文选择大学生这一特殊群体作为研究对象,希望通过对大学生搜索引擎使用行为的研究,丰富我国网络用户的研究。

2 文献探讨

关于搜索引擎使用行为的研究目前深受关注,大部分的研究者都会基于特定搜索引擎的检索日志记录来分析用户的检索行为。例如早期Bernard J.Jansen通过对五个搜索引擎(Alta Vista,Excite,FAST Search,Infoseek,Northern Light)的记录分析,研究了检索提问式的复杂性对检索结果的影响,发现提问复杂性的增加对检索结果的改善并不大,从学习使用高级检索所付出的努力和可能出错的危险来看,可以放弃对复杂提问式的要求。他提出网络信息检索服务应在检索界面和结果的排序机制上大下功夫,以迎合用户的检索习惯。

之后,Eastman等人通过大量试验并与搜索日志进行对比分析,发现高级搜索方式的作用并不像大家想象的那么乐观。他们主要对“AND”、“OR”、“MUSTAPPEAR”以及“PHRASE”四种高级方式进行观察,发现采取高级搜索方式确实影响了搜索的范围(Cover-age),但是搜索结果的相关度(Relevance)并没有显著增高。Zhao等人通过分析搜索日志,发现搜索流量的周期性规律,并对搜索日志中的查询和对应点击的URL建立无向有权连通图,采用图论的相关算法检测特殊事件的发生。

近年来,王建勇等人通过对我国天网中英文搜索引擎的查寻日志的分析得出用户查寻行为的分布特征。他们分析了相邻N项查询词的偏差,发现用户查询项分布过程具有自相似性,并以此提出高速缓存替换策略。此外他们还分析了网页被访问次数与网页的镜像数、网页的人度以及网页目录的深度之间的关系。邓小昭则对用户使用中国知网(CNKI)和Google中文搜索引擎的查寻行为进行了研究。余慧佳等人对Sogou搜索引擎在一个月内的近5000万条查询日志进行了分析,分别从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。陈红涛等人也针对Sogou搜索引擎一个月内的日志重点分析了用户输入搜索词的一些规律,还提出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。

此外,也有部分研究者从使用者的角度分析用户选择检索工具的考虑因素。通过问卷调查,JasonVaughan归纳出两类影响人们选择检索工具的因素:①方便性因素,即用户使用检索工具的容易程度,涉及到检索工具的界面设计、帮助文件的提供、检索速度、用户过滤检索结果的意愿、返回结果的显示格式等因素;②效用性因素,即结果的有用性、全面性和准确性,它包括检索结果的数量、结果的准确性、想要的结果出现的位置、检索功能项的多少及灵活性、数据库标引的扩展性、数据库覆盖面的广泛性、数据的时效性等。

Dania Bilal对少年学生利用搜索引擎的认知行为和物理行为进行了研究,发现这些学生在信息检索上都存在困难,犯有各种类型的错误,包括在不支持自然语言检索的系统中使用自然语言来构建提问,检索提问太宽泛或太狭窄,拼写错误,忽略相关链接,很少浏览相关信息,等等。

综观目前关于搜索引擎使用行为的研究,可以发现从使用者角度进行的搜索引擎使用行为的研究主要集中在国外,他们的研究结果,由于网络用户文化之间的差异,并不能完全适用于我国的网络用户;同时目前也较为缺乏对特定用户群体的研究。理论上而言,不同类型的用户群体,由于其社会文化背景的差异,其使用搜索引擎的行为特征也是不相同的。

有鉴于此,本文以目前中国网络用户中最普及的群体――年轻人为研究对象,选择大学生群体进行搜索引擎使用行为的研究。

3 研究目的与研究方法

3.1 研究目的

就高校学生而言,也有着多层次的网络用户群体,可依性别、专业、教育程度、网络经验等的不同进行划分。本研究的目的,一方面试图揭示高校学生利用搜索引擎查找信息的外在行为方式和习惯表现,了解他们对搜索引擎使用的基本情况;另一方面也希望能揭示不同层次的学生用户在搜索引擎使用方面的共同点和差异性,探究影响大学生搜索引擎使用行为的个人特征因素。

具体来说本研究能达到以下目的:①了解高校学生网络搜索引擎使用的基本情况;②了解高校学生的基本特征,如性别、网络经验等与其搜索引擎使用的相关性;③了解高校学生对现有搜索引擎服务的评价。

3.2 问卷发放及回收情况

为了对网民使用搜索引擎行为有一个比较准确的掌握,此次研究以南京大学浦口校区全体本科生为样本框,按照严格的社会学统计方法进行,采取了系统随机抽样法,在全浦口校区8 528名学生中抽出了213名同学为样本,发放问卷。

此次问卷的发放共发出213份,回收问卷189份,回收率为88.73%;其中有效问卷179份,问卷有效率为94.71%。利用社会科学统计分析软件SPSS13.0对有效问卷的数据进行统计描述及进一步的相关分析。最后,为进一步了解某些问题的具体原因,笔者还进一步访谈了部分学生。

4 数据统计与分析

4.1 基本情况统计

本次调查男性占63.1%,女性占36.9%。上网时间上,每周上网时间控制在10小时以内的同学居多,占总样本的75%。大部分同学常用的搜索引擎是百度和Google。专门的搜索网站受到的关注远远大于各大门户网站,如表1所示:

也就是说,在进行信息搜索行为时,大学生群体较多倾向于选择专门的搜索网站。在之后对部分调查对象的访谈中了解到,大多数人认为专门的搜索网站可以提供更全更好的信息。

搜索引擎的获知情况中,通过别人介绍和通过常去网站的链接获知的比例为最高。调查对象中只有5.6%的人是通过有关课程学习来获知搜索引擎使用方法的情况,这说明学校缺乏网络知识的传授,绝大多数学生网络经验都是靠自己摸索出来,而非课堂中学来的。实际上,尽管网络信息的检索和利用操作性非常强,但如果老师先在课堂上传授一些基础性知识,比如说网络信息资源的组成、搜索引擎的工作原理等,显然能让学生在选择检索工具、制定检索策略上更得心应手。缺乏系统的培训,是目前学生网络检索技能不足的一个重要原因。

在所有的搜索内容中,科技教育的搜索频次最高。这主要表现在大学生群体由于课程、论文等学习的需要,查询网络上相关资源。应该说,这是大学生群体所特有的现象。这一点与Joy Tillotson等人的研究结论有很大的不同。他们发现“真正上网查找学术资源以研究生和教工为主体,他们往往为研究、论文和教学的目的上网检索相关信息,而本科生则多数以个人兴趣为出发点”。但是,在此次所做的针对大学生的调查中却发现,大学生上网有很多是为了搜寻学术资料。至于其原因,可能是与中国的教育体制密切相关。

4.2 大学生搜索引擎使用技巧情况分析

数据显示,在调查对象中,只有4.5%的人总会或经常会阅读帮助文件,36.3%的人偶尔阅读,而59.2%的人从不阅读。为了提高搜索效率,绝大部分搜索引擎都会提供高级搜索功能,但从调查的结果可以看到,只有30.2%的人总会或经常会使用这一功能,而69.8%的调查对象却只是偶尔或从不使用高级搜索功能。在关键词的输入上,有89.9%的人会不同程度地一次输入一个以上的关键词,与仅输入单一词用户的比例高达9:1,这说明高校学生在搜索网络信息时,很注重利用一个以上的单词组成词串或词组来表达完整的检索概念。然而多数人只是简单地把词堆放到一块,仅有15%的学生用户总会或经常会使用逻辑检索功能,有54,7%的学生则完全没想过利用逻辑符号来进一步增强检索式的灵活度和专指度。如表2所示:

上面几组数据表明人们对高级检索功能的利用率并不高,不管是高级检索界面的使用,还是高级检索符号的利用。进一步的访谈得知其原因有:对高级检索功能不熟悉;简单检索已经可以找到自己要找的内容,没必要再用什么高级检索功能;高级检索用处不大。实际上,充分利用高级检索功能对于节省检索时间提高检索精度是非常有效的。然而普通用户并不能体会检索系统设计人员为设计高级搜索功能而付出的努力,甚至对此不以为然,怀疑高级检索功能的效用。显然,要充分利用高级检索功能必须先让用户了解和掌握这些功能,也就是说在系统人员努力让高级功能的使用变得更简洁和易用的同时,应重点考虑通过怎样的方式和渠道来增加用户对高级检索功能的了解,并引导和帮助他们有效使用这些功能。

绝大多数搜索引擎都提供在结果中二次检索这一功能,二次检索较上面所说的高级检索更方便使用,所以在搜索引擎经常性返回成千上万条检索结果的情况下,人们很容易就想到利用二次检索。这可以从数据中看出来,总会和经常会使用二次检索的学生用户高达53.7%,而从不使用这一功能的人仅占10.1%。如表3所示:

按双侧检验,检验水准0.05,该相关系数具有统计学惹义。

上表中p值均大于0.05,说明性别、院系、周上网时间与搜索引擎使用技巧之间并不具备统计意义上的显著相关。也就是说,性别的差异、院系差别以及每周上网时间与搜索技巧之间没有必然的联系。男女生对搜索技巧的掌握是差不多的;专业的不同对于搜索引擎技巧的掌握也没有产生影响,尤其关注的计算机系与软件学院这两个与网络直接相关的院系,其搜索技巧的掌握程度并不比其他院系的学生高;这可以理解为,教育程度、背景的相近性,弱化甚至是淡化了以上这些差异所带来的搜索引擎使用方面的差别。

上网频率与关键词输入以及逻辑检索功能的使用情况具有统计意义上的显著相关。如表4所示

上网频率较高的学生,对于搜索技巧的掌握程度比上网频率低的学生要高。具体体现在关键字的输入和逻辑符号的使用方面。数据表明,上网频率较高的学生,对于搜索引擎技巧的掌握要好于上网频率较低的学生。同时,上网频率较高的学生更容易成功查询到自己所需要的信息。对于搜索技巧应用的总体看法,上网频率为1~3天上一次网的学生评价最高,每天上网的次之。

4.3 对搜索结果的处理情况

调查结果显示,大学生在浏览搜索结果时最多的是点击查看1-3页返回结果,占44.1%;其次是4-7页,占28.5%;一定要查询到自己满意的信息的则占22.3%。这一结果与类似的研究有一定的相似之处。iProspect的搜索引擎用户行为调查结果也显示,62%的用户只点击搜索结果页第一页的结果,而高达90%的用户只点击搜索结果前三页的结果。当前三页的结果不能满足用户需求时,41%的用户变换搜索词或者转而访问其他搜索引擎继续搜索。这主要是由两方面原因造成的:①用户的惰性,即用户无意去检索更多的信息;②搜索引擎每次返回的检索结果集合太大,需要分页显示,一般用户在浏览过程中很少会点击查看后几页的网页信息。

从时间上看,不愿让检索时间超出半小时的人居多,共占74.9%,其中只愿花费不到10分钟时间的人占39.1%,为数不少。对这些意欲在10分钟以内结束查找的人,可以说他们甚至不在乎是否能找到与自己需求完全相关的信息,时间成为他们结束一次检索的重要因素。调查对象中愿意花费一小时以上时间来查找信息的人只占2.2%,完全不考虑时间因素的人占

15.6%,显然这两部分人关心的是信息本身而非时间,尤其是后者,对检索结果的满意与否成为决定检索结束与否的唯一因素,而这种满意是建立在自己的需求是否得到满足,也就是所检信息的质量和数量之上。

性别与翻看搜索结果页数之间具有统计意义上的显著相关,如表5所示:

对于翻看搜索结果的页数,男生的耐心明显小于女生。绝大多数男生表示只愿意翻看1~3页,而女生则愿意为达到自己的搜索目的付出更多的时间。这可以用认知心理学的理论来加以解释,人的认知类型可以分为两种,一种为场独立型(Field independent,FI),一种为场依存型(Field dependent,FD)。前者能够在复杂的情景中理清问题的脉络,将原本无结构的领域变得结构化,进而迅速地抓住问题的主线。而后者则更多地以一个观察者的身份看待问题,他们关注更多的线索而不仅仅是解决问题的主线。显然,FI类型较FD类型的人在信息查找上花费的时间更少。心理学认为,一般来说男性比女性更具场独立性,这也是解释为什么查看结果的数量在性别上表现出显著差异的原因。

周上网时间与花费时间之间具有统计意义上的显著相关,如表6所示:

每周平均上网时间越长的人,越愿意花更多的时间用以搜索。可以这样来解释,计算机知识和网络经验越丰富的人,越习惯于长时间坐在电脑跟前,也就越不容易因长时间面对屏幕而生厌,即便有厌倦感也较一般的人来得迟。作为一种惯性,很自然他们对信息的查找就不太计较时间的长短。

4.4 对搜索结果的满意度情况

从调查数据来看,对检索效果的评价呈两端少中间多的分布。绝大多数人抱有比较满意和无所谓的态度,分别占44.7%和36.9%,不太满意的占12.8%,而非常满意的仅有8人,占4.5%,完全不满意的更少,只有2人,占1.1%。可以说学生用户对网络信息资源的检索效果基本上是肯定的。

相关分析发现上网频率与对搜索引擎的总体看法之间具有统计意义上的显著相关(见表7)。也就是说,上网频率较高的学生,对于搜索引擎的满意度相对比较高。联系上文的相关分析可以认为,由于上网频率高的学生对于搜索技巧的掌握情况相对较好,比之其他同学能搜寻到更多更好的信息,因此满意度电相应的较高。

5 结语

5.1 大学生使用搜索引擎行为的外在表现

大学生所用搜索引擎较集中,其中最常用的搜索引擎是百度和Google。专门的搜索网站受到的关注远远大于各大门户网站。而且有相当多的调查对象表示他们是由别人介绍和通过常去网站的链接才获知搜索引擎的使用的。在大学生利用搜索引擎搜索时,最常见的是进行科技教育内容检索。当然这可能是大学生群体所特有的现象。

在使用搜索引擎时,大学生普遍不怎么阅渎帮助文件,跟这一情况密切相关的是使用高级搜索功能的大学生也不是很多。但是在关键词的输入上,大学生们却很注重利用一个以上的单词组成词串或词组来表达完整的检索概念;然而多数人只是简单地把词堆放到一块,仅有15%的学生用户总会或经常会使用逻辑检索功能。

在对搜索结果的反映上,绝大部分的大学生点击查看7页以内的搜索结果,从时间上来看,不愿让检索时间超出半小时的人居多,共占74.9%。另外,对检索效果的评价呈两端少中间多的分布。绝大多数人对利用搜索引擎查询信息的结果抱有比较满意和无所谓的态度,大体上说大学生用户对网络信息资源的检索效果基本上是肯定的。

5.2 影响大学生搜索引擎使用行为的因素

在大学生使用搜索引擎的过程中,有一些个体特征是会对此产生一定影响的,根据相关性分析可以看到,上网频率会对大学生在使用搜索引擎时关键词的输入情况以及逻辑检索功能的使用情况产生影响。上网频率较高的学生,对于搜索技巧的掌握程度比上网频率低的学生要高。具体体现在关键字的输入和逻辑符号的使用方面。而性别则与翻看搜索结果页数之间具有相关性,男生的耐心明显小于女生。绝大多数男生表示只愿意翻看1~3页,而女生则愿意为达到自己的搜索目的付出更多的时间。

另外大学生每周上网时间对大学生愿意花费多少时间去浏览检索结果会产生影响。每周平均上网时间越长的人,越愿意花更多的时间用以搜索。可以这样来解释,计算机知识和网络经验越丰富的人,越习惯于长时间坐在电脑跟前,也就越不容易因长时间面对屏幕而生厌,即便有厌倦感也较一般的人来得迟。另外相关性分析还发现上网频率与对搜索引擎的总体看法之间具有统计意义上的显著相关。也就是说,上网频率较高的学生,对于搜索引擎的满意度相对比较高。

搜索引擎研究篇4

关键词 计算机 搜索引擎 智能化 技术

中图分类号:TP3 文献标识码:A

0前言

搜索引擎也可被称作一种程序,通过对用户提供的关键词进行计算、分类、搜索、返回,达到向用户推送需要信息的操作。但搜索引擎会因为数据库信息庞大、语言信息复杂、SEO作弊优化等情况降低搜索效率及准确性,所以搜索引擎加入智能化技术势在必行。

1计算机搜索引擎计术

1.1搜索引擎原理

计算机搜索引擎的来源是根据数据库内相关内容的搜索操作发展而成,目前的搜索引擎已经不再局限于数据库内相关内容的搜索,发展到针对互联网搜索的操作。

搜索引擎技术种类繁多,我们常用的有综合门户类(百度、谷歌类)和链接评价类。无论哪种技术都是用户通过对关键词的设定在搜索互联网数据库中进行搜索,并能搜索到准确或备用信息返回给用户。

这种搜索是利用SPIDER蜘蛛在互联网内各种开放性信息之间进行搜索,我们称之为SPIDER蜘蛛机器人。蜘蛛爬行搜索是根据提供的关键词,起始一个URL列表,利用链接形式进行整个互联网的搜索,有的网站在ROBOTS文件中设置禁止蜘蛛爬行,这不属于公开信息类,所以蜘蛛在搜索过程中将此类网站排除。直至URL列表为空或数据库磁盘已满,搜索终止。

1.2搜索引擎的障碍

搜索引擎目前具有一定的局限性,由于信息分类不够准确、信息排序能力不强或信息更新速度慢、信息评价无作用等情况阻碍了搜索引擎的发展。

信息分类不够准确,因为在对信息建立时便不能准确处理,信息内容复杂,类别自然多样化。当关键词出现的概率和信息类别、信息内容处理不平衡时,导致信息分类不准确。

人们现在所使用的搜索引擎,实际上为准确排序做了优化工作。但由于SEO优化过程中很容易投机取巧、进入极端优化,导致搜索引擎在排序方面出现错误。某些网站在做SEO优化时采用作弊行为优化排名,这种行为在搜索引擎中很难被发现,所以会出现作弊网站的排名至前。众所周之,互联网的信息量巨大,为我们提供很好的生活帮助,但也是由于信息量过大,导致一些信息更新不及时,经常会发生一些信息不能跟进实时搜索或者信息搜索位置不变等情况。

搜索引擎的障碍还体现于搜索引擎中收录的信息评价能力弱,举例说明,网站上设置多个关键词,基本类似,这样可以增加搜索引擎的收录和排名,但这种收录情况对用户基本没有用处。目前计算机搜索引擎还未能对信息进行客观评价,从而筛选出关键词和信息内容相匹配的信息。

2搜索引擎智能化技术分析

当计算机搜索引擎发现诸多障碍时,人们必须及时解决这些障碍。计算机搜索引擎融入智能化技术后,从原有的基础算法更新到智能知识层面的算法,实现与用户之间自然语言的智能搜索。

2.1智能搜索引擎的特点

2.1.1智能属性

融入智能搜索引擎后蜘蛛爬行过程中将对信息进行自动索引并分析,对搜索结果更清楚准确,将更有价值的搜索内容存入到数据库中。

2.1.2主动属性

智能搜索引擎通过对用户的搜索,主动对用户进行分析,及时调整用户所用信息。

2.1.3交互属性

智能搜索引擎会通过语音识别技术将用户的语境进行分析,准确的把握用户和需求。

2.1.4个性化属性

智能搜索引擎能够让用户随意定制不同的起始页,或将常用网站或内容放至网站首页等。

2.2智能搜索引擎技术分析

通过上文描述,智能搜索引擎技术中包含两种技术,机器翻译与语义理解技术。机器翻译是将文字语言和计算机语言进行转换,功能特别适用于使用方言或外语进行搜索时,计算机会通过语言形式进行计算机语言的搜索,然后将搜索到的信息从计算机语言翻译到输入语言形式呈现给用户。语义理解是利用语音识别技术实现对语音的词语、声音、语调进行分析并准确理解。

计算机搜索引擎对语言识别能力已经非常准确,但加入智能化技术的搜索引擎会更加准确的把握关键词、短语和语境的理解技术。汉语分词技术、短语识别技术、同义词之间转换等都加强了计算机搜索的功能性。

3结论

目前很多搜索引擎已经融入了智能化技术,搜索引擎算法一直更新,使用云搜索处理技术为人们提供了更多样化的服务。智能化搜索引擎能够更准确、迅速的为用户提供信息,同时也可以排除网站在SEO优化方面的作弊情况,让网络信息更加优质。

参考文献

[1] 王伟.搜索引擎智能化技术中若干关键问题的研究与实现[D].河北:河北科技大学,2011.

[2] 许武权.基于Web文本信息的智能检索系统的设计与实现[D].北京:电子科技大学,2011.

[3] 郑文良.基于简单本体的农业P2P搜索引擎关键技术研究[D].沈阳:沈阳农业大学,2013.

搜索引擎研究篇5

互联网对商业发展产生了巨大的推动作用,我国商业信息网站已经发展到成千上万家,在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”现象引起了人们的重视。如何高效、准确的获得包含用户所需的信息的网页,日益成为需要迫切解决的问题。

垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息,从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长,大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。

二、国内外现状与发展趋势

垂直搜索引擎大都处于研究和试验阶段,利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外,对有关主题搜索引擎的研究已经成为一大热点,我国主题搜索引擎的研究则刚刚起步。

目前面向主题的网络搜索主要有两种技术:

一是基于内容的搜索,这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。

二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似,通过对链接进行分析,可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关,所以就可以很容易地按照引用关系对大量网页分类。

三、技术关键

基于面向商业的垂直搜索引擎服务具有其自身的特性,下面列举出实现商业信息垂直搜索引擎的四大关键技术。

1.针对性、实时性和易于管理的网页采集技术:面向商业的垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中,但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加针对性、实时性和易于管理,并且网页信息更新周期也更短,获取信息更及时。

2.结构化数据的网页解析技术:由于面向商业的垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页定内容的提取。在商业垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。

3.全文索引和联合检索技术:面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式。另外,还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。

4.智能化的文本挖掘技术:面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动重排,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。四、设计方案

1.技术路线。采用如下的研究开发路线:

(1)针对商业信息的分布特点以及用户的实际需求,在充分调研的基础上,详细了解和比较其他研究人员在类似领域取得的一些重要而有一定创新性的成果,在此基础上初步提出平台的整体架构。

(2)结合面向对象设计技术,对上一步设计出的平台进一步细化,从而明确对该项目所采用的具体设计模式。

(3)根据设计模式所面临的具体问题(例如,如何提高爬行速度问题、系统资源限制问题、网页分类器问题、HTML文档解析问题等)给出有效的解决方案。

(4)将以上的方案付诸实施,形成一个面向商业的信息查询与共享平台;同时对系统的各种参数进行进一步测试,不断地完善和优化,最终形成一个界面友好、响应速度/查全率/查准率均符合用户要求的面向商业的垂直搜索引擎。

2.创新点。为达到商业信息搜索引擎预期的响应速度、查全率和查准率,在系统的开发中有如下创新点:

(1)系统总体为模块化结构,各个模块之间高内聚,低耦合。

(2)系统使用面向对象语言开发,能够有效地重用系统部分代码。

(3)在设计过程中,使用面向对象的思想做指导,建立系统类图,便于开发人员之间的交流。在编码过程中,不断重构代码,使得代码具有很高的运行效率,大大提高其重用性。

(4)系统集成时,使用XML文档作为模块间传递信息的工具。

搜索引擎研究篇6

以下为搜索用户的使用习惯:

4.5.1 搜索用户搜索的内容分析

结合中国网民整体的网络应用娱乐为主的特征,搜索引擎的使用以娱乐休闲为主要目的。以休闲娱乐为目的的搜索中,音乐搜索的使用率最高,达39.5%;而影视、视频、游戏搜索的使用需求增长较快,这一现象说明了人们消费影视、视频媒体的习惯正在快速发生改变,而音频、视频、图像搜索等成为未来搜索技术发展的主流。

值得关注的是:随着互联网域名解析技术的不断发展,人们到达网站、网页的途径越来越便利和简化,而通过搜索引擎查找网站、网址、网点的用户所占比例大幅下降。

搜索引擎研究篇7

关键词:企业信息门户;搜索引擎;数据采集;信息搜索;分类;聚类

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)31-7574-02

Study on Enterprise Information Portal Search Engine

FENG Shu-wen1,ZHAN Ying1,LI Yi-wei2

(1. Automation Research Institute of Lanzhou Petrochemical Company,Lanzhou 730060,China;2.Oil and Gas Storage and Transportation Branch, Petrochina Xinjiang Oilfield Company, Karamay 834002,China)

Abstract:EIP is an application framework of enterprise information system. It supplies user a platform which integrates with all kinds of application systems, data and network.. Facing the accumulated data and distracted information, we must introduce EIP search engine to supply a fast, effective search function. EIPSE integrate all the enterprise information resource and improve efficiency in application and accession to enterprise information system. EIPSE enforce the construction and application of EIP, improve the level of decision making.

Key words:enterprise information portal;search engine;data acquisition;information research;categorization;Clustering

企业信息门户(EIP,Enterprise Information Portal)是在Internet的环境下,将各种应用系统、数据资源和互联网资源统一集成到一个信息管理平台之上,并以统一的界面提供给用户,是企业信息系统的应用框架。EIP提供对企业的内部、外部各类信息的访问,协助企业提高决策水平、优化生产运作。面对门户建设中积累的海量数据,以及门户技术本身导致的信息不能有效分析、缺乏统一规范、可拓展性差等问题,提供快速、高效检索的功能成为企业信息门户亟待解决的问题。

由于通用搜索引擎存在信息冗余量大、搜索深度不够、搜索精度差、海量信息无序化等问题,无法满足企业对于搜索结果精确度和信息保持最新性的要求等。因此,直接使用通用搜索引擎进行企业信息门户的信息检索并不合适,需要结合企业自身特点和需求开发专用的企业信息门户搜索引擎(Enterprise Information Portal Search Engine)。

1 企业信息门户对搜索引擎需求

通过企业门户搜索引擎与互联网搜索引擎的比较,并结合本企业自身特点,提出企业信息门户对搜索引擎的需求。如表1所示。

本企业信息门户对搜索引擎的需求主要包含以下几方面:

1)搜索引擎必须将门户网站的所有信息都索引进去,支持office系列、txt、PDF等多种文档格式抓取;支持微软AD域的权限模型抓取;支持zip、rar、tar等压缩文件的采集。

2)数据采集之后,对于相应的数据更新,要具备灵活的机制,保证数据的质量与完善,搜索引擎的索引能够及时反映企业信息的变更。

3)系统应提供强大的智能内容搜索功能,搜索方式除了涵盖传统的关键字、布尔表达式、字段匹配搜索等外,还需要支持概念搜索,训练搜索,搜索导航,搜索聚类,甚至能对用户搜索偏好和对结果拟合度的选择进行学习,以提高搜索结果的准确度和价值。

4)系统要对采集到的全部信息进行内容挖掘,实现自动化处理,包括自动分类、聚类。

2 EIPSE设计

2.1 EIPSE的设计原则

1)标准化:遵循技术标准化、结构标准化、数据标准化等相关要求。

2)开放性:系统在体系结构、硬件产品、软件产品、数据交换协议等方面,充分利用开放平台,保证系统具有较好的互操作性、可移植性。

3)可扩展性:软硬件配置具备动态平滑扩展能力,可以通过调整系统框架和相应服务单元的配置,适应业务量的变化。系统架构在开放的、安全应用支撑体系结构之上,具有良好的可扩充性。

4)技术的先进性和成熟性:采用先进和成熟的技术,满足系统在生命周期内具有持续的可维护性和可扩展性,获得更高的发展起点。

5)安全性:充分考虑系统安全性设计,保障数据备份、应用流程、权限管理等各个环节的安全性。在设计系统结构时,各个层次都充分考虑到系统的冗余配置和灾难恢复。

6)可管理性:采用合理的系统体系结构,实现对系统的集中管理和监控。

2.2 EIPSE的架构设计

智能内容搜索服务平台是架构于智能数据处理层(Intelligent Data Operating Layer,IDOL)上,其核心是建立在独特的信息论和概率论的基础之上的模式识别技术,抽取概念和内容挖掘后,为提供多种的搜索应用服务。因此,系统总体架构按照实际应用的流程实现,即从数据的采集和处理,索引和分析、应用与三个层次实现,设计结构如图1所示。

2.3 EIPSE的功能设计

为了充分实现本企业信息门户强大的搜索功能,整个系统主要实现数据采集、信息搜索、分类、聚类、个性化、自动关联以及部分可视化的管理功能。

2.3.1 数据采集平台

数据采集平台是整个系统的基础,是系统对外提供内容服务的源泉,主要从各种数据源(包括文件系统、数据库、内部其他系统以及独立信息源)采集信息。针对不同的数据格式,采用不同的方式,将各数据孤岛的信息采集过来,用于资源平台的整合与使用。如图2所示。

2.3.2 信息搜索

信息搜索包括关键字的搜索、标准搜索、高级搜索、联合搜索、参数搜索、自动摘要等功能。参数搜索可以实现各元数据的统计和分析,并可以以柱状图、饼图、线图等图形形式进行输出,使用户实时了解搜索对象的数量特征。同时,系统可根据每篇文章中的主要概念,自动生成摘要。并且根据用户浏览内容或者检索条件,产生变化的动态摘要,使用户能够通过摘要来判断是否为所需信息。

2.3.3 信息分类

信息分类实现自动分类,精确地根据非结构化文本中的概念进行分类。自动分类是根据一些分类标准,将某个范围的信息内容生成分类树,根据不同的分类主题,用户点击相关的分类树节点即可查看结果。采用自动分类方法,克服了人工分类中信息检索不全面、更新速度慢的缺点,提高了用户的检索速度和检索准确度。

2.3.4 信息聚类

用户使用搜索引擎时会得到大量返回信息组成的线性表,其中很大一部分与用户的查询请求无关,通过对检索结果集合进行聚类,可以使用户检索结果相关的信息比较靠近。通过自动地分析采集过来的所有信息内容,把相似的文档聚类到一起,同时自动生成类别的标题, 以可视化的各类方式提供给用户,由用户选择浏览。

2.3.5 个性化

这里的个性化服务主要包括个性订阅、自动提示、推送等功能。通过用户自己设定感兴趣的内容范围与条件,系统根据用户的设定主题提供内容服务。同时系统能够自动维护用户档案,一旦发现有新的符合用户要求的信息,能够自动收藏到用户档案夹中,或者通过短信、邮件等手段来对用户进行提示。

2.3.6 模块监控管理

模块监控管理系统为内容搜索各模块提供关键的维护、管理、控制和监测功能,采用b/s架构方式从中央位置与所有内容服务(例如连接器、DIH、DAH等等)进行通讯。同时模块监控系统也提供了可视化的整体面板,使内容管理员能够对所有内容模块(或服务)操作进行本地或远程管理,提供可视化的参数管理、参数配置、模块监测、状态报表等。

3 结束语

本文是以某炼化企业正在实施的门户搜索引擎技术为主要研究内容,通过现有的搜索引擎技术进行简单分析,结合企业实际需求和自身特点,对该企业目前采用的门户搜索技术进行了深入研究。研究表明通用搜索引擎用于企业信息门户存在诸多缺陷和不足,只有针对门户搜索开发的搜索引擎具备较好的灵活性和可扩展性,才能满足企业信息化发展的需要。

参考文献:

[1] 周祥,王丽芳,蒋泽军.基于Lucene的企业信息门户搜索引擎设计[J].微机处理,2009(4):62-64.

搜索引擎研究篇8

【关键词】 比较购物 搜索引擎 Heritrix

随着网络商品的极大丰富和分类的细化,搜索引擎已成为购物信息的重要来源。比较购物搜索引擎是一种基于专业化的垂直搜索引擎,通过对电子商务网站或者部分实体店的商品信息进行采集和整理,向消费者提供特定准确的商品信息及相关辅助设施,减少信息不对称,优化购买决策;同时,帮助商家降低推广成本获得针对性极高的目标用户,是未来网络购物搜索的发展趋势。然而,目前国内的比较购物引擎普遍追求“大而全”,在细化用户需求和购物体验上较为欠缺。商品信息比较偏重价格方面,对影响购物体验的其他因素,诸如商家信誉、折扣降价、用户评价、退换条款等较少涉及。本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页,以期更好的细分消费者人群,有针对性地满足用户体验。

一、Heritrix和Sphinx技术特点

1.1 Heritrix工作原理

Heritrix是一款基于java 语言开发的开源网络爬虫,用于对网上的资源进行归档,建立网络数字图书馆,目前已经建立了400TB的数据。

Heritrix爬虫每次只对一张网页的内容深度复制,包括获取图像以及其它非文本内容,抓取并存储相关的内容。具体筛爬过程中,爬虫先从队列中取出下一个URL,通过HTTP协议将对应的网页爬取下来,然后解析内容,并且提取出包含的URL,将其中新发现的URL追加到队列中。最后将网页存放到本地磁盘的网页库中。爬取过程在积累到一定数量网页时即可终止,或者在队列为空的时候终止。

1.2 Sphinx工作原理

Sphinx是一个基于SQL的全文检索引擎,本系统所采用的是基于Sphinx研发并独立的Coreseek,是一款专攻中文搜索和信息处理的中文全文检索/搜索软件,它适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。Sphinx(Coreseek)整个系统主要由索引建立和维护程序(索引程序indexer)、查询服务程序(后台服务程序searchd) 、辅助工具程序(search, spelldump等)三大部分组成。

二、比较购物搜索引擎系统构建

2.1系统架构

系统整体架构由四部分组成:1)由Heritrix扩展而来的爬虫系统,负责从互联网抓取商品相关的信息。2)MySQL数据库,存储由Heritrix抓取的数据。3)Sphinx全文索引服务器,负责对商品建立全文索引。4)Tomcat服务器,负责向客户端提供搜索服务。具体系统整体架构图如图1。

在初始化阶段,Heritrix任务需事先通过配置和测试,确认后可由Linux系统通过Cron来自动调度。根据用户输入的商品信息,网络爬虫的每个抓取任务只负责单个购物网站数据的抓取,但每个任务的线程数量可由实际情况进行调整。筛爬启动和结束时间通过Bash脚本来监控,每隔一定的时间去检测相应的进程是否已经结束,如果某个抓取任务结束,则设定好下一次启动的时间间隔。在本文构建的模型中采用MySQL数据库存储筛爬的信息,但直接从MySQL数据库生成全文索引读取比较费时,因此采用基于SQL的全文检索引擎Sphinx结合MySQL,以“主索引+增量索引”的模式,大部分的搜索都集中在Sphinx全文索引中,少量数据可能需要直接访问MySQL数据库,这样可以使应用程序更容易实现专业化的全文检索。具体运行过程中通过Cron设定计划任务,每隔一定的时间,Sphinx会从MySQL数据库生成增量索引,然后执行主索引和增量索引的合并,并且在后台操作过程中,一直可以向客户提供搜索服务。

2.2数据存储模型的建立

目前各种购物平台和测评网站给出的商品信息异常复杂,每个网站的页面都有自身特定的格式,相同商品在不同网站上也不尽相同,尤其是不同类型的商品在属性上差异极大,因此, 需要建立统一的数据模型存储数据,也即通过多张表能够描述各种类型商品的基本属性,而不需要针对每种商品建立不同的存储表。本设计中构建了商品表、商品别名表、品牌表、信息采集表、信息采集元数据表、商品路径表、网站表、店铺表和商品类别表等一系列数据模型。以商品信息表为例,如表2-1所示。

表2-1 商品表(Commodity)

字段名 定义类型 特性 说明

id bigint unsigned 自增、主键 商品id

name varchar(255) 非空、全文索引 商品的名字

brand_id bigint unsigned 外键 品牌id

instance_id varchar(50) 非空 ISBN,ISRC,型号等

is_unique bool 非空 是否唯一

datetime datetime 非空 创建时间

instance_id可以是型号、货号、ISBN、ISRC等用来区分商品的编号。大部分商品都会有型号(instance_id),因此只要有相同品牌且型号相同,就可以肯定是同一种商品。brand_id指向brand,指品牌如TCL,也可指出版社或生产厂商。商品的名字需要用Sphinx建立全文索引。

2.3信息提取流程

通过设置起始网站,然后根据需要提取并更新网页上的商品信息,在信息提取过程中通过判别程序进行判定,对已存在商品添加商品别名,不存在的商品添加商品信息,最后更新店铺信息。

2.3.1商品信息提取判别

提取产品的信息包括商品名称、市场价、最高价、促销价、促销描述、销量描述、评价、URL、店铺、类别、属性,其中对ISBN或ISRC、品牌和型号属性要特殊处理,由于不同商家在添加商品信息时可能会有文字上的差异,提取时要结合Sphinx建立的全文搜索引擎仔细设计匹配规则。如果商品属性中有ISBN,则可以肯定是图书,如果有ISRC字样,则肯定为唱片。这两种编写都具有全球唯一性,因此可以设定商品表中的is_unique字段为真,判断时以此编号为准。

在没有全球唯一编号的情况下,大部分商品可通过“品牌+型号”的方式来判断是否为同一商品。其中型号可能有别名,如“货号”等。其余情况,以商品名字来判断,由于不同商家会往商品名称里加入很多其他信息,通过名字来判断同一商品可靠性较低。

2.3.2商品信息更新流程

商品信息更新分为店铺信息更新和类别更新两个部分。店铺更新是在商品添加成功以后来处理的,一般每个商品都会有默认Context(购物网站),个别商品可通过网页找到对应店家,此时就适用更新店铺流程,更新店铺最终是为了让此次采集时的上下文环境更加明确,以便将来对采集数据进行分类处理。类别更新针对部分能从商品信息页面中获取的网站而言,为可选功能。

三、模型构建实践

本文基于Heritrix和Sphinx技术搭建的购物搜索引擎在实践中把淘宝网、天猫网、卓越亚马逊、当当网作为重点爬取对象,能实现针对这些主要购物网一般商品的搜索。搜索结果页面如图2所示。商品比较结果页面如图3所示。

四、总结

本系统通过Linux系统的脚本管理技术,将Heritrix网络爬虫技术、Sphinx的分词和全文索引的功能相结合,整合成一个能筛爬国内主流大型购物网站的比较购物搜索引擎。本系统还可以进一步进行完善,如可以对搜索关键字进行按照行为预先分类,帮助缺少计算机基础的用户搜索互联网内容,进一步修订商品信息数据存储表,以更好的兼容越来越多的业务细分类型购物网站,这些都是下一步的发展方向。

参 考 文 献

[1] Stefan Büttcher, Charles L.A.Clarke, Gordon V.Cormack. 信息检索:实现和评价搜索引擎[M]. 北京:机械工业出版社,2012.1.

[2] Heritrix User Guide. Heritrix User Guide. Internet Archive.

搜索引擎研究篇9

[关键词]搜索引擎 电子商务 智能搜索 人工智能

一、搜索引擎的现状

当前搜索引擎数据库检索和应用性差,不利于用户使用;排序技术指标单一,查找到的信息有效性低;信息分类类目和标准不统一,导致界而友好性低;自身搜索技术不成熟,误检率高,不利于电子商务使用。

搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成。搜索器一般采用一种被称为Spider的网络自动跟踪索引程序。索引器的功能是理解搜索器所索引的信息,从中抽取索引项、建立起自己的物理索引数据库。检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输人用户查询,显示查询结果,提供用户相关性反馈机制。

目前搜索引擎根据构建时的不同策略,大致可以分为三种模式:一、建立在分类基础上的搜索引擎,优点是准确率比较高,不足是查全率不是很好。二、建立在索引文档基础上的搜索引擎,优点是搜索网络信息效率高,查全率好于第一种,但查准率不及第一种;三、建立在概念的基础上,突破了传统搜索引擎中相对比较简单的基于关键词的匹配,它借助数据字典扩展条件,通过模式的提取和识别抽象化搜索条件与文档之间的联系,这种搜索引擎的查准率较差,而查全率是三者中最高的。

利用人工智能先进技术重新设计搜索引擎,使搜索引擎更具智能化,使检索结果更能反映用户的需求,这类搜索引擎称为智能搜索引擎。把信息检索从目前基于关键词层面提高到基于知识层面,是解决问题的根本和关键。

二、智能检索技术的分析研究

1.网络Robot的智能技术分析研究

网络Robot是一种软件,它完成任务必须具备一定的智能,可以概括为以下几个方面:

(1)提取网页中的有效链接

智能Robot从分析一组指定的URL开始,按照电子商务的电子词典对文档的相关性进行判断提取超链,滤去不适宜的文档,降低索引的混乱程度,满足条件的超链按照标题或单词建立索引并产生本地数据库,使搜索结果更加纯净。

(2)识别访问过的链接,剔除广告等无意义的链接

智能Robot排除掉那些在目标URL中已被访问过的URL;由于WWW的巨大规模,为避免Robot搜索得太深,从而回不到原处的情况发生,必须对搜索的深度进行限制;剔除图像、音频、视频等无法进行索引的文档。

(3)确定搜索策略

Robot的搜索策略是指当Robot搜索到一个文档后,下一步应当转移到哪个文档的方法问题。它主要有以下几种搜索策略:①IP地址搜索策略。它实现的方法是先赋予Robot一个起始的IP地址,然后根据IP地址递增的方式搜索本IP地址段后的每一个WWW地址中的文档。优点是搜索全面,缺点是不适宜大规模的搜索。②深度优先搜索策略。它是从起始节点出发,一直搜索到那些不包含任何超级链接的文件为止,然后再返回某一文档,再继续选择该文档中的其他超级链接。优点是便于发现新的站点,但信息面增长相对慢一些。③广度优先搜索策略。它是先搜索完一个Web页面中所有的超级链接,然后再继续下一层的搜索,直到最底层为止。它能够很好地解决搜索面的问题,缺点是对于深层Web文档要花很长的时间才能到达。

我们采取深度与广度相结合的策略来采集文档,满足条件的文档放到搜索数据库并建立索引数据库,针对链接内容发生变化,采取迅速、及时的更新机制,建立的索引库供检索数据使用。

2.搜索条件的获取和智能分析研究

通常搜索引擎支持最多的是关键词搜索和在此基础上的逻辑运算,在初步搜索结果中再搜索和限制条件较为复杂的高级搜索,这种简单的用户信息获取方式势必直接影响着搜索结果的准确性和相关性。目前,由于各类电子商务站点使用的搜索引擎都是基于关系数据库的检索引擎,它无法处理在用户看来是非常普通的常识性知识,更不能处理个性化知识、区域性知识以及专业性知识等。造成上述种种信息检索困难的原因在于搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅仅采用机械的关键词匹配来实现。智能搜索引擎检索的内容应该是知识而不是信息,它对查询条件的智能分析主要包括以下两种:

(1)提取查询条件中的有效成分,包括词汇和逻辑关系。

(2)建立电子商务知识库来获取关键词的同义词、近义词及相关词,如计算机、电脑和微机是同义关系,建立概念之间复杂的语义关系及常识上的联系,如相机与胶卷存在常识上的联系。根据语义关系和常识性联系对用户查询进行相关性联想,提供引导用户进行下一步查询的线索。这样一步步地在与用户交互过程中诱导用户“表达”出他真正想找的东西,从而实现对查询的智能导航。

三、结论

互联网智能搜索是一个新兴的极具魅力的研究领域,它不但为商务主体提供了迅速接人Internet搜索自己所需商品的智能技术,而且也免除了交易双方对象寻找进行交易所耗费的大量时间和精力。搜索引擎主要向专题性智能搜索引擎发展是今后的发展趋势,专题性搜索引擎索引器因为涉及领域小、信息量相对少,所以完全可以在自动分类标引的过程中加人人工智能技术,提高信息的查询质量。

参考文献

[1]孙炜:中文搜索引擎开发利用策略研究.科技情报开发与经济.2005(1).230~231

搜索引擎研究篇10

[关键词] 搜索引擎 电子商务 智能搜索 人工智能

一、搜索引擎的现状

当前搜索引擎数据库检索和应用性差,不利于用户使用;排序技术指标单一,查找到的信息有效性低;信息分类类目和标准不统一,导致界而友好性低;自身搜索技术不成熟,误检率高,不利于电子商务使用。

搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成。搜索器一般采用一种被称为Spider的网络自动跟踪索引程序。索引器的功能是理解搜索器所索引的信息,从中抽取索引项、建立起自己的物理索引数据库。检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输人用户查询,显示查询结果,提供用户相关性反馈机制。

目前搜索引擎根据构建时的不同策略,大致可以分为三种模式:一、建立在分类基础上的搜索引擎,优点是准确率比较高,不足是查全率不是很好。二、建立在索引文档基础上的搜索引擎,优点是搜索网络信息效率高,查全率好于第一种,但查准率不及第一种;三、建立在概念的基础上,突破了传统搜索引擎中相对比较简单的基于关键词的匹配,它借助数据字典扩展条件,通过模式的提取和识别抽象化搜索条件与文档之间的联系,这种搜索引擎的查准率较差,而查全率是三者中最高的。

利用人工智能先进技术重新设计搜索引擎,使搜索引擎更具智能化,使检索结果更能反映用户的需求,这类搜索引擎称为智能搜索引擎。把信息检索从目前基于关键词层面提高到基于知识层面,是解决问题的根本和关键。

二、智能检索技术的分析研究

1.网络Robot的智能技术分析研究

网络Robot是一种软件,它完成任务必须具备一定的智能,可以概括为以下几个方面:

(1)提取网页中的有效链接

智能Robot从分析一组指定的URL开始,按照电子商务的电子词典对文档的相关性进行判断提取超链,滤去不适宜的文档,降低索引的混乱程度,满足条件的超链按照标题或单词建立索引并产生本地数据库,使搜索结果更加纯净。

(2)识别访问过的链接,剔除广告等无意义的链接

智能Robot排除掉那些在目标URL中已被访问过的URL;由于WWW的巨大规模,为避免Robot搜索得太深,从而回不到原处的情况发生,必须对搜索的深度进行限制;剔除图像、音频、视频等无法进行索引的文档。

(3)确定搜索策略

Robot的搜索策略是指当Robot搜索到一个文档后,下一步应当转移到哪个文档的方法问题。它主要有以下几种搜索策略:①IP地址搜索策略。它实现的方法是先赋予Robot一个起始的IP地址,然后根据IP地址递增的方式搜索本IP地址段后的每一个WWW地址中的文档。优点是搜索全面,缺点是不适宜大规模的搜索。②深度优先搜索策略。它是从起始节点出发,一直搜索到那些不包含任何超级链接的文件为止,然后再返回某一文档,再继续选择该文档中的其他超级链接。优点是便于发现新的站点,但信息面增长相对慢一些。③广度优先搜索策略。它是先搜索完一个Web页面中所有的超级链接,然后再继续下一层的搜索,直到最底层为止。它能够很好地解决搜索面的问题,缺点是对于深层Web文档要花很长的时间才能到达。

我们采取深度与广度相结合的策略来采集文档,满足条件的文档放到搜索数据库并建立索引数据库,针对链接内容发生变化,采取迅速、及时的更新机制,建立的索引库供检索数据使用。

2.搜索条件的获取和智能分析研究

通常搜索引擎支持最多的是关键词搜索和在此基础上的逻辑运算,在初步搜索结果中再搜索和限制条件较为复杂的高级搜索,这种简单的用户信息获取方式势必直接影响着搜索结果的准确性和相关性。目前,由于各类电子商务站点使用的搜索引擎都是基于关系数据库的检索引擎,它无法处理在用户看来是非常普通的常识性知识,更不能处理个性化知识、区域性知识以及专业性知识等。造成上述种种信息检索困难的原因在于搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅仅采用机械的关键词匹配来实现。智能搜索引擎检索的内容应该是知识而不是信息,它对查询条件的智能分析主要包括以下两种:

(1)提取查询条件中的有效成分,包括词汇和逻辑关系。

(2)建立电子商务知识库来获取关键词的同义词、近义词及相关词,如计算机、电脑和微机是同义关系,建立概念之间复杂的语义关系及常识上的联系,如相机与胶卷存在常识上的联系。根据语义关系和常识性联系对用户查询进行相关性联想,提供引导用户进行下一步查询的线索。这样一步步地在与用户交互过程中诱导用户“表达”出他真正想找的东西,从而实现对查询的智能导航。