全文检索系统分析论文

时间:2022-04-01 03:13:15

全文检索系统分析论文

1相关工作

目前各行各业都开始意识到信息系统对于行业进步的影响,但是信息系统也存在着很多安全隐患。怎样才能够在文本查询以及网页的存储中达到安全高效的目的,一直是研究和关注的重点,这其中的全文检索技术和全文数据库技术成为了国内外学者研究的热点。我国信息的加密以及检索技术在目前的技术条件下发展十分迅速,并且也出现了诸多领先的技术产品,但是全密文高效检索系统的研究仍旧是当前难以解决的科题。这一问题的难点主要集中在如何才能够安全的实现在外包数据库中进行加密数据的检索以及存储。虽然原始数据具有相似性以及有序性,但是在数据加密后,很多原始特性就会失去,因而密文数据的检索难度便会加大。这也是一直困扰着我国检索系统研究技术人员的主要难点,也正是由于密文数据的这一特性,才提高了数据库的安全性。但是如何才能够在这一条件下,提高检索效率,仍旧需要进一步研究。

2系统比较

2.1传统全文索引

对于涉密数据进行加密是一个很自然的趋势,而对密文检索技术的研究也是索引系统发展的一个趋势,其思路便是加密全文索引,从而实现密文检索。而该种加密方式依照加密粒度的不同可以将密文全文检索分成两种等级,即索引词级信息加密以及索引级信息加密。索引级信息索引直接加密密文信息的明文全文索引,在进行信息检索的过程中首先需要进行解密,即针对密文索引部分内容进行全文解密或部分内容的解密,继而在解密的基础上展开信息的检索。通过这种方式虽然能够达到密文全文检索的目的,但是需要解密后才能够检索,从本质分析仍旧是明文信息的检索,因此安全系数较低,存在隐患问题,并且为了实现索引的解密,需要增量构建,会付出较大的代价。而索引词级信息检索则是在原有检索结构的基础上通过相同的加密算法进行索引词的加密,在原有索引词级信息检索的基础上通过加密信息检索以及同一种加密算法,对原有明文索引结构进行加密,从而实现针对原有的明文检索信息进行加密的目的,实现密文全文检索。当前使用的IR模型大多都采用了索引词级密文索引,建立在Tlken词频信息构建以及便宜地址的基础之上,如果这些内容也被加密,那么在查询过程中的大量运算操作影响下,全文索引系统效率必然会大大降低,如果利用明文索引的形式,信息安全级别便会受到影响,因而传统的索引系统还需要进一步改善。

2.2Mimir密文全文索引

全文检索系统的文档资源都是海量的,全文索引都采用增量方式构建,因此采用一种稳定、高效的数据结构构建全文索引对于实现高效的密文全文检索是非常重要的。由于B+树当节点分裂时只影响原节点和父节点,因此对于全文索引的增量构建在插入索引词时可以有效地保持索引B+树的平衡性,保障全文检索效率。在明文全文检索系统中,基于明文索引中的索引词位置的递增关系,检索系统可以方便地判断一个较长的检索词是否出现在某个文档中,因此在全文检索系统中,索引词的位置信息对于较长检索词的判断是非常重要的。与直接加密索引词改造明文索引的方法不同,为了保证密文索引本身的高安全性,Mimir密文全文检索系统中并没有标识每个索引词的位置信息,因此如何实现较长检索词的匹配就成为了一个关键问题。如果能够在密文全文索引中存储文档所有可能出现的检索词,则就可以不需要索引词的位置信息。但是首先不可能穷举用户可能提出所有查询关键词,而且大量地插入较长的组合索引词也会极大地增加密文索引的空间规模,而导致密文全文检索效率的下降。同时由于被查询命中的概率很小,词长太长的索引词对于全文检索的贡献也比较小,因此必要针对Mimir系统特点设计一种不需要索引词位置信息支持的文档归档索引词提取策。

2.3系统排序算法

全文检索系统大多都被应用于海量文档检索以及处理中,因而同一条查询条件相符的,全文检索系统中需要处理的文档都是海量的,对于一个查询条件来说命中的文档数量也非常大,结果排序就是将用户最感兴趣的内容优先呈现给用户,对于一个全文检索系统的可用性来说是非常重要的。目前的全文检索系统中通常都采用基于检索关键词词频的评分机制。

2.4系统效率以及安全性分析

Mimir实现不脱密的密文全文检索服务,其安全性和搜索效率都非常重要,该节对Mimir密文全文检索系统的检索效率和安全性进行理论分析。Mimir系统有3种数据需要加密处理:索引词、索引指针和文档本身。为保障Mimir系统的安全性,以上都采用成熟的加密算法。Mimir对文档进行归档操作时,索引指针和密文文档的加密量相对很小,而密文全文索引中分词数量很大,因此会产生大量的索引词加密开销。

3结语

在目前海量信息检索以及安全环境下,Mimir密文检索系统意义重大,尤其在密文检索系统效率提升方面具有跨越式的意义。该类系统的研究成果参考价值巨大,并且通过进一步的研究,针对系统中检索环境下的密钥管理以及密文检索功能下访问控制技术都会相应配置完善。并且Mimir还将进一步添加密文索引风险评估系统,从而提高索引系统的风险抗性,保证密文检索的安全度。

作者:王俊姝单位:国家新闻出版广电总局哈尔滨监测台