煤炭资源关键词搜索算法研究

时间:2022-06-24 10:22:17

煤炭资源关键词搜索算法研究

K-means算法在煤炭资源关键词搜索算法中的研究

K-means算法是比较典型的搜索引擎算法。K-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。具体如下:输入:kdatan①选择k个初始中心点,例如c0data0…ck-1datak-1;②对于data0…。datan分别与c0…cn-1比较,假定与ci差值最少,就标记为i;③对于所有标记为i点,重新计算ci所有标记为i的dataj之和/标记为i的个数;④重复2、3直到所有ci值的变化小于给定阈值。

FCA算法在煤炭资源关键词搜索算法中的研究

在其理论中每个形式概念由两部分组成:外延(对象部分)和内涵(属性部分)。形式概念分析的两个重要的组成部分是形式背景和概念格。概念格的每一个节点是一个形式概念,由两部分组成:外延和内涵。外延,即概念所覆盖的所有对象的集合;内涵,则被认为这些对象所拥有的共同特征的集合。概念格作为形式概念分析核心的数据结构,本质上描述了对象和特征之间的联系,表明了概念之间泛化和例化之间的关系,其相应的Hasse图,则实现了对数据的可视化。在搜索引擎算法中,根据文本匹配的基本原理,研究基于形式概念分析(FCA)的文本匹配方法,主要是使用FCA的方法来表示网页,使网页的内容表达的更合理,根据现在的网页表示形式,制定与之适合的网页与用户输入的关键词的匹配操作,以便更加准确地计算网页与用户所输入的关键字的匹配程度,根据用户对检索到的网页感兴趣的程度来修改对网页的表示,以提高信息检索的质量。当煤炭技术人员和煤炭爱好者输入查询文本或者关键字的时候,根据网页与用户输入的关键词的匹配操作,便可以返回所要搜索的结果。

K-means算法与FCA算法的实验结果的比较

在实验过程中运行的机器是1台PC,配有CPUIntelPentium(双核),内存为2GB,硬盘160G,运行的操作系统为WindowsXPSP3。算法实验结果如表1所示,算法时间对比如表2所示。通过上述实验中发现FCA算法程序运行时间明显比K-means算法运行时间长,但是准确率比K-means算法算法高一些;使用概念格提高了准确率,由于FCA算法较复杂,但是运行时间比较长;使用K-means算法,由于FCA算法较简单,所以节省了运行时间。

通过上述的研究分析,K-means与FCA算法适合作为搜索引擎的算法,而且有各自的优点和缺点,使用基于K-means与FCA的煤炭资源关键词搜索算法将会使搜索引擎所搜索到人们满意的结果,煤炭技术人员和煤炭爱好者使用搜索引擎会搜索到更满意的结果。

本文作者:朱正国工作单位:攀枝花学院