文本分类结合人工智能信息获取论文

时间:2022-06-07 05:40:00

文本分类结合人工智能信息获取论文

编者按:本文主要从问题的提出;文本分类技术的基本原理;文本分类技术在数字图书馆中的应用分析;结束语进行论述。其中,主要包括:数字图书馆在我国高校、政府以及科研机构都得到了有效发展、文本分类技术是人工智能和信息获取技术的结合、数字图书馆是一个巨大的知识宝库、文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程、文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息、系统使用训练样本进行特征选择和分类器训练、特征选择的结果是初始特征项集合的子集、文本特征项、文本的特征项应该具特点、特征项选择、特征值的提取等,具体请详见。

一、问题的提出

随着计算机技术与网络技术的普及和发展,数字图书馆在我国高校、政府以及科研机构都得到了有效发展。数字图书馆来源于图书馆馆藏的数字化从而充分地高效地利用图书馆信息资源。现有的图书馆资料主要是书籍、杂志、报刊、技术报告等。人们希望利用因特网把所有的数字化的资源站点连接起来,这样要管理的信息除了图书馆中的文本信息外,还希望管理博物馆、展览馆、档案馆、学术组织以及其它Web站点上千差万别的信息。

面对浩瀚无边的数字化信息使得数字图书馆关键核心技术之一的文本分类成为一个日益重要的研究领域。文本分类技术是人工智能和信息获取技术的结合,是基于内容的自动信息管理的核心技术。

二、文本分类技术的基本原理

数字图书馆是一个巨大的知识宝库。数字图书馆的服务重点是以人为主,而不是以馆以书为主。数字图书馆的特点使得其服务要深入到知识的层次,通过对信息内容的组织和加工的自动化,把资源组织成一个知识系统。文本的自动分类是为提高信息内容服务的质量而产生的文本处理技术。它们的出现使得信息内容服务出现了新的局面。

文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类算法是有监督学习的算法,它需要有一个己经手工分好类的训练文档集,文档的类别已标识,在这个训练集上构造分类器,然后对新的文档分类。如果训练集的类别未标识,就是无监督的学习算法,无监督学习算法从数据集中找出存在的类别或者聚集。

从数学角度来看文本分类是个映射程,它将未标明类别的文本映射到已有的类别中,用数学公式表示如下:

f:A→B其中,A为待分类的文本集合,B为分类体系中的类别集合

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。但是由于大量的文本信息是一维的线性字符流,因此文本自动分类首先要解决的问题就是文本信息的结构化。在模式识别领域里,把文本信息的结构化称为"特征提取"。在文本信息内容处理领域,这项工作被称为文本的"向量空间表示"。其基本流程如图1所示:

系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征将待分类的输入样本形式化,然后输入到分类器进行类别判定,得到输入样本所属的类别。

三、文本分类技术在数字图书馆中的应用分析

为了提高数字图书馆中分类准确率,加快系统运行速度,需要对文本特征进行选择和提取。两者的差别在于,特征选择的结果是初始特征项集合的子集,而特征提取的结果不一定是初始特征项集合的子集(例如初始特征项集合是汉字,而结果可能是汉字组成的字符串)。特征选择、提取和赋权方法对分类结果都有明显影响。

(一)文本特征项

文本的特征项应该具有以下特点:特征项是能够对文本进行充分表示的语言单位;文本在特征项空间中的分布具有较为明显的统计规律;文本映射到特征项空间的计算复杂度不太大。对于计算机来说,文本就是由最基本的语言符号组成的字符串。西文文本是由字母和标点符号组成的字符串,中文文本就是由汉字和标点符号组成的字符串。

概念也可以作为特征项,"计算机"和"电脑"具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加匹配的准确率。但是概念的判断和处理相对复杂,自然语言中存在同义关系(如老鼠、耗子)、近义关系(如忧郁、忧愁)、从属关系(如房屋、房顶)和关联关系(如老师、学生)等各种关系。如何很好地划分概念特征项,确定概念类,以及概念类的数量都是需要反复尝试和改进的问题。

(二)特征项选择

不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。

文档频次就是文档集合中出现某个特征项的文档数目在特征项选择中计算每个特征项在训练集合中出现的频次,根据预先设定的闽值去除那些文档频次特别低和特别高的特征项。

信息增益方法是机器学习的常用方法,在分类问题中用于度量特征项在某种分类下表示信息量多少,通过计算信息增益得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。

(三)特征值的提取

在文本分类中,我们称用来表示文档内容的基本单元为特征,特征可以是词、短语。目前,大多数有关文本分类的文献基本上采用词的集合来表示文档的内容。采用短语来表示文档存在两个缺点:第一短语的提取较困难,特别是准确的提取,需要较多的自然语言处理技术,而这些技术还不够成熟;第二采用词组表示文档在信息检索和文本分类中的效果并不比基于词的效果好,有时反而更差。

四、结束语

近年来,国内外数字图书馆的建设发展地很快,各国政府在建设,而且大学、企事业等也在建设各自的数字图书馆。随着计算机技术和网络技术的不断成熟,困扰数字图书馆发展的一些技术瓶颈也逐渐地被解决了。随着数字图书馆中对精度要求较高,而且要处理的文本数据量也相当庞大,今后对文本分类技术在数字图书馆中应用的精度和速度有待进一步改进。