数据挖掘技术文本分析研究

时间:2022-04-21 10:16:59

数据挖掘技术文本分析研究

摘要:数据挖掘技术的应用价值被深入挖掘,其可以实现大规模信息中的关键内容提取,有效捕捉隐含信息,掌握信息发展的基本趋势。在数据挖掘技术的辅助下,研究人员可以将特定关键词轻松挖掘出,并完成热点的捕捉和媒体动向的追踪,作用十分显著。文章分析数据挖掘技术的优势,从基于词频统计功能的文本分析、基于词表比对功能的信息挖掘、基于词语共现网络功能完成热点事件抓取3个方面出发,分析了基于数据挖掘的文本分析应用,以供参考。

关键词:文本特征;挖掘技术;数据挖掘

数据挖掘的主要功能体现在从海量数据中找到价值较高的信息,并实现信息转化,将其变成有用知识。随着计算机普及,数据飞速膨胀,信息构成更加复杂,仅依靠关键词检索会有大量信息遗漏。基于数据挖掘,研究人员可以对本文特征精细化分析,找到有效信息,精准发现隐藏的客观规律。

1数据挖掘技术应用优势

数据挖掘实现了多领域的渗透、融合,是人工智能的一大延伸,属于数据库领域核心技术。主要思路是从数据库中,借助深度挖掘技术,查找关键信息,揭示出隐含的信息价值,从而高效利用信息。数据挖掘的应用意义重大,属于决策支持实现过程,其融合了人工智能、模式识别等多项技术,可以自动化且全方位地分析对象内容,并在此前提下完成归纳性的推理。研究发现,其实现知识库交互的过程大体分为3个阶段:数据准备(基础保障)、数据挖掘(核心技术)、结果表达和解释。现阶段,数据挖掘相对成熟,被广泛应用在文本分析领域,并取得了较好的成绩,不仅保障了分析效率,还提高了本文利用率。数据挖掘技术原理如图1所示。借助数据挖掘可以全面地、深层次地分析本文数据,深度挖掘文本信息内容,提取关键信息,从大量数据中精准定位,最大限度地提高数据利用率。具体包括数据准备、规律寻找等核心板块,在具体操作中,数据准备属于基础保障环节,从相关数据源中整合、分析、提炼出有用的数据,并将其汇总、筛选,形成数据集,为后续应用做足准备。规律寻找是指将数据集中隐藏规律找出来,例如本文词汇出现频次等。其中,要想完整表示规律,就要采取用户可以理解的方式,并达到理想的可视化程度。

2基于数据挖掘的文本分析应用

2.1基于词频统计功能的文本分析

在数据挖掘之前,收集目标数据是主要任务,需要借助语料库资源,或者完成爬虫程序编写,实现网络资源自动采集。之后,完成数据的预处理,这是数据挖掘的前期工作,也是基本保障性工作。以日语和汉语为例,其特征类似,没有单词的形态标记,因此在分析前都要进行分词。实践证明,借助Mecab形态素解析器可以起到理想的分词效果。该工具性能稳定,属于效率较高的形态素分析引擎,在实际应用中不依赖具体的语言就可以完成分词工作,同时,借助词典或语料库,采用CRF模型,基本上可以实现连接方式的配价以及词汇参数的估计。这种方法可行性较高,无论是解析速度还是词汇解析精度都比较理想,均高于常用解析器。实际操作中,分词之后就要制作词表,词表完全可以借助“数据透视表”功能,或者也可以选择KHCoder的“FrequencyList”完成同样的工作。比较发现,后者更加方便、操作性更强,但想要保证词表制作效果,需要注意以下内容:(1)KHCoder功能有限,只能统计名词等少部分词类。(2)在进行代词、感叹词这部分词汇统计时,发生错误概率会增大。因此,现实操作中,有必要对照最终得出的统计结果,完成对KHCoder的修正工作。

2.2基于词表比对功能的信息挖掘

分析单个词表可以掌握文本高频词汇的文体特征,在此基础上进行词表比对,可以将重要信息及时捕捉。高频人称代词隐含了事件关键信息,还有专用名词等也都属于重要词汇。例如:科技类文章中通过专用名词的使用频次统计,可以判断文章大体介绍的方向。科技类文章经常以第三人称进行介绍,叙事方式较为客观,采用旁观者视角,会让文章脉络清晰、叙事更加合理[1]。不同题材的科技文章,专用名词因为用法的不同,使用频率也会存在差异。为了例证,选取了几篇关于汽车性能介绍的文献,如《时代汽车》《机械设计与制造》《锻压技术》《内燃机与配件》等,统计后所得的专用名词频率如表1所示。通过表1中高频词汇的使用,可以基本判断文章的类型以及科技论文研究的主攻方向。借助挖掘高频词汇还可以掌握其他关联信息,通过捕捉以及深入挖掘能够掌握较为前沿的技术,在了解文章类型的基础上掌握文章主要框架。

2.3基于词语共现网络功能完成热点事件抓取

随着网络时代到来,无数新闻事件发酵、膨胀,社会充斥大量信息。怎样从纷繁复杂网络中自动提炼热点事件,成为谈论的焦点,也是新时期的重要课题。基于此,词语共现网络被提出,CooccurrenceNetwork作为新的理念,为本文分析指明了方向。构建技术可以实现文本信息可视化,使其更加直观、立体诠释文本中人物关系,并且提取出热点人物、新闻事件以及组织、概念等核心内容,在此基础上完整揭示热词联系[2]。该技术实现原理是借助统计词频,步骤是先完成最频繁词汇抽取,再掌握其潜在关系,从而搭建词语网络图,概括高频词汇,并且掌握其关联性。实践证明,借助词汇的组建,可以将文本事件揭示出来,帮助获取核心信息。为了验证数据挖掘以及分析方法的有效性,可以采用“Co-OccurrenceNet-work”进行验证,借助其构建功能,多角度地分析《每日新闻》全部报道,完成了关键性文本词汇的提取,最终形成了词语共现网络图。借助这种方法,高频词不仅被抽取出来,还可以组成高频词群,词群或大或小,直接或者间接地反映了新闻事件。高频词群从不同角度揭示了热点话题的核心内容,也可以看出信息挖掘技术的价值。借助词语共现,网络可以清晰、直观地观察到高频词汇,并在此基础上借助科学计算提取出共现词,以完成热点话题的追踪和媒体动向的捕捉[3];再利用先进网络爬虫,对舆情动态跟踪反馈。

3结语

数据挖掘技术意义显著,在文本分析中可以让语言学研究视角拓展,从而实现研究手段的丰富。同时,完成文本数据的准确获取,并合理提炼高质量的隐含信息,让研究效率更高。值得一提的是,在本文分析领域,数据挖掘技术起步较晚,其应用值得学界共同关注。

[参考文献]

[1]章蓬伟,贾钰峰,刘强,等.基于数据挖掘技术的文本情感分析技术研究[J].信息通信,2020(1):77-78.

[2]毛文伟.论数据挖掘技术在文本分析中的应用[J].日语学习与研究,2019(1):1-9.

[3]毛文伟.数据挖掘技术在文本特征分析中的应用研究———以夏目漱石中长篇小说为例[J].外语电化教学,2018(6):8-15.

作者:赵丹 刘建国 陈曼倩 单位:哈尔滨职业技术学院 哈尔滨开放大学