电力企业文本数据挖掘技术探究

时间:2022-02-23 08:24:36

电力企业文本数据挖掘技术探究

摘要:在国家电网公司信息化工程的建设过程中,积累了大量的文本数据。如何挖掘文本数据中蕴含的有价值信息将成为电力企业大数据挖掘方向研究的重点对象。文章结合电力行业目前的数据现状,使用文本挖掘的方法对电力设备检修资金投入工作效能场景进行挖掘,对生产信息管理系统中报缺单数据进行文本聚类,实现对缺陷的细分。实践表明,该方法可以得出各类别的缺陷特征,从而证明了文本挖掘在电力行业的可用性。

关键词:电力设备检修;文本数据;文本挖掘;大数据挖掘

随着信息化的快速发展,国家电网公司各专业积累的数据量越来越庞大。庞大数据的背后,由于数据结构和存储方式的多样化以及电力系统内部不同专业从业者的知识面层次不齐等,其中被利用的数据只占少量的部分,造成大量的有价值数据被浪费。在被浪费的数据中,以文本形式存在的数据占很大比重,如何从比较复杂的文本数据中获得需要的数据受到国家电网公司的普遍关注。国家电网公司经过SG186、三集五大等大型信息化工程的建设,积累了海量的业务数据,其中包括大量的文本数据。目前,国家电网公司对业务数据的利用主要集中在结构化数据的统计和分析,这些方法无法直接应用在非结构化文本数据中,更无法对其中隐含的价值规律进行深度分析挖掘。针对非结构化文本数据量不断增大、业务应用范围不断扩大这一现状,为了提升国家电网公司企业运营管理精益化水平,需要进一步挖掘非结构化数据中潜在的数据价值。因此,开展电力大数据文本数据挖掘技术应用场景和一般流程的研究显得尤为重要[1]。

1非结构化数据概述

与结构化数据(能够用二维表结构遵循一定的逻辑语法进行体现的数据)相比,非结构化数据不能在数据库中采用二维结构逻辑形式来表示,这些形式主要有Word文档、文本、图片、标准通用标记语言下的子集XML、HTML、Excel报表、PPT、Audio、Video、JPG、BMP等。半结构化数据处于完全结构化数据(逻辑型、关系型数据库中的数据)和完全无结构化数据(BMP、JPG、Video文件)中间,它一般的功能是对系统文件的描述,如系统应用帮助模块,有一定的逻辑结构,同时也包含数据格式,两者相融在一起,比较均衡,没有明显的界限[2]。进入21世纪后,网络技术飞速发展,特别是内联网和因特网技术取得突飞猛进的发展,各类非结构数据类型格式日益增多,以往的数据库主要用于管理结构化数据,对于非结构化数据的管理稍显乏力,为了适应非结构数据的迅猛发展,数据库的革新势在必行,在内联网和因特网技术的基础上,对数据库的内在结构进行改进和创新,使其能够兼容和处电力信息与通信技术2016年第14卷第1期8电力大数据技术理非结构数据形式。北京国信贝斯是我国非结构化数据库开发和设计的领军者,其旗下开发的IBase数据库能够兼容和处理目前市面上存在的各种文件名、格式、多媒体信息,能够基于内联网和互联网对海量信息进行搜索、管理,技术已经达到全球领先水平。

2文本挖掘技术

2.1文本挖掘

文本挖掘的对象是用自然语言描述的语句、论文、Web页面等非结构化文本信息,这类信息无法使用结构化数据的挖掘方法进行处理;文本挖掘指通过对单个词语和语法的精准分析,通过分析结构在海量的非结构化数据中检索意思相近的词语、句子或者信息[3]。

2.2文本挖掘流程

挖掘流程如图1所示。图1挖掘流程Fig.1Miningprocedure1)文本预处理:把与任务直接关联的信息文本转化成可以让文本挖掘工具处理的形式,这个过程分3步:分段;预读文本,把文本特征展现出来;特征抽取。2)文本挖掘:完成文本特征抽取后,通过智能机器检索工具识别符合主题目标的文段信息,在海量信息或者用户指定的数据域中搜索与文本预处理后得出的文本特征相符或相近的数据信息,然后通过进一步识别和判断,达到精确检索的目的,这是一个非常复杂的过程,纵跨了多个学科,包括智能技术、信息技术、智能识别技术、非结构数据库技术、可视化技术、预处理技术、读码技术等。3)模式评估:模式评估是用户根据自己的需求主题设置符合自己需求主题或目标的模式,把挖掘到的文本或信息与自己设置的模式进行匹配,如果发现符合主题要求,则存储该数据和模式以方便用户调用,如果不符合,则跳转回原来的环节进行重新检索,然后进行下一个匹配过程的模式评估。

2.3文本挖掘技术分析

解决非结构化文本挖掘问题,现阶段主要有2种方法:一是探索新型的数据挖掘算法以准确挖掘出相应的非结构化数据信息,基于数据本身所体现的复杂特性,使得算法的实施愈加困难;二是把非结构化问题直接转换成结构化,通过实施相应的数据挖掘技术达到挖掘目的。而在语义关系方面,就要应用到特定的语言处理成果完成分析过程。下文是根据文本挖掘的大致流程来介绍其所用到的相关技术。

2.3.1数据预处理技术

文本数据预处理技术大致可分为分词技术、特征表示以及特征提取法。1)分词技术主要有两大类:一种为针对词库的分词算法;另一种为针对无词典的分词技术。前者主要包含正向最大/小匹配和反向匹配等。而后者的基础思路为:在统计词频的基础上,把原文中紧密相连的2个字当作一个词来统计其出现的次数,若频率较高,就有可能是一个词,当该频率达到了预设阈值,就可把其当作一个词来进行索引。2)特征表示通常是把对应的特征项作为本文的标示,在进行文本挖掘时只需要处理相对应的特征项,就能完成非结构化的文本处理,直接实现结构化转换目的。特征表示的建立过程实际上就是挖掘模型的建立过程,其模型可分为多种类型,如向量空间模型与概率型等[5]。3)特征提取法通常是建立起特定的评价函数,以此评价完所有特征,然后把这些特征依照评价值的高低顺序进行排列,将评价值最高项作为优选项。在实际文本处理过程中所应用的评价函数主要包括信息增益、互信息以及词频等。

2.3.2挖掘常用技术

从文本挖掘技术的研究和应用情况来看,在现有的文本挖掘技术类别中应用较为广泛的主要包括文本分类、自动文摘以及文本聚类[4-5]。1)文本分类。文本分类是给机器添加相应的分类模型,当用户阅读文本时能够更为便捷,在搜索文本信息时,能够在所设定的搜索范围内快速和准确的获取。用于文本分类的算法较多,主要有决策树、贝叶斯分类、支持向量机(SVM)、向量空间模型(VectorSpaceModel,VSM)、逻辑回归(LogisticRegression,LR)以及神经网络等。2)自动文摘。自动文摘是通过计算机技术智能的把原文的中心内容浓缩成简短、连续的文字段落,以此来尽可能地降低用户阅读的文本信息量。3)文本聚类。文本聚类与文本分类的作用大抵相同,所实施的过程有所区别。文本聚类是将内容相近的文本归到同个类别,尽可能地区分内容不同的文本。其标准通常可以依照文本属性或者文本内容来进行聚类。聚类方法大致可分为平面划分法与层次聚类法。另外,除了上述常用的文本挖掘技术,许多研究还涉及关联分析、分布预测分析和结构分析等。

2.3.3文本挖掘系统模式评估方法

数据挖掘系统的评估是至关重要的,现在已有大量的研究来衡量这一标准,以下是公认的评估方法。1)查全率和查准率。查全率代表实际被检出的文本的百分比;查准率是所检索到的实际文本与查询相关文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一个系统在抽取事实不断增多时产生错误的趋势。最低的冗余度和放射性是系统追求的最终目标。3)双盲测试。先用机器生成一组输出结果,再由相关专家产生一组输出结果,然后混合2组输出结果,这种混合后的输出集再交给另一些相关专家进行验证,让他们给予准确性方面的评估。

3电力行业文本挖掘可研究实例

文本挖掘技术在国内电力行业属于新兴的前沿领域,对从业人员的素质要求相对比较高。由于现阶段知识和技术层面上匮乏,国家电网几乎没有关于此方面的项目实施。本节通过2个电力运营监测业务的应用需求,初步探讨文本挖掘的建模过程。

3.1电力运营监测业务应用需求

1)检修资金投入工作效能分析场景分析。大检修和技改是保障电网安全的重要工作。由于运检业务系统的数据质量问题,通过对量化数据的统计,无法准确掌握大修、技改资金投入的工作效能情况。但设备的实际运行状态可以通过文本类故障记录、运行日志等进行反映,因此,采用文本挖掘技术对检修工作效能进行分析与可视化展现,同时结合传统的统计方法,实现对大修技改资金投入工作效能的分析和监测。例如,可以通过分析历年的故障记录信息,反映出每年主要故障变化情况,进而结合每年大修技改资金投入情况,分析资金投入是否与预期目标相一致。2)家族缺陷识别分析。家族缺陷是指同一厂家生产的同一型号、同一批次的设备在运行过程中出现了相同或相似的缺陷。家族缺陷识别分析是通过对运行记录、故障记录等设备运行文本信息的挖掘和可视化分析,对设备家族缺陷进行识别。该场景既可以辅助基层业务人员对家族缺陷进行准确判断,同时可以作为一种辅助手段为总部专家判定家族缺陷提供参考,从而实现对家族缺陷辨识方式的优化,并基于此为检修计划制定、厂商评价、采购建议等提供决策支撑。

3.2文本分析建模过程

第1步:将原始的非结构化数据源转换为结构化数据,分析文本集合中各个文本之间共同出现的模式;汇总与家族缺陷相关的所有文档,形成原始数据源的集合。第2步:对原始数据源的集合进行分词处理,建立特征集,使用词频/逆文档频率(TermFrequency-InverseDocumentFrequency,TF/IDF)权值计算方法得到各个点的维度权值,判断关键字的词频,例如“主变1号”运行记录中多次出现,但在故障记录中很少出现,那么认为“主变1号”有很好的类别区分能力。第3步:对分词后的文档建立索引,汇总所有文档的索引形成索引库,并对索引库排序。第4步:文档向量化;构建向量空间模型,将文档表达为一个矢量,看作向量空间中的一个点;实际分析过程中对多维数据首先将其降低维度,降低维度后得到一个三维空间模型,文档向量化生成文档特征词对应表、文档相似度表。第5步:结合业务实际,对相似度较高的表中出现的关键字进行比对,例如:“主变1号”、“停电故障”等关键字在多个日志中频繁出现,则该文档所记录的相关设备存在异常的可能性较大。

3.3文本分析应用及成效

对生产信息管理系统中报缺单数据中的报缺单名称进行文本聚类,实现对缺陷的细分,进而对各类别在非聚类变量上进行分析,得出各类别的缺陷特征。经过近一年以来在国网辽宁电力公司的逐步应用,科学的分析挖掘出缺陷主要集中在开关、主变、指示灯、直流、冷却器、调速器等设备,主要出现启吕旭明(1981–),男,河北保定人,高级工程师,从事电力企业信息化、智能电网及信息安全研究与应用工作;雷振江(1976–),男,辽宁沈阳人,高级工程师,从事电力信息化项目计划、重点项目建设、信息技术研究与创新应用、信息化深化应用等相关工作;赵永彬(1975–),男,辽宁朝阳人,高级工程师,从事电力信息通信系统调度、运行、客服及信息安全等相关工作;由广浩(1983–),男,辽宁辽阳人,工程师,从事信息网络建设、信息安全等工作。作者简介:动、漏水、停机、渗水等缺陷现象。公司故障处理快速响应、及时维修、提高供电质量和服务效率得到了显著的提升。电力设备故障缺陷特征示意如图2所示。

4结语

国家电网文本挖掘的目的是从海量数据中抽取隐含的、未知的、有价值的文本数据,利用数据挖掘技术处理电力公司文本数据,将会给企业带来巨大的商业价值。本文提出的关于检修资金投入工作效能分析和家族缺陷识别分析2个文本挖掘实例只是文本挖掘在电力行业应用的一角。如今,数据挖掘技术与电力行业正处于快速发展阶段,文本挖掘的应用将越来越广泛。下一阶段的研究目标是探寻有效办法将数据挖掘技术融入到文本挖掘领域的实际应用中,使得国家电网文本挖掘项目得以顺利实施,并达到预期成效。

作者:吕旭明 雷振江 赵永彬 由广浩 单位:国网辽宁省电力有限公司 国网辽宁省电力有限公司 信息通信分公司

参考文献:

[1]费尔德曼.文本挖掘(英文版)[M].北京:人民邮电出版社,2009.

[2]孙涛.面向半结构化的数据模型和数据挖掘方法研究[D].吉林:吉林大学,2010.

[3]胡健,杨炳儒,宋泽锋,等.基于非结构化数据挖掘结构模型的Web文本聚类算法[J].北京科技大学学报,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.

[4]周昭涛.文本聚类分析效果评价及文本表示研究[D].北京:中国科学院研究生院(计算技术研究所),2005.

[5]TANPN,STEINBACHM,KUMARV.数据挖掘导论(英文版)[M].北京:人民邮电出版社,2006.