Attention-Based LSTM算法及文本分类模型分析

时间:2022-08-19 11:06:11

Attention-Based LSTM算法及文本分类模型分析

摘要:本次研究针对文本数据处理工作中的文本分类项目提出了一套基于Attention-BasedLSTM算法的分类模型,根据Atten-tion-Model的基本原理对Attention-BasedLSTM算法数据处理方式进行了详细介绍。最后将Attention-BasedLSTM算法应用于来自国内外主流门户网站文本数据的分类处理工作。经统计分析发现,Attention-BasedLSTM算法相比于常规LSTM算法和Bi-LSTM体现出了更高的分类准确率水平,在文本数据处理方面具有一定的应用价值。

关键词:数学模型;文本分类;Attention-BasedLSTM算法

1引言

在自然语言处理领域中,文本分类是一个十分重要的研究方向,以往的文本分类研究主要涉及机器分类器训练、文本特征提取、文本预处理等内容。随着图像识别与深度学习技术不断成熟,深度学习模型在机器翻译领域得到了广泛的应用,并且在特征提取和数据预处理方面体现出了独特的优势。除此之外,合理应用文本分类技术,还有利于简化文本数据的搜索流程,提高用户在门户网站中的内容搜索效率,在改善用户体验的同时也助于减轻服务器运行压力,节约计算资源。

2Attention-Model的基本原理

Attention-Model(注意力模型)借鉴了人脑将注意力集中在某一事物而忽略其他事物的特点,对关键数据资源进行集中处理。在自然语言处理方面,Attention-Model通常会与Encoder-Decoder结合起来使用。Encoder-Decoder模型的核心思想是利用Encoder模块对输入序列实施编码,再通过Decoder模块实施解码,方便与Attention-Model模型相结合。Encoder-Decoder模型的基础框架如图1所示。本次研究将图1中的“input”表示为序列X={x1,x2,x3,…,xn},将“output”表示为序列Y={y1,y2,y3,…,yn}。在计算过程中,首先通过Encoder模块对输入序列实施编码,若将编码结果记为C,则C的表达方式为:C=F(x1,x2,x3,…,xn)(1)在此基础上通过Decoder模块对C实施解码,将解码结果记为yi,yi的表达方式为:C=G(y1,y2,y3,…,yi-1)(2)由此可知,Decoder在输出yi的过程中自始至终采用相同的语义信息,序列X中的各个元素与序列Y中的各个元素均有着相同的影响力,并且各个元素的先后顺序直接决定元素的影响力。另外,在语义编码code向量维度的限制下,序列输入较为的模型会存在部分有效信息丢失的问题,这与人脑的注意力分配机制有着本质的区别。因此,本次研究提出了Attention-Model机制,针对当前输出yi的注意力概率分布状况加以计算,获取与yi元素一一对应的语义编码信息,进而实现针对当前输出的优化。Attention-Model与Encoder-Decoder相结合的模型框架如图2所示。根据图2可知,每一个输出元素都有对应含有输入序列概率分布的语义编码C,因此可以通过如下公式来表示输出结果yi:yi=F(Ci,y1,y2,y3,…,yi-1)(3)上式中,Ci为输入序列X处于编码阶段时的历史状态,设S(xi)为输入xi在编码过程中的非线性函数处理结果,根据编码过程中输入序列所对应的状态值能够计算出这些状态值对于输出yi的注意力概率分布,并在此基础上获取与之相对应的语义编码Ci,具体计算方法为:(4)上公式将输入序列的元素的数目记为T,将输入xj对输出yi的注意力概率记为aij。在文本处理工作中,编码阶段和解码阶段最常见的配置模型为RNN(递归神经网络)模型,具体计算过程如图3所示。在图3中,F函数是一种对齐概率计算方法,通过该函数对输出yi在前解码阶段的隐藏层节点实施概率远处即可获得注意力分布概率。

3Attention-BasedLSTM文本分类模型

根据Attention-Model的基本原理可知,将Attention-Model与注意力概率分布结合起来使用,能够强化关键输入对输出的影响。为了将Attention-Model应用于文本分类工作,本次研究提出了Attention-BasedLSTM(LongSh-ort-TermMemory)编码模型,基于含有注意力概率分布的语义编码来输出文本特征向量。针对注意力分布概率进行计算是Attention-Model的核心任务,计算方法具体如下:在图4中,atk代表注意力概率,即节点t对于输出k的影响为权重,其计算方式决定Attention-Model的效率和作用。基本文本数据分类处理的工作特点,本次研究将At-tention-Model应用于编码阶段。设定文本输入序列为x1,x2,x3,…,xT,针对该序列实施向量累加处理并计算均值,进而获取文本总体输入向量X',同时将X'定义为编码阶段最后的输入。Hk对应输入X'的隐藏层状态值。h1,h2,h3,…,ht分别对应输入序列x1,x2,x3,xT的隐藏层状态值。基于Attention-Model的LSTM模型结构如图5所示。在图5中,aik代表历史节点对于最后节点的注意力概率,X'代表文本总体的输入向量表示,x1,x2,x3,…,xT代表文本的词语表示。计算对于x1,x2,x3,…,xT对于文本整体的影响力权重,能够有针对性地强化关键词的作用,同时弱化非关键词的作用。在数据处理方面,首先要计算注意力分布概率的语义编码,具体方法如下:以上两公式将输入序列第i个元素对应的隐藏层的状态值记为hi,将最后输入对应的隐藏层状态记为hk,将输入序列的元素的数目记为T,将节点i对于节点K的注意力概率权重,U、W、v分别为权重矩阵。

4文本分类实验

本次研究基于Google提供的机器学习库Tensorflow对基于Attention-BasedLSTM数学模型的文本分类算法进行实验分析,通过Python对算法进行编程,程序运行平台为Ubuntu12.04操作系统。实验语料数据分别来自Sougou实验室语料库、Amazonreviewsdataset、YahooAnswersdataset、Yelpreviewsdataset、DBPediadataset等。以Sougou实验室语料库为例,该数据集是由Sougou实验室从科技、汽车、娱乐、财经、体育等5个门户版块所提取的新闻数据,第个类别包含12000条测试数据和90000条训练数据,单个文本由内容、标题、类别三部分组成,所有文本均为长文本。同时选取LSTM、Bi-LSTM与本次研究所提出的At-tention-BasedLSTM进行对比,各个算法的分类准确率对比结果如表1所示。经实验研究发现,本次研究所提出的Attention-BasedLSTM算法对于各种不同来源的语料库均表现出了最佳的分类准确率水平。

5结束语

本次研究将Attention-Model与Encoder-Decoder结合起来并建立了一套基于Attention-BasedLSTM数学模型的文本分类算法。将该算法应用于文本数据分类处理工作,能够有效强化关键词对于整体文本的影响力,进而得出较为准确的注意力分布概率,最终实现文本数据的高精度分类。通过该技术对文本数据实施精准分类,有助于互联网公司向用户精准投送文本资料,提高网络资讯服务水平。

作者:黄阿娜 单位:咸阳职业技术学院