神经网络文本分类十篇

时间:2023-05-31 15:22:29

神经网络文本分类

神经网络文本分类篇1

P键词:深度学习;文本分类;多类型池化

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)35-0187-03

1 引言

为了进行分类,我们建立句子模型来分析和表示句子的语义内容。句子模型问题的关键在于一定程度上的自然语言理解。很多类型的任务需要采用句子模型,包括情感分析、语义检测、对话分析、机器翻译等。既然单独的句子很少或基本不被采用,所以我们必须采用特征的方式来表述一个句子,而特征依赖于单词和词组。句子模型的核心是特征方程,特征方程定义了依据单词和词组提取特征的过程。求最大值的池化操作是一种非线性的二次抽样方法,它返回集合元素中的最大值。

各种类型的模型已经被提出。基于成分构成的方法被应用于向量表示,通过统计同时单词同时出现的概率来获取更长的词组。在有些情况下,通过对词向量进行代数操作生成句子层面的向量,从而构成成分。在另外一些情况下,特征方程和特定的句法或者单词类型相关。

一种核心模型是建立在神经网络的基础上。这种模型包含了单词包或者词组包的模型、更结构化的递归神经网络、延迟的基于卷积操作的神经网络。神经网络模型有很多优点。通过训练可以获得通用的词向量来预测一段上下文中单词是否会出现。通过有监督的训练,神经网络能够根据具体的任务进行良好的调节。除了作为强大的分类器,神经网络模型还能够被用来生成句子[6]。

我们定义了一种卷积神经网络结构并将它应用到句子语义模型中。这个网络可以处理长度不同的句子。网络中的一维卷积层和多类型动态池化层是相互交错的。多类型动态池化是一种对求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化体现在两个方面。第一,多类型池化操作对一个线性的值序列进行操作,返回序列中的多个数值而不是单个最大的数值。第二,池化参数k可以被动态的选择,通过网络的其他参数来动态调整k的值。

卷积层的一维卷积窗口对句子特征矩阵的每一行进行卷积操作。相同的n-gram的卷积窗口在句子的每个位置进行卷积操作,这样可以根据位置独立地提取特征。一个卷积层后面是一个多类型动态池化层和一个非线性的特征映射表。和卷积神经网络在图像识别中的使用一样,为丰富第一层的表述,通过不同的卷积窗口应用到句子上计算出多重特征映射表。后续的层也通过下一层的卷积窗口的卷积操作计算出多重特征映射表。最终的结构我们叫它多类型池化的卷积神经网络。

在输入句子上的多层的卷积和动态池化操作产生一张结构化的特征图。高层的卷积窗口可以获取非连续的相距较远的词组的句法和语义关系。特征图会引导出一种层级结构,某种程度上类似于句法解析树。这种结构不仅仅是和句法相关,它是神经网络内部所有的。

我们将此网络在四种场景下进行了尝试。前两组实验是电影评论的情感预测[2],此网络在二分和多种类别的分类实验中的表现都优于其他方法。第三组实验在TREC数据集(Li and Roth, 2002)上的6类问题的分类问题。此网络的正确率和目前最好的方法的正确率持平。第四组实验是推特的情感预测,此网络将160万条微博根据表情符号自动打标来进行训练。在手工打标的测试数据集上,此网络将预测错误率降低了25%。

本文的概要如下。第二段主要阐述MCNN的背景知识,包括核心概念和相关的神将网络句子模型。第三章定义了相关的操作符和网络的层。第四章阐述生成的特征图的处理和网络的其他特点。第五章讨论实验和回顾特征学习探测器。

2 背景

MCNN的每一层的卷积操作之后都伴随一个池化操作。我们先回顾一下相关的神经网络句子模型。然后我们来阐述一维的卷积操作和经典的延迟的神经网络(TDNN)[3]。在加了一个最大池化层到网络后,TDNN也是一种句子模型[5]。

2.1 相关的神经网络句子模型

已经有很多的神经网络句子模型被描述过了。 一种比较通用基本的模型是神经网络词包模型(NBoW)。其中包含了一个映射层将单词、词组等映射到更高的维度;然后会有一个比如求和之类的操作。结果向量通过一个或多个全连接层来进行分类。

有以外部的解析树为基础的递归神经网络,还有在此基础上更进一步的RNN网络。

最后一种是以卷积操作和TDNN结构为基础的神经网络句子模型。相关的概念是动态卷积神经网络的基础,我们接下来介绍的就是它。

2.2 卷积

一维卷积操作便是将权重向量[m∈Rm]和输入向量[s∈Rs]进行操作。向量m是卷积操作的过滤器。具体来说,我们将s作为输入句子,[si∈R]是与句子中第i个单词相关联的单独的特征值。一维卷积操作背后的思想是通过向量m和句子中的每个m-gram的点积来获得另一个序列c:

[ci=mTsi-m+1:i (1)]

根据下标i的范围的不同,等式1产生两种不同类型的卷积。窄类型的卷积中s >= m并且会生成序列[c∈Rs-m+1],下标i的范围从m到s。宽类型的卷积对m和s的大小没有限制,生成的序列[c∈Rs+m-1],下标i的范围从1到s+m-1。超出下标范围的si窄(i < 1或者i > s)置为0。窄类型的卷积结果是宽类型的卷积结果的子序列。

宽类型的卷积相比于窄类型的卷积有一些优点。宽类型的卷积可以确保所有的权重应用到整个句子,包括句子收尾的单词。当m被设为一个相对较大的值时,如8或者10,这一点尤其重要。另外,宽类型的卷积可以确保过滤器m应用于输入句子s始终会生成一个有效的非空结果集c,与m的宽度和s句子的长度无关。接下来我们来阐述TDNN的卷积层。

4 验与结果分析

我们对此网络进行了4组不同的实验。

4.1 电影评论的情感预测

前两组实验是关于电影评论的情感预测的,数据集是Stanford Sentiment Treebank.实验输出的结果在一个实验中是分为2类,在另一种试验中分为5类:消极、略微消极、中性、略微积极、积极。而实验总的词汇量为15448。

表示的是电影评论数据集情感预测准确率。NB和BINB分别表示一元和二元朴素贝叶斯分类器。SVM是一元和二元特征的支撑向量机。在三种神经网络模型里――Max-TDNN、NBoW和DCNN――模型中的词向量是随机初始化的;它们的维度d被设为48。Max-TDNN在第一层中滤波窗口的大小为6。卷积层后面紧跟一个非线性化层、最大池化层和softmax分类层。NBoW会将词向量相加,并对词向量进行非线性化操作,最后用softmax进行分类。2类分类的MCNN的参数如下,卷积层之后折叠层、动态多类型池化层、非线性化层。滤波窗口的大小分别7和5。最顶层动态多类型池化层的k的值为4。网络的最顶层是softmax层。5类分类的MCNN有相同的结构,但是滤波窗口的大小分别为10和7,k的值为5。

我们可以看到MCNN的分类效果远超其他算法。NBoW的分类效果和非神经网络算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因为过度池化的原因,丢弃了句子太多重要的特征。除了RecNN需要依赖外部的解析树来生成结构化特征,其他模型都不需要依赖外部资源。

4.2 问题分类

问题分类在问答系统中应用非常广泛,一个问题可能属于一个或者多个问题类别。所用的数据集是TREC数据集,TREC数据集包含6种不同类别的问题,比如一个问题是否关于地点、人或者数字信息。训练集包含5452个打标的问题和500个测试集。

4.3 Twitter情感预测

在我们最后的实验里,我们用tweets的大数据集进行训练,我们根据tweet中出现的表情符号自动地给文本进行打标签,积极的或是消极的。整个数据集包含160万条根据表情符号打标的tweet以及400条手工标注的测试集。整个数据集包含76643个单词。MCNN的结构和4.1节中结构相同。随机初始化词向量且维度d设为60。

我们发现MCNN的分类效果和其他非神经网络的算法相比有极大的提高。MCNN和NBoW在分类效果上的差别显示了MCNN有极强的特征提取能力。

5 结语

在本文中我们阐述了一种动态的卷积神经网络,它使用动态的多类型池化操作作为非线性化取样函数。此网络在问题分类和情感预测方面取得了很好的效果,并且不依赖于外部特征如解析树或其他外部资源。

参考文献

[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.

[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.

[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.

[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

神经网络文本分类篇2

【关键词】量子力学 神经网络 电力电子电路故障诊断 双桥12相脉波整流电路

现阶段,大多数电力电子电路故障诊断都利用人工神经网络来实现,这种故障诊断方法具有许多的优势,近年来应用越发的深入,但随之而来也凸显了许多不足之处,比如数据量较大时,处理速度比较慢,记忆容量比较有限,接收新的信息时候可能会发生突变性失忆等等,因此,行业内相关学者在经济的探索新的神经网络理论及结构。量子神经网络是20世纪末期出现的一种新的神经网络,相比于传统的神经网络,数据处理能力明显增强,稳定性及可靠性也很高,将其应用于电力电子电路故障诊断之中优势明显,下文主要就量子神经网络进行简单的介绍,重点分析基于量子神经网络电力电子电路故障诊断的方法。

1 量子神经网络概述

量子神经网络是经典神经网络与量子计算结合起来的产物,一般来说,主要有两种结合形式。

(1)⒘孔蛹扑憷砺垡入到神经网络结构及训练的过程中。

(2)设计神经网络的训练算法及拓扑结构设计过程中借用量子理论中的一些原理及概念。

本文主要介绍一种在四层前向BP网络基础上与量子计算理论结合形成的四层量子BP神经网络。该神经网络中,采用许多个传统的激励函数叠加形成了隐层量子神经元激励函数,该激励函数可以将决策的不确定性数据进行合理的分配,不确定性数据分配到不同的故障模式之后故障诊断的不确定度自然会有所降低,也就是说准确率有所升高。使用这种故障诊断方法能够将抽样数据中存在的模糊性自动诊断出来,如果特征矢量处于交叉类边界之中,神经网络能够将该特征矢量分配到所有相关的类中,如果分类时特征矢量不存在模糊性,同样分到对应的类中。这种故障诊断方法之下,特征矢量与故障类之间的对应关系能够精确的反映出来,诊断效率明显提高。量子神经网络主要分为输入层、输出层、第一隐层、第二隐层四层结构,输入层设为X= (X1,X1,……XN),输出层设为Y= (Y1,Y1,……YN),Sigmoid 函数为层间的传递函数,三层的权值分别为w1k,b,w2m,k,w3s,m,神经元个数分别为K、M、S,量子间隔大小与待诊断故障元件的数目相同。基于量子神经网络的学习算法之中神经元之间的权值更新与常规的BP算法中的一致,权值变化及误差反向传播都采用的是梯度下降法,实际的应用过程中为了防止陷入局部极小值,往往需要将自适应学习速率法及附加动量引入其中,确保网络能够滑过局部极小值迅速收敛。

2 基于量子神经网络的电力电子电路故障诊断方法

本文主要以双桥12相脉波整流电路为研究对象,验证基于量子神经网络的故障诊断方法的效果。图1所示为双桥12相脉波整流电路图。实际的故障诊断过程中首先使用电路仿真软件模拟该电路可能会出现的各种故障,得到对应的故障信号,将这些信号作为输入样本数据,对应的故障类型则作为网络输出数据,使用量子神经网络将故障信号及故障类型之间的映射关系分析、存储起来,最后测试训练后的神经网络并观察试验的结果。

2.1 量子神经网络的输入样本设计

在双桥12相脉波整流电路中,设置其控制触发角为0°,实验时只考虑电路中晶闸管开路的现象,然后使用ORCAD软件模拟该电路的各种故障。当电路中发生某一种故障之后,选择一个周期的电路的负载电压作为样本,取样的时间为0.1ms,一个周期的时长为20ms,因此,每组有200个样本数据,将这些数据归一化处理之后可以得到量子神经网络的输入样本。

双桥12相脉波整流电路晶闸管开路故障主要是电路中一个或者两个桥臂不导通,极少会出现三个或是四个桥臂同时不导通的现象。设该电路中有两个晶闸管同时出现故障,左右两部分电路没有同时故障,则该电路可能会存在包括无故障在内的7大类31小类故障。比如,接到同一项电压的V1V3或V7V9或V5V11同时发生故障,两只交叉的晶闸管V1V11或V1V7或V5V3或V5V7或V9V3或V9V11同时发生故障、同一半桥的两种晶闸管V2V6或V2V10或V6V10或V8V12或V8V4或V12V4同时发生故障等等,将所有的31小类故障分析出来之后编号,每个故障对应一个Y1Y2Y3Y4Y5Y6的六位编码,其中Y1Y2Y3表示大类,Y4Y5Y6表示小类,比如001001表示第一大类第一小类,与每组特征信号对应的故障编码为网络目标输出样本。

2.2 实验结果

本次实验中共有200个输入节点,6个输出节点,反复实验之后,第一隐层取80层,第二隐层取100层,各层的激活函数为σ(t)=1/(1+e-t),初始权值随机给出。

网络训练的误差结果如图2所示,图中横轴为训练步数,纵轴为量子神经网络训练误差,量子神经网络与经典BP 神经网络的网络结构及训练参数一致,二者的训练步数不同,其中量子神经网络10125步,而经典BP 神经网络为26745步。将标准样本以外的3100组数据加入到随机噪声之中作为网络测试样本,测试基于量子数神经网络的故障诊断方法的准确性,当实际输出满足一下条件时,认为该输出正确,即,其中为该神经网络的目标输出。网络诊断了检测完成之后还需要测试网络的误诊率,测试结果显示,诊断数为3100,当随机噪声为5%,量子网络诊断准确率为100%,BP网络准确率为99.20%;当随机噪声为10%时,量子网络诊断准确率为99.97%,BP网络准确率为78.50%;当随机噪声为15%时,量子网络准确率为99.84%,BP网络诊断准确率为64.35%;当随机噪声为20%时,量子网络准确率为99.45%,BP网络准确率为48.75%。诊断数为3100,当随机噪声为5%,量子网络的诊断错误率为0%,BP网络为0.50%;当随机噪声为10%时,量子网络诊断错误率为0.54%,BP网络为12.24%;当随机噪声为15%时,量子网络错误率为1.42%,BP网络为20.05%;当随机噪声为20%时,量子网络错误率为3.58%,BP网络为32.74%。由实验数据可以明显看出与经典的BP神经网络相比,量子神经网络的诊断率明显较高,误诊率相对较低,且当电路存在随机噪声时,量子神经网络依然能够比较稳定的检测出电路故障,抗噪能力及网络稳定性均较好。

3 结束语

本文就量子神经网络进行了简单的介绍,重点结合双桥12相脉波整流电路就基于量子神经网络的电路故障诊断方法进行了分析探讨,实验表明,基于量子神经网络的电力电子电路故障诊断方法准确度较高,与经典的BP神经网络相比具有误诊率低、抗噪能力强、网络稳定性较好等等优点,可以应用于电子电路的故障诊断。因篇幅所限,本文介绍的内容相对而言比较简单,希望能够为相关研究人员的电力电子电路故障诊断的工作提供参考。

参考文献

[1]王力,王旭,徐哲.电力电子电路故障预测关键技术论述[J].通讯世界,2016(02).

[2]汪蔚,王荣杰,胡清.神经网络电力电子装置故障诊断技术[J].微计算机信息,2012(16).

[3]李云红,谭阳红.基于量子神经网络的模拟电路的软故障诊断[J].微计算机信息,2013(10).

作者单位

神经网络文本分类篇3

(黑龙江民族职业学院,黑龙江 哈尔滨 150066)

摘 要:盈余预测具有引导投资者投资行为的作用,因此受到投资者的广泛重视。然而,国内对公司未来盈利进行预测的研究还相当少。提出了以决策树作为基分类器,采用集成学习方法,利用上市某公司2001至2005年的财务数据对该上市公司在2006年的盈利状况进行预测研究。首先,采用有放回的随机抽样技术分别从训练样本和测试样本中产生50个训练子集和1个测试集;然后利用决策树,采用CHAID算法对50个训练子集分别进行训练,得到50个基决策树分类器;通过采用Bagging方法,构建决策树集成模型。所得到的集成模型在测试集上的分类准确率达到96%以上,通过比较由不同数目的基分类器构成的集成模 型和单个分类器的预测准确率,证明了该集成模型的预测准确率高且稳定。

关键词 :神经网络;集成学习;盈利预测

中图分类号:F275文献标志码:A文章编号:1000-8772(2014)31-0253-02

收稿日期:2014-10-28

作者简介:潘道华(1981-),女,汉族,黑龙江哈尔滨人,研究生,主要研究方向:人工智能、数据挖掘与决策支持。

1 引言

公司的财务状况及其未来盈利情况不但对公司的管理层十分重要,而且对其他投资者也非常重要。如果能够利用公司以往的财务报表数据和其它一些宏观经济数据(如GDP、CPI、利率等)及早准确预测公司未来的盈利状况的话,那么就可以更有效地对公司进行管理和指导投资者的投资行为。但是,一个公司的财务报表往往只反映了公司在过去的财政年度内的经营状况,并不反映出公司在下一年中的管理情况。因而,一个公司的财务状况与其未来盈利之间的关系并没有那么明显,它受到很多因素的影响,要构建一个精确的模型反映它们之间的关系是很困难的。针对此情况,本文提出采用决策树集成方法,构建模型来刻画公司财务状况与其未来盈利之间的关系,利用上市公司已有的财务数据,并结合主要的宏观经济变量来预测公司未来的盈利状况,这必将是公司财务处理的一个新发展。

数据挖掘技术越来越多地被用于预测研究。集成学习方法作为数据挖掘技术中一种较新的方法,由于其在提高预测的准确性上的优点,正被越来越多的研究者使用。

尽管许多领域都应用集成学习方法来进行研究,但在对公司未来盈利的预测研究上还很少,在国内尚未见到任何报导。虽然Takashi Washio等人对日本上市公司的未来盈利状况进行了研究,但是他们只是将盈利状况分为两种情况来进行研究。本文通过利用集成学习方法,考虑宏观经济对公司盈利可能造成的影响,提出将宏观经济变量纳入变量体系,同时,为了使结果更有指导意义,将上市公司的每股收益(EPS)指标将公司盈利的情况划分为三类,即EPS为负,EPS大于均值及EPS介于二者之间,对其进行预测研究。

2 研究方法

2.1神经网络

人工神经网络是由大量并行分布式处理单元组成的简单处理单元[1]。由于神经网络具有非线性,自学习能力、自适应性强和容错性高等优点,因而被广泛用于各种非线性预测问题。

所有神经网络都有一个输入层和输出层,一个网络结构可以包含一个或多个隐含层。神经网络的学习是通过调整连接权重和偏差实现的。Cybenko等人证明了如果神经网络利用一个有界的,连续的,非递减的激活函数时,只要不对隐含层的神经元数进行限制,一个三层网络(包含一个隐含层)就能够学习任意一个在输入和输出空间的连续映射[2]。在实际应用中用的最多的是BP神经网络。

BP神经网络是一种基于误差后向传播算法(BP算法)的多层感知器网络。BP神经网络的激活函数一般采用Log-Sigmoid或Tangent Sigmoid等可微函数。BP算法分为两个阶段。第一阶段是前向过程,逐层计算各神经元的输出值,第二阶段是误差后向传播过程,从后向前逐层传播输出层的误差并据此修正各层权重,直到输出结果满足预先设定的精度要求或达到算法设定的最大循环次数。

2.2神经网络集成

如何根据观测数据学习得到精确估计是机器学习领域中人们非常关注的一个问题,机器学习的一个重要目标就是对新的测试样本尽可能给出最精确的估计。构造一个高精度估计是一件相当困难的事情,然而产生多个只比随机猜测好的粗糙估计却很容易。传统的机器学习方法是在一个由各种可能的函数构成的空间中寻找最接近实际分类函数的分类器。常用的单个分类器模型主要有决策树、人工神经网络等。

集成学习(ensemble learning)的基本思想是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果按某种方式来进行组合,决定最终的分类,以取得比单个分类器更好的结果。如果把单个分类器比作一个决策者的话,集成学习方法就相当于多个决策者共同进行一项决策。

尽管单个神经网络在处理非线性问题上表现良好,但是用单个神经网络来进行预测,一个不足的地方就是结果的稳定性差。因为神经网络的预测结果受网络各层之间的初始权重影响很大。为了克服这一不足,本文利用集成学习的思想,采用以BP神经网络作为基分类器的神经网络集成方法来对公司未来盈利状况进行预测。

以神经网络作为基分类器构建集成模型的方法主要有Bagging和Boosting。本文选择采用Bagging方法,因为Bagging方法较易于实现,而且不容易产生过拟合现象。对一个已知的有n个数据元素的数据集,Bagging法的原理是[1]:对每次循环(=1,2,…,),采用有放回的随机抽样方法从数据集中抽取m个数据形成训练集(mn),分类器模型从中学习。为了对一个未知的元素X分类,每个都返回一个分类值,将该分类值看成是一票,而最后的集成分类器,通过统计这些投票,将X归为得票最多的那一类。

3 研究步骤与具体实例分析

3.1样本选取

本文采用的上市公司数据样本来自天软数据库。在剔除了财务变量有大量缺失值后,样本共包含从2001年至2006年的深市和沪市A股的1174家上市公司。其中,沪市上市公司734家,深市440家。本文选取了反映上市公司偿债能力,成长能力,经营能力,资本结构,盈利能力,现金流,每股指标等方面的29个财务变量作为初始变量。此外,为了研究宏观经济环境对公司未来盈利的影响,相应的选择了2001年至2006年的三个宏观经济变量:国内生产总值增长率(GDP),居民消费价格指数增长率(CPI)及一年期金融机构贷款基准利率。这几个变量都与公司的盈利状况有着密切的关系。国内生产总值反映了整个国家的经济状况,而居民消费价格指数是反映居民购买并用于消费的商品和服务项目价格水平的变动趋势和变动幅度的相对数,它可以全面反映多种市场价格变动因素及其对居民实际生活的影响程度。一年期金融机构贷款基准利率会影响公司的营运成本,会对公司的利润产生直接的影响。所有变量见附表。

为了预测未来公司的盈利状况,本文将数据样本分为训练样本和测试样本。其中,训练样本由2001年至2005年的公司样本数据用有放回的随机抽样方法得到,每个训练样本包含1000个观测,测试样本是用相同方法得到的上市公司在2006年的数据样本,包含400个观测。

3.2指标选择

对于初始变量表,变量之间存在着相关性。虽然神经网络对变量间的相关性具有较强的容忍度,但是,变量太多会增加网络的复杂度,还有可能使网络过适应,从而使得网络在测试样本上的表现很差,而且并不是变量越多,神经网络的预测精度就越大,所以适当选择具有代表性的指标变量既可以达到与用所有变量相同的预测精度,又能降低网络的复杂度,避免使网络陷入过适应,提高网络的训练速度。

然而,运用神经网络方法,对输入变量的选取目前并没有一个公认的方法。为了从众多的初始变量中选择具有代表性的变量,本文利用spss Clementine11.1数据挖掘软件包选项面板中的建模栏中的特征选择节点来对变量进行筛选。通过构建一个带有特征选择节点的流,可以为每一训练集筛选出重要的变量。利用筛选出来的变量和全部变量分别对训练样本进行训练,得到两种神经网络模型,分别对测试样本进行分类,并分别构建集成模型。

3.3 建立模型

本文是对2001年至2005年上市公司的数据样本进行训练得到单个神经网络模型,用该模型对测试样本进行预测。如何产生不同的分类模型是影响集成模型准确性的一个重要因素[4]。以下四种方法——不同的初始条件,不同的网络结构,不同的训练数据,不同的训练算法常用来产生分类模型。本文采用不同的训练数据和不同的网络结构这两种方式结合得到基神经网络。

按照Bagging方法的要求,本文采用有放回随机抽样方法,从训练样本中随机抽取了15个子训练集,并用相同的方法从测试集中抽取了400个样本数据组成测试集。每个子训练集含有1000个样本,它们均由2001至2005年的200个公司样本组成。利用特征选择节点在每个训练集上选出的变量分别在这15个子样本上进行训练得到子分类器,然后用这些子分类器对测试样本进行分类。采用多数投票法对子分类器进行集成,得到集成方法在测试集上的预测结果。

3.4 结果分析

为了比较集成模型与单个神经网络预测准确率的差异,按照单个神经网络模型预测准确率按升序进行排序,分别计算了由7个、9个、11个、13个、15个基神经网络模型构成的集成模型的预测准确率,集成模型,不论是由用全部变量进行训练得到的基神经网络构建还是由用筛选出的变量进行训练得到的构建,都显示出了很高的准确率,而且得到的预测准确率相当稳定。

4 结论

本文利用神经网络集成的方法,以上市公司过去的财务数据和宏观经济数据为样本,对上市公司的未来盈利状况进行预测。研究结果表明,相比于单个神经网络模型,尽管选用7个预测精度最差的单个神经网络作为基神经网络,其集成网络的预测准确率仍然很高,因而集成方法得到的结果更稳定,更具有说服力。

由于上市公司管理水平的差异,影响公司盈利状况的因素又多,所以要想较好的刻画它们对盈利状况的影响,是一个很有挑战性的问题。本文的研究结果还表明,采用神经网络集成方法来研究未来盈利状况是可行的。进一步的研究可以从以下几个方面考虑:

(1)变量的选取。为了使预测更为准确,在建模时,需要考虑更多的影响因素。由于公司盈利状况跟公司的管理水平直接相关,因此,如何合理选取量化一些有关公司治理的指标变量,将它们加入到模型中去,是一个值得深入研究的问题。

(2)产生集成神经网络的方法。除了Bagging方法,还有其他产生集成神经网络的方法,比如Boosting方法。不同的方法会得到不同的结果,从而通过比较不同的结果,可以得到一个用来研究此类问题的最好的方法。

参考文献:

[1] Lars Kar Hansen, Peter Salamon. Neural network ensembles,IEEE transactions on pattern analysis and machine intelligence,vol.12, pp993-1001, 1990.

[2] Li-Chiu Chia,Tseng-Chung Tang. Artificial neural networks in reorganization outcome and investment of distressed firms: The Taiwanese case, Expert Systems with Applications, vol.29,pp641-652, 2005.

[3] Jiawei Han Micheline Kamber, data mining; concepts and tech-niques(second edition)[M].北京:机械工业出版社,2006.

神经网络文本分类篇4

关键词:LVQ神经网络;遗传算法;故障诊断

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2013)03-0156-02

本文将故障诊断问题看成一类特殊的分类问题,利用LVQ神经网络的分类功能,建立齿轮箱故障诊断的神经网络模型。模型通过对一些典型的故障特征进行训练学习后,用于齿轮箱的故障诊断。

一、LVQ神经网络原理

早在1990年,著名的神经网络专家Kohonen就提出了学习向量量化(Learning Vector Quantization,LVQ)算法。LVQ神经网络是用于模式分类是一种神经网络模型,允许对输入分到哪一类进行指定。LVQ算法对应的网络结构如下:①包含n个输入神经元,输入向量为X=(x1,x2,…,xn),即样本是n维的,X所对应的类别为T;②每个输出神经元j都对应一个权向量,Wj=(w1,w2,…,wn),记所有输出神经元构成的集合为Ω;③Cj为输出神经元j所代表的类别,不同的输出神经元可以代表同一个类别。

下面介绍LVQ算法:①初始化权向量Wj,?坌j∈Ω,设初始学习率为α(0);②从训练集中选取一输入向量X,找出与X具有最小欧氏距离的Wk;其中k=arg■X-Wj;③按下列公式调整神经元k的权值,如果T=Ck,即分类正确,则Wk(t+1)=Wk(t)+α(t)(X-Wk(t)),如果T≠Ck,即分类不正确,则Wk(t+1)=Wk(t)-α(t)(X-Wk(t));④选择下一个输入向量,返回第二步,直到样本集中所有的向量都提供一遍为止;⑤判断停机条件是否满足。若满足,停机;若否,转第二步。

二、遗传算法优化的LVQ神经网络

LVQ神经网络具有很好的分类识别特性,能对任意输入向量进行分类,无论它们是否可分,但LVQ神经网络有两个不足:(1)存在“死神经元”,即未被充分利用的神经元;(2)算法天然对初始权值敏感,即如果初值的选择偏差太大就会影响聚类的结果,从而影响诊断结果。为了克服LVQ算法对初始权值的敏感性,本文采用遗传算法对LVQ的初始权值进行优化,形成基于遗传算法的LVQ神经网络。遗传算法是模拟生物进化过程中自然选择和遗传变异的一种随机优化算法,它只是要求被优化的函数是可计算的,不要求目标函数具有连续性和可微性,搜索能力不依赖于特定的求解模型,具有很强的全局搜索能力。目前遗传算法已被广泛应用于各个领域,如自适应控制、优化组合、机器学习等。遗传的操作步骤为:(1)种群初始化。由于染色体代表的是LVQ网络的权值,故染色体采用实数编码,假设训练样本输入向量的维数为n,则选择n个0-1的随机数作为初始网络权值,并组成染色体,染色体的长度为m×n,m为输出神经元的个数,重复上述过程,得到S个染色体。(2)计算每一条染色体的适应度。在本算法中,记适应度最小的染色体为Wmin,Wmin为一个好的初始权值。因为LVQ算法是有导师的学习,所以,本文将适应度函数定义为:fitness=■■■(yi(k)-ti(k))■。其中,r为输出层节点数,q为样本个数。(3)交叉操作。将染色体群体中的个体随机两两配对,采用双点交叉算子进行交叉操作,产生新一代群体。(4)变异操作。变异操作是遗传算法种群多样化的保证。在该算法中,由于染色体对应于LVQ神经网络的权值,因此采用位置变异算子,以较小的变异率对新一代种群进行变异操作。基于遗传算法和LVQ神经网络的故障检测算法如下:(1)产生初始种群,并指定最大运行代数。(2)建立网络,并用种群中的个体对网络的权值进行初始化。(3)用训练集对网络进行训练并仿真。(4)计算当前群体的适应度值。(5)染色体进行选择、交叉和变异。(6)选择最优的染色体,得到网络权值。(7)用测试集,测试遗传算法优化的LVQ神经网络的性能。

三、实验与讨论

本实验分别用LVQ神经网络和遗传算法优化的LVQ神经网络对相同的训练集进行学习训练,再用测试集分别测试学习好的网络的性能。训练集是通过安装在箱体8个敏感点的压电加速度传感器拾取各测试点的振动信号,经数据采集系统和数据处理系统处理后的12组数据,测试集为3组数据。齿轮的三种故障模式为:无故障1;齿根裂纹2;断齿3。实验过程中,两个网络都是三层网络结构,隐层都含有5个神经元。基于遗传算法的LVQ神经网络利用遗传算法优化了输入层到隐层的权值。

Figure 1 训练集数据

Figure 2 训练集所属的类别

Figure 3 测试集数据

Figure 4 测试集所属的类别

Figure 5 遗传算法优化的LVQ网络的仿真结果

Figure 6 LVQ网络的仿真结果

结果表明,遗传算法优化LVQ网络比LVQ网络有更高的诊断精度。

四、结论

神经网络文本分类篇5

关键词:ART2神经网络;模式漂移;标幺值;距离

中图分类号:TP183文献标识码:A

文章编号:1001-9081(2007)04-0945-03

0引言

基于自适应共振理论的ART2神经网络,采用竞争学习和自稳机制原理来实现稳定的分类,在语音、视觉、嗅觉和字符识别等领域得到广泛应用。在注意子系统对输入模式通过向量归一化和非线性变换预处理过程中,易将重要但幅度较小的分量作为基底噪音而滤除,这样在分类过程中就丢失了重要的信息;同时,在学习过程中还存在因权值修正问题而造成的模式漂移现象。针对模式漂移等不足,国内外提出了许多解决办法,主要是结合遗传算法或小波等算法进行互补[1,2]。本文分析了造成这些不足的原因,提出了标幺值和基于类内样本与类中心的距离不同而对类中心偏移产生不同影响的思想,提出了改进算法,仿真实验证明改进算法能有效地改善模式漂移现象。

1传统ART2神经网络简介[3,4]

一种典型的ART2神经网络结构如图1所示:图中只画出了维数为q的样本X的第j个分量Xj

的处理结构图。

整个系统分为注意子系统和定向子系统两部分。注意子系统完成由底向上矢量的竞争选择及矢量间相似程度的比较,定向子系统检查相似度能否达到检测标准,并做出相应的动作,共振或者重置。

在注意子系统F1层特征表示场对输入模式X通过向量归一化和非线性变换进行预处理,以达到抑制噪声增强对比的作用,得到自稳后的输入模式U。

否则,当前激活节点I被重置并被屏蔽,在剩余节点中继续搜寻最匹配的。如果所有节点均不能通过警戒测试则开辟新的输出节点,即创建一个新类。并对新类所对应的内星及外星连接权矢量进行初始化:

2网络的分析和学习算法的改进

注意子系统F1层特征表示场要对输入模式X通过向量归一化和非线性变换进行预处理,在很多应用场合,由于输入模式X的分量的单位各不相同,会出现一些重要但幅值较小的分量,例如输入X=(70,2,85),三个分量代表不同的特征而单位不同,如果分量x2是一个很重要的量,经F1层特征表示场对输入模式X通过向量归一化,按照式(1)进行计算得:

被当作基底噪声而滤除,影响了分类的正确性。造成这种现象的主要原因是因为各分量的度量标准不同,如果输入分量变成无单位的值,将极大改善这种状况。工程计算中,往往不用各物理量的实际值,而是用实际值和相同单位的某一选定的基值的比值(标幺值)来进行计算。标幺值=实际值/基值,它是个相对值,没有单位。因此,在输入前应该对输入向量进行无单位化预处理。具体算法如下:

在聚类中,样本之间的距离常作为它们是否属于同一类一个判别标准,因此,将输入模式与现有的模板中心的距离引入了匹配度检验阶段及权值修改中,这将有效地改善模式漂移现象,具体改进算法如下:

3)权值的修正,根据输入样本与模板中心的距离来调整,基于如下的思想:对于同一个类的样本,当新增加一个样本,距离模板中心越远的样本对模板中心的迁移影响越大。这样得到的模板中心就会尽可能的接近真正的聚类中心,将改善模式漂移现象。权值的修正采用如下的修正公式:

3实例分析

为分析方便,文章采用文献[6]的实例,该组模式共有89个,其幅角分别为1°,2°,…,89°,其幅角作为序编号对各模式进行了标记。因为样本是二维数据,虽然幅值都为1,如果仅用幅角表征,相当于将其转化成一维的样本,显然仅将幅角作为输入是不合理的。表征平面上的坐标有极坐标和直角坐标,由于极坐标的两个分量幅值和幅角的单位量纲不同,而直角坐标的两个分量单位却是相同的,基于前面的分析,最好采用相同的单位,因此采用直角坐标来表征这组模式,分别为(cos1°,sin1°),(cos2°,sin2°),…,(cos89°,sin89°)。对于这组数据,分别采用顺序,逆序和随机输入的方式输入到传统ART2神经网络和本文的改进ART2神经网络。

3.1顺序输入方式

对于顺序输入比较结果见表1。其中参数如下:

传统的ART2神经网络参数为:a=10,b=10,d=0.8,e=0,θ=0.1,c=0.2,ρ=0.99,ww=0.01。

改进的ART2神经网络参数为:a=10,b=10,d=0.8,e=0,θ=0.1,c=0.2,ρ=0.9,ξ=0.97,ww=0.01。

可以看出,改进的ART2神经网络克服了传统ART2不能识别模式渐变过程的弱点,无超大类和样本混叠现象,良好地实现了分类。

对于逆序输入模式数据的分类结果基本类同于顺序输入方式下得到的结果。

3.2随机输入方式

将以上89个模式以随机输入的方式输入到传统ART2神经网络和本文的改进网络,共做10次实现,观察结果,表2列出具有代表性的一次分类结果。

两种ART2神经网络均将所有模式分为三类,其中传统的ART2神经网络的第一类模式序号均小于31,其规模仅有13个模式,属于超小类,缺少量为17个。第二类序号小于30的模式有18个,序号大于60的模式有6个,其规模为53个,属超大类,超出量为23个。第三类序号小于61的模式有3个,其规模为25个模式,缺少量为4个。第一类和第二类出现交混量,比例为0∶16,即本属于第一类的16个数据被错分到第二类,第一类与第三类交混量的比例为0∶1,第二类与第三类的交混量的比例为7∶2。

可以看出改进的ART2神经网络没有出现超大或超小类,同时交混量的数量也很少,说明改进的ART2神经网络分类性能显著提高。同时对其他几组结果进行分析,可知传统的ART2网络分类结果受模式输入顺序的影响较大,而改进的ART2网络的分类结果较为一致,说明改进后的ART2网络具有一定的鲁棒性。

4结语

神经网络文本分类篇6

关键词:模式识别;神经网络;感知器;权值

中图分类号: TP183 文献标志码: A 文章编码:2095-2163(2015)03-

Perceptron Network Weights Calculation and MATLAB Simulation in Pattern Recognition

ZHANG Guangjian

(1 Department of Information Engineering, Sichuan College of Architectural Technology,Deyang Sichuan 618000, China;2 Institute of Intelligent Computing, Sichuan College of Architectural Technology, Deyang Sichuan 618000, China)

Abstract:As the perceptron neural network pattern recognition, constructing the network model takes a very important parameters, which can be used by manual calculation, and can also carry out the training simulation obtained by MATLAB neural network toolbox. The paper uses two weights for building the classifier network model, and compares test results of the pattern recognition model.It is known that for the recognition rate of the samples tested, the weights are different,and in order to improve the generalization of the model, the construction of the network model need to test selects the optimal weights.

Keywords:Pattern Recognition; Neural Network; Perceptron; Weights

0 引 言

人工神经网络[1](artificial neural network,ANN),简称神经网络(neural network,NN),是一种对人脑功能实行模拟的简化模型结构,是一种功能型的数学模型(计算模型),可完成科学计算,并具有强大的处理问题能力。神经网络是由大量的人工神经元相互连接而成的信息处理系统,能够基于外界信息的引发改变内部结构,因而属于一种自适应系统。现代神经网络则是一种非线性统计性数据建模工具,常用来对输入和输出间的复杂关系进行建模,或用来探索数据的关联模式。

1943年,美国神经生理学家McCulloch和Pitts提出的第一个神经网络模型M-P模型,开创了人工智能的研究工作,奠定了神经网络的发展基础。其中的感知器(Perceptron)则是由美国计算机科学家罗森布拉特(Frank Rosenblatt)于1957年提出的。   本文由wWW. DyLw.NeT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及服务,欢迎光临DyLW.neT

具体来说,神经网络是一种运算模型[2],是由大量的节点(或称“神经元”,或“单元”)及其间的相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接均表示对于通过该连接信号的加权值,称之为权重(weight),也就相当于人工神经网络的记忆。此外的网络输出则是依据网络的连接方式、权重值(权值)和激励函数的不同而各不相同。综合论述可得,网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。因此,为解决模式识别问题创建的网络模型,若选用最优权值,就会极大地提高模式识别率。

1 感知器及学习算法

神经网络中,感知器神经网络[3]是一种典型的分层结构,信息从输入层进入网络后,将逐层向前传递至输出层。单层感知器是一个具有一层神经元、采用阈值激活函数的前向网络。通过对网络权值的训练,可以使感知器对一组输入矢量的响应完成结果为0或1的目标输出,从而实现对输入矢量分类的目的。没有反馈或竞争的简单神经元感知器模型如图1 所示。

图1 一个单一神经元的感知器模型

Fig.1 A single neuron perceptron model

在感知器学习算法[4]中,设输入向量 ,相应的权值向量 ,对一个输入模式 的网络输入 为

(1)

根据阈值函数产生一个输出 为:

(2)

感知器学习中,设t为目标输出,使用Hebbian学习,其误差公式为:

(3)

对任何新权值,具体计算公式为:

(4)

对于误差E的三种可能情况,新权值的调整公式为:

(5)

在公式(5)中, 是新的调整权值, 是前次或者初始权值; 是输入向量; 是学习率,且是一个常数, 。精准快捷地确定 值,将直接影响对后期的网络学习训练时间。 2 手工计算权值

样本集如表1所示。其中 x1,x2为两个输入,t为期望目标输出。感知器分类器的任务是将表1所示的二维模式进行分类。

表1 分类数据

Tab.1 Classification of samples

0.3,0.7 1

-0.6,0.3 0

-0.1,-0.8 0

0.1,-0.45 1

样本点如图2所示。

图2 输入向量与期望响应样本图

Fig.2 Input vector and the desired response sample figure

根据文献[2]的推理,假定 ,其中, 是学习率, 为网络初始权值。权值调整过程具体如下。

(0.3)=0.95

=-0.15

调整后的权值,继续计算第二组样本数据 。

如果分类正确,继续使用该组权值计算下一组数据;分类错误,即需应用公式(5)的规则进行权值调整,直到最终获得一组权值w=[1.05 0.025],完成对全部样本进行的正确分类。为此,根据权值和样本对感知器网络进行分类训练,其相应的分类结果如图3所示。

图3样本分类图

Fig.3 Sample classification map

3 MATLAB训练仿真

MATLAB神经网络工具箱(Neural Network Tool)[5],为神经网络提供了一种高效、集成的仿真手段,通过该工具箱,可以对神经网络进行设计、训练、可视化以及仿真。

使用MATLAB R2013a 的神经网络工具箱函数,设置p为输入向量,t为期望目标向量。

p= [0.3 -0.6 -0.1 0.1;

0.7 0.3 -0.8 -0.45];

t= [1 0 0 1];

net =newp(minmax(p),1);

网络传递函数指定为硬限值函数HARDLIM, 学习函数指定为LEARNP。创建如图4所示的感知器神经网络模型。

图4 生成的感知器网络模型

Fig.4 Perceptron network model generation

使用命令net=train(net,p,t)进行网络训练,使用sim(net,p)进行仿真,得到输出向量为[1 0 0 1],完全匹配期望目标向量t ,训练结果达到零误差,网络权值w=[1.8 0],偏值为b=0。使用plotpc(net.iw{1,1},net.b{1}) 命令在样本中绘制分类线,如图5所示,从图中可以看出分类线能对输入样本完全分类。

图5 训练后的网络对输入样本的分类

Fig.5 Classification of the input sample after network training

4 网络测试[6]

通过样本训练得到的网络,但是测试样本的准确率却未必会高。一个性能良好的网络应该具有优秀的泛化能力。首先输入样本数据进行训练,通过修正权值来减小误差得到拟合程度很高的网络模型,而后的网络测试则是用另外的样本数据去测试网络的性能。

对于两种权值建立的网络模型,通过加入测试样本数据进行分类测试,测试样本为:

p1=[ 0.4 -0.5 0 0.2 ; 0.8 0.4 -0.7 -0.35 ]

使用MATLAB的sim(net,P1) 函数完成对输入样本的测试。

对于手工计算获得的权值W=[1.05,0.025],加入测试样本集后,分类结果如图6所示。

图6测试样本分类(手工计算)

Fig.6 Test sample classification (manual calculation)

对于使用MATLAB计算机仿真训练获得的权值W=[1.8 0] ,加入测试样本集,分类结果如图7所示。

图7测试样本分类(MATLAB)

Fig.7 The test sample classification (MATLAB)

对比图6和图7,可以清楚看到根据两种方式获得的权值,建立两种感知器神经网络模型,均能对样本进行分类,但却同时可知图6的网络模型可对测试样本集进行更见成效的分类。

5 结束语   本文由wWW. DyLw.NeT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及服务,欢迎光临DyLW.neT

感知器神经网络只能解决线性可分的模式分类问题,在应用上有一定的局限性,但对于线性可分问题建立的模型,总能通过训练,在有限的循环次数内找到网络权值,使网络达到期望的输出,进而完成模式分类。通过对同一模型的手工计算和MATLAB训练,得出的网络权值并不相同,但都可以对网络进行分类,只是对于使用MATLAB进行的计算机训练仿真,所获取的权值与计算精度、连同使用的学习函数及传递函数方面将会有一定的影响。而且,选取不同权值建立的模型,在泛化能力上也将存在一定差异。作为感知器分类器的模型建立,需要反复比对找到最优的权值,这样建立的模型在泛化能力上才会具有更好的适应性。

参考文献:

[1] (美)Martin T. Hagan等,著.神经网络设计[M]. 戴葵等,译.北京:机械工业出版社,2002.

神经网络文本分类篇7

关键词:智能决策支持系统;人工神经网络;模糊逻辑系统;模糊神经网络

中图分类号:TP183 文献标识码:B

文章编号:1004-373X(2008)02-084-03

Design and Realization of Intelligent Prediction Model Based on Fuzzy Neural Network

YAN Hongrui,MA Liju

(The PLA Military Represent Office in No.847 Factory,Xi′an,710043,China )[HJ1*3][HJ]

Abstract:For the predicting problems that the intelligent decision support system often encounters,according to the characters of artificial neural network and fuzzy logic system,a kind of fuzzy neural network model is designed.Firstly,the fuzzy logic system for realizing fuzzy prediction is expressed by the construction of artificial neural network.Then the fuzzy logic system is trained by associate studying algorithms.At last,the model of fuzzy neural network has been proved by practice and realized in program.

Keywords:intelligent decision support system;artificial neural network;fuzzy logic system;fuzzy neural network

智能决策支持系统\[1\](Intelligent Decision Support System,IDSS)是以管理科学、运筹学、控制论和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,面对半结构化的决策问题,辅助支持中、高层次策者决策活动的、具有智能作用的计算机网络系统。神经网络和模糊逻辑是智能决策支持技术应用于信息管理后迅速发展的智能技术,在决策预测领域颇有成效。本文根据人工神经网络和模糊逻辑的特点,设计一种模糊神经网络完成决策支持系统中的信息预测功能,较好地解决了决策支持系统的实用化问题。

1 人工神经网络与模糊逻辑系统介绍

1.1 人工神经网络

2 模糊神经网络模型的设计与实现

2.1 模糊神经网络模型的选定

由以上介绍可知,在预测领域中,模糊逻辑具有较强的结构性知识表达能力,能较好地表示用语言描述的经验知识、定性知识,但通常不具备学习能力,只能主观地选择隶属度函数和模糊规则。神经元网络具有强大的自学习能力和数据直接处理能力,但网络内部的知识表达方式不清楚,在学习时只能从任意初始条件开始,其学习的结果完全取决于训练样本。

本文将神经网络的学习算法与模糊逻辑理论结合起来,利用正规化模糊神经网络(NFNN)实现模糊逻辑系统;用模糊规则表示神经网络,用预先的专家知识以模糊规则的形式初始化,用神经网络的学习算法训练模糊系统,然后结合神经计算的特点实现推理过程。

2.2 模糊神经网络模型的结构

本文采用一个3层的前向网络(如图3所示)来构造模糊系统(见图3)。这样模糊神经网可以用通用的三层模糊感知器来表示,该模糊感知器定义如下:

(1) U=∪i∈NUi是一个非零的神经元集合,N={1,2,3}是U的索引值集合,对所有的i,j∈N且满足为输入层,为规则(隐含)层,为输出层;И

2.4 模糊神经网络的编程实现

系统主要通过4个类来描述神经网络模型。他们是神经元类、神经元权类、神经元层类、神经元网络类。神经元类的作用是模拟单个神经元的数据结构和计算过程。神经元权值类用于保存神经元之间连接的权值。神经元层类的作用是生成每一层的神经元,并进行每一层的计算,他接受神经元网络类的调用,并调用神经元类的函数实现每一层的计算。神经元网络类定义了整个神经网络结构和所有的网络操作,他提供公共函数给应用程序调用,他的计算函数调用神经元层类和神经元类的函数进行网络计算。

通过4个类的描述,将建立和运行神经网络所需的主要数据结构和计算过程做了定义。当程序运行时,首先由应用程序生成神经网络类实例,然后此网络类实例进行层类实例的建立,接下来层类实例建立每层的神经元实例。同时,神经网络类也从外部文件读取网络结构的连接和权值数据,供建立网络时使用。

3 模糊神经网络的预测验证

模糊神经网络的预测验证如表1所示。

4 结 语

模糊神经网络模型把神经网络的学习算法与模糊逻辑理论相结合,将模糊系统用类似于神经网络的结果表示,再用相应的学习算法训练模糊系统,通过样本的学习算法提高网络性能。此模型曾经用于某军事模拟对抗系统中战场态势的预测,成功地实现了该模型的预测功能。但是模糊推理机是基于知识库中的知识和规则进行推理的,如何建立具有专家经验和知识的知识库,是模糊神经网络模型应用中的难点和重点。如何建立实用的知识库

以及决策过程中存在许多不确定性因素等问题还有待于进一步研究。

参 考 文 献

[1]George M Marakas.21世纪的决策支持系统[M].朱岩,译.北京:清华大学出版社,2002.

[2]Martin T Hagan,Howard B Demuth,Mark H.Beale.神经网络设计\[M\].戴葵,译.北京:机械工业出版社, 2003.

[3]刘有才.模糊专家系统原理与设计[M].北京:北京航空航天大学出版社,2003.

[4]张乃尧,阎平凡.神经网络与模糊控制[M].北京:清华大学出版社,1998.

神经网络文本分类篇8

1 引言

在现代机械制造领域中,随着工厂机械制造机器人的普及,机械臂已经变得越来越重要。与传统的工业机械臂相比,未来的机械臂要能够完成更加复杂的机械加工任务。在实际的机械制造机器人应用中,衡量机械臂的工作性能主要是工作效率和工作可靠性指标。

机械臂是一个开链式的多连杆机构,用固定基座来进行固定,机械臂可以根据需要在自由端安装执行器来实现工厂生产操作,关节之间的运动可以带动连杆运动,使得机械臂运动来达到不同的姿态。本文主要针对这个问题展开研究,探讨机械臂的路径规划问题。

2 径向基函数神经网络介绍

神经网络具有分布式存储、并行协同处理和对信息具有自组织自学习等优点,所以广泛应用在人工智能方面。神经网络的大量神经元之间的连接权值和分布分别代表着特定的信息,当网络受损时可以保证网络的输出正确,这种信息处理方式大大提高了网络的容错性和鲁棒性。

径向基函数神经网络是基于函数逼近理论的,是根据系统的海量样本数据来选择隐含层神经元的径向基激活函数,可以用基函数来表示,能够无限的逼近真实的算法表达,它选择合理的隐含层单元个数和作用函数,能够把原来的非线性不可分问题映射成线性可分问题,把不好处理的非线性问题方便的简化为线性问题。径向基函数神经网络在训练时,在给定训练样本后学习算法要解决的核心问题是:设计神经网络的网络结构和求解相关的参数。网络结构设计主要包括网络的输入、网络的输出个数,隐含层节点数目。相关的参数主要包括涉及的参数有径向基函数的中心值、以及函数宽度和权值。

径向基函数神经网络属于一种性能较优的前馈型神经网络,它具有多维度非线性的映射能力和并行信息处理的能力,以及强大的聚类分析能力。与BP神经网络相比,径向基函数神经网络的网络拓扑结构采用的是径向对称的核函数,这样可以大幅提高神经网络的学习速度,同时能够避免陷入局部极小,具有较好的全局寻优能力,同时也具有较好的逼近任意非线性映射能力。

3 机械臂路径规划设计

机械臂轨迹规划主要研究的是机械臂在多维空间中的运动路线,即给定一个初始状态位姿,一个期望的末端执行器的位姿,根据规定的要求来寻找连接初始状态和期望状态的最优有效路径,然后把最优路径转变为机械臂各个关节的空间坐标,进一步转化为机械臂的各个关节的位移、速度和加速度,就形成了机械臂的路径。

机械臂的动力学状态模型为:

其中:D(q)为对称正定的惯量矩阵,为哥式力与离心力矩阵,G(q)为重力项矩阵,q为机械臂关节角位移矢量,为机械臂的角速度矢量,为机械臂的角加速度矢量,为机械臂各关节控制力矩输入矢量。

机械臂的动力学参考模型为:

其中,y为2n+1的参考模型状态矢量,r为n×1的参考模型输入矢量。

径向基函数神经网络包括一个输入层、一个隐层和一个输出层。隐层由一个径向基函数组成,和每个隐层节点相关的参数为网络中心向量和半径。本文选择高斯函数作为径向基函数。本文选择的神经网络训练方法为:输入层到隐层用无导师的聚类算法来训练,常用的是K-均值算法和模糊聚类算法,来确定神经网络的中心向量和半径,隐层和输出层的权值调整用有导师指导算法,来确定权重向量。

算法流程如下:首先对样本数据进行聚类,然后确定神经网络的隐层节点的中心的初始值,将这些样本进行分组,然后将训练样本按照距离的远近向隐层节点的中心聚类,完成后计算样本的均值,将样本均值赋值给隐层中心作为下一次迭代的聚类中心,下一步要判断聚类过程是否结束,聚类结束标志是当划分的每个聚类的样本中心不再变化。然后再计算下宽度半径,宽度半径等于每个聚类中心与该训练样本之间的平均距离。

通过算法验证,对机械臂的路径规划验证了算法的合理性和可行性,规划后支反力和扭矩等动力性能较好,完全满足工程需求。

神经网络文本分类篇9

关键词:神经网络;模式;分类

中图分类号:TP183文献标识码:A文章编号:1009-3044(2009)04-0922-02

The Research of the Classification of Model with Neural Network

GUO Xiao-yan

(Gansu Agriculture University, Information & Science Technology College, Lanzhou 730070, China)

Abstract: The problems of classification of model with neural network can be solved by the help oftutors information, and also be solved by the help of clustering without the tutors information.This article analyzes andcompares several neural network models being used for classification of model,reach a conclusionthat inparticular situation different models of neural network can bechoiced , and if nessesary aintegratedway can be used.

Key words: neural network; classification; model

传统的分类方法对于同类相聚,异类分离比较有优势,但客观世界中许多事物在样本空间中的区域分割曲面非常复杂,相近的样本可能属于不同的类,而远离的样本可能属于同一类1。模式是对某些感兴趣的客体的定量描述或结构描述,模式类是具有某些共同特征的模式的集合。模式分类可分为两种类型,分类和聚类,分类是在类别知识等导师信息的指导下,将待识别的输入模式分配到各自的模式类中去。聚类是无导师的分类方法,它是将相似的模式样本划归为一类,而将不相似的分离开,实现了模式样本类内相似性和类间分离性。通过聚类,可以发现原始样本的分布特性。

神经网络对外界的输入样本具有很强的识别能力,可以发现输入样本自身的联系和规律以及输入样本和期望输出之间的非线性规律,因此在模式分类方面具有传统分类方法无法比拟的优点。人工神经网络在模式分类方面提出了大量了网络模型,发现了许多学习算法。

1 无导师分类机制

对于无导师的模式分类只从输入样本入手,通过分析与比较,找到输入样本的特征和内在规律,从而将具有相似性的样本聚为一类。

1.1 SOM网

SOM 网属于自组织映射神经网络,SOM神经网络接收外界的输入模式时,会分为不同的对应区域,各区域对不同的输入模式会有不同的响应特征,利用这个特征可以对输入模式进行分类。

算法思想:

它的学习规则是“胜者为王”。找出和输入向量最为相似的竞争层神经元(即获胜神经元),在一个以该神经元为中心的邻域内对本区域内的所有神经元的权值进行不同程度的调整,调整的原则是由远及近,由兴奋变为抑制,权值调整的结果是使竞争层的特定神经元变得对输入层的某些样本敏感,从而达到分类的目的。

算法步骤:

1) 找出获胜神经元

对于每一个输入模式向量 X,竞争层的所有神经元对应的内星权向量Wj(j=1,2,…,m)均与X进行比较,将与X最为相似的神经元判为获胜神经元。其权值记为Wj*。相似性量度为X和W的欧氏距离或夹角余弦。

m是竞争层神经元个数。

d=||X-Wj*||=min||X-Wj*||(j=1,2,…,n)

d为输入向量X离获胜神经元的距离

2) 找出一个Wj*的一个邻域Sj,对于Sj内的所有权值进行调整。

3) 权值调整

Wj(t+1)=Wj(t)+α[X-Wj(t)]

α为学习率,随着t的增加,α的值在不断地减小。

权值的调整是使得获胜结点更加接近输入样本,从而使竞争层的每一个神经元变为一个聚类中心。当向网络输入一个模式时,竞争层中哪个神经元获胜使输出为1,当前输入就归为哪类。

通过聚类进行模式划分的方法还有模糊聚类,K-均值聚类,HCM,最近邻聚类(NN算法)等,这些算法的最主要优点就是不需要导师信号,这对于一些无法得到导师信号的模式分类情况来说是有优势的。

2 有导师分类机制

基于无导师的聚类算法只考虑输入样本,而没有考虑输入样本所对应的输出、这就使得这样的分类不是最优的。

2.1 BP神经网络

BP神经网络利用导师信号和输入样本来训练网络的权值,从而找到从输入样本到导师信号(期望输出)之间的非经性变幻规律来修整权值,经过测试样本和期望输出的多次训练来使成熟的网络稳定,当有新的输入时,就可根据此规律对它样本进行正确的分类。

BP神经网络的算法思想是:输入样本自输入层传入,由各隐层处理后,传向输出层,这属于正向传播;如果输出与期望输出(导师信号)不符,得到误差值,输出误差通过隐层向输入层逐反向传播,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号成为修正各单元权值的依据。

2.1.1 BP神经网络的描述1(图2)

1) 正向传播

对于有单个隐层单元的BP神经网络而言

隐层输出:

输出层:

l 为输出层神经元的个数m为隐层神经元的个数n为输入层神经元的个数

f(x)可采用单极性的Sigmoid函数:

2)反向修正权值

输出误差E定义如下:

其中d为导师信号(期望输出),o为实际输出

进一步展开至输入层,有:

权值修正:

η是学习率,可以控制学习的时间和快慢。

在BP神经网络中,利用导师信号和神经网络的输出得到总误差E,调整权值时,按误差梯度下降的原则进行。利用BP神经网络进行分类时,可以利用导师信息先规定类别信息,再利用输入样本和类别信息得出E,从而反向调整ω,ν值,如果网络的总误差小于一个特定的值,可认为网络训练结束,得到最终的ω,ν值。对于新的样本,此训练好的网络便可进行正确分类。

3 径向基函数神经网络

利用BP网络进行分类时,完全没有考虑输入样本的特征,只利用导师信息进行权值的修正,因此学习时间很长,分类的精度也不是非常高,错分的情况很多。通常,输入样本本身具有某种规律性,利用现有样本的自身规律加上导师信号的限制,可以大大提高分类的精度,同时可以缩短学习的时间。径向基函数网络就是基于这种思想。

用径向基函数作为隐单元的“基”,构成隐含层空间。隐含层对输入向量进行变换,将低维空间的模式变到高维空间中,使低维空间中的不可分问题在高维空间中变得可分。

算法思想:

1)找到分类中心向量,也称基向量,(一般用K-均值法,动态聚类法等),假定分类中心向量个数为 个,这也就决定隐层神经元的个数。

2)算出输入样本到各个分类中心向量的距离d,利用基函数f(x),自变量为d,得到隐层输出,只有离分类中心最近的向量得到较大的输出。

p是输入样本个数,j是聚类中心的个数,k是样本和聚类中心向量的维数。

3)最后通过隐层到输出层的线性变换得到最终的输出,则:

学习算法:

1)利用无导师机制选取分类中心向量;

2)利用有导师信号修正隐层到输出层的权值,权值的修正仍用类似BP神经网络的梯度下降算法。

径向基函数网络对于输入层向隐层的变换是非线性的,而隐层到输出层变换进线性的,在确定中心结点时,可采用无导师的聚类机制,当修正隐层到输出层的权值时可采用有导师机制,此两种方法结合即可发现输入样本中的内在规律,又可利用导师信号进行约束从而提高分类的精度和缩短学习的时间。

3 结论

利用神经网络进行分类时,如果可以得到导师信号,可采用径向基神经网络,或BP神经网络,径向基神经网络收缩速度快,不容易陷入局部极小值,在解决分类时和般优越于BP神经网络,如果无法得到导师信号,则可采用自组织神经网络SOM网络,通常SOM也可以用在径向基神经网络的选用中心向量问题上。

参考文献:

[1] 韩力群.人工神经网络理论、设计及应用[M].2版.北京:化学工业出版社,2007.

神经网络文本分类篇10

关键词:小波神经元网络;隶属度;短期负荷预测;电力系统

ABSTRACT:Wavelet neural network (WNN) possesses more degree of freedom and better adaptivity than multi-layer FP neural network. To better reflect the influence of climate factors on load and improve the precision of load forecasting, the Morlet wavelet is chosen to establish a wavelet neuron network, the back propagate algorithm is adopted to train the WNN network, a new method of analyzing clustering by self-study membership is used to train the samples. The load data and climatic data of Wuhan power network in recent years are applied in modeling and load forecasting. The forecasting results show that the established WNN model possesses better convergence and the forecasting precision can be improved by choosing training samples with analyzing clustering by self-study membership.

KEY WORDS:Wavelet neural network;Membership;Short-term load forecasting;Power system

1 引言

短期负荷预测是负荷预测的重要组成部分,是电力系统运行调度中的重要内容。国内外已提出了多种短期负荷预测方法,如多元回归、ARMA模型、人工神经元网络方法等。可归类为:①利用负荷的自身发展规律,如ARMA模型[1]等;②负荷发展规律与气象因素相结合,如ANN(Artificial Neural Network)方法[2];③其他方法,如小波分解法[3-5]、模糊聚类法[6]及混沌算法[7]。

人工神经网络以其强大的多元性映射能力能够准确捕捉并学习负荷值与天气之间的非线性关系,使考虑气象因素的电力系统短期负荷预测成为可能。近年来它一直受到密切关注,且已成为解决电力负荷预测问题的有效计算工具。小波在分析非固定信号和构造非线性函数模型方面具有卓越性能,因此结合了小波基函数的小波神经元网络(WNN)比一般神经网络具有更多的优越性。

为更好地反映气象因素对负荷的影响及提高负荷预测的精度,本文构建了一种小波神经元网络负荷预测模型,以Morlet小波取代Sigmoid函数,采用误差反传学习算法来训练网络,采用自学习隶属度分析聚类方法来选择训练样本。

2 小波及小波变换

基本小波或母小波定义为满足相容性条件(如式(1)所示)的平方可积函数φ(t)∈L2(R)(L2(R)为二尺度空间)

式中 a、b为实数,且a≠0,称φab(t)为由母小波 (t)生成的依赖于参数a、b 的连续小波,也称为小波基。设反映负荷变化规律趋势的函数为f(t)∈L2(R),定义其小波变换wf(a,b)为

3 小波神经元网络

3.1 基本原理

小波神经元网络是基于小波分析的具有神经元网络思想的模型,即采用非线性小波基取代常用的非线性Sigmoid函数,通过线性叠加所选取的非线性小波基来拟合负荷历史数据序列。负荷曲线y(t)可采用小波基φab(t)进行如下拟合:

式中

为负荷曲线y(t)的预测值序列; Wk、bk、ak分别为第k个权重系数和第k个小波基的平移因子与伸缩因子;n为小波基个数。

在小波神经元网络中,小波神经元负责对输入信号进行预处理,再将其传递到多层感知器。采用神经元网络学习算法训练网络,在迭代过程中调整网络的各个参数和小波系数,使输出误差最小化。

3.2 网络结构

图1为4层小波神经元网络,图中输入层有I个神经元,xi为其第i个输入量;小波变换层有J个神经元, 、vj分别为其第j个输入量和输出量

隐层有K个神经元,yk为其第k个输出量;输出层有1个神经元,输出结果为Om,代表预测日第m个预测点的负荷值

式中 Ψs,t,j为小波变换函数; Wij、Wjk和Wk分别为输入层与小波层、小波层与隐层、隐层与输出层之间的连接权值。

考虑到Morlet小波的简明表达方式,选择Morlet小波作为网络隐含层的变换基函数

式中 xz =(x-tj)/sj ,sj 为小波神经元j的放缩系数,tj 为小波神经元j的平移系数。

神经元学习算法用于修正sj和tj以及网络输出线性组合的权值Wij、 Wjk和Wk,通过最小化误差能量函数优化这些网络参数。简化式(7)、(8),取g(x)=x,小波神经元网络的输出Om可表示为

式中 D为训练样本数目; 为第d个样本的第m个期望输出值。

转贴于 3.3 小波神经元网络的误差反传学习算法

为使误差Em最小,采用梯度下降法学习函数作为小波神经元网络的学习法则。该学习过程与普通神经元网络的算法相同。根据式(5)-(7)和式(8),可得到Em的负梯度值,由此推出与该WNN每个参数有关的局部误差函数。如由局部误差函数值构造出梯度矢量,该WNN参数即可用梯度下降法更新确定。对于式(11)的Em,对于第d个样

由于小波基函数对放缩系数和平移系数特别敏感,因此小波基节点数应足够大,以确保神经元网络的稳定性。此外,本文模型的网络参数初值选取如表1所示。

4 小波神经元网络预测模型的建立

4.1 采用改进隶属度分析聚类法选择训练样本

为避免气象突变、日期、星期类型的不同导致负荷模式的不同,从而显著增加神经元网络的训练时间并影响预测精度,需从历史数据中选取与预测日的特征量最为接近的历史日的数据作为训练样本,聚类分析是选择样本的有效手段。

在短期负荷预测的数据聚类中主要考虑的聚类特征指标有:最高温度、最低温度、平均温度、风力、可见度、湿度、天气类型、舒适度指数以及日期、星期等。这些因素对负荷变化的影响程度不同,其中最高温度、最低温度的变化对负荷变化的影响最大,且各因素的取值范围与正常变化范围也不同。本文采用自学习加权隶属度函数来进行模糊聚类分析。

假设有K个负荷日,特征量的个数为M,第k个负荷日的第j个特征量表示为ykj,将其作如下归一化处理

各特征量的隶属度函数表达式为

式中 μkj为第k个负荷日的第j个特征变量的隶属度值;gj为预测日(即聚类中心)的第j个特征变量;

设置阈值λ来确定训练样本,λ越大符合选择条件的训练样本数越少。采用监督式学习来决定权值wj。定义目标函数为

式中 nL为学习的样本数目;yi=Li/L0;L1为历史日i的负荷总量;L0为目标日的负荷总量;ti为历史日i与目标日的相似度值,即隶属度值。采用梯度下降法来调整权值使式(22)达到最小值。

4.2 WNN的构建与训练

本文构建的WNN网络有55个输入神经元(如表2所示),112个小波层神经元,30个隐含层神经元,1个输出神经元。

需指出的是,隐含层神经元最适宜的数目取决于误差检验,WNN网络通过未参加训练的某一阶段的历史数据来检验误差。训练中取近60天的历史数据运用上述基于隶属度分析的聚类方法来选取小波神经元网络的训练样本(10个)和检验样本(5个)。通过误差检验来确定隐含层神经元的数目。

5 算例

基于本文的模型原理和建模步骤,采用C++语言编写出小波神经元网络负荷预测程序。利用湖北省武汉市1999年5月-12月的历史气象和负荷数据进行预测:①WNN网络与BP网络的性能比较(10个样本批量训练,单点输出条件下)见表3;②采用本文模型对武汉市电网负荷进行预测,将其预测结果与使用普通BP神经元网络的结果进行比较。表4为采用小波神经元网络方法对1999年5月21日-1999年5月27日的负荷进行预测的平均相对误差与普通BP网络的比较,结果表明本文预测算法稳定实用,能够改善预测精度。

6 结论

本文探讨了小波神经元网络用于解决短期负荷预测的能力。研究表明恰当地选择训练样本和合理地选择网络结构是影响WNN网络预测精度的主要因素。小波神经元网络具有比BP网络更快的收敛速度,改进隶属度聚类方法的应用可改善负荷大波动日的预测精度。

[1] 施泉生(Shi Quansheng).短期负荷预报模型库的研究及应用(A study and apply on model system of short-term load forecasting)[J].系统工程理论与实践(System Engineering Theory and Practice),1996,16(7):99-104.

[2] Park D C,El-Sharkawi M A,Marks R J II et al.Electric load forecasting using an artificial neural network[J].IEEE Transactions on Power Systems,1991,6(2):442-449.

[3] 邰能灵,侯志俭,李涛,等(Tai Nengling,Hou Zhijian,Li Tao et al).基于小波分析的电力系统短期负荷预测方法(New principle based on wavelet transform for power system short-term load forecasting)[J].中国电机工程学报(Proceedings of the CSEE),2003,23(1):45-50.

[4] 冉启文,单永正,王骐,等(Ran Qiwen,Shan Yongzheng,Wang Qi et al).电力系统短期负荷预报的小波-神经网络-PARIMA方法(Wavelet-neural networks-PARIMA method for power system short term load forecasting)[J].中国电机工程学报(Proceedings of the CSEE),2003,23(3):38-42.

[5] 谢宏,陈志业,牛东晓(Xie Hong,Chen Zhiye,Niu Dongxiao).基于小波分解与气象因素影响的电力系统日负荷预测模型研究(The research of daily load forecasting model based on wavelet decomposing and climatic influence)[J].中国电机工程学报(Proceedings of the CSEE),2001,21(5):5-10.

[6] 姜勇(Jiang Yong).基于模糊聚类的神经网络短期负荷预测方法(Short-term load forecasting using a neural network based on fuzzy clustering)[J].电网技术(Power System Technology),2003,27(2):45-49.