神经网络论文范文10篇

时间:2023-03-22 17:56:21

神经网络论文

神经网络论文范文篇1

[关键词]软件项目风险管理神经网络粗集

本篇论文的中心是基于粗集的人工神经网络(ANN)技术的高风险识别,这样在制定开发计划中,最大的减少风险发生的概率,形成对高风险的管理。

一、模型结构的建立

本文基于粗集的BP神经网络的风险分析模型,对项目的风险进行评估,为项目进行中的风险管理提供决策支持。在这个模型中主要是粗糙集预处理神经网络系统,即用RS理论对ANN输入端的样本约简,寻找属性间关系,约简掉与决策无关的属性。简化输入信息的表达空间维数,简化ANN结构。本论文在此理论基础上,建立一种风险评估的模型结构。这个模型由三部分组成即:风险辨识单元库、神经网络单元、风险预警单元。

1.风险辨识单元库。由三个部分功能组成:历史数据的输入,属性约简和初始化数据.这里用户需提供历史的项目风险系数。所谓项目风险系数,是在项目评价中根据各种客观定量指标加权推算出的一种评价项目风险程度的客观指标。计算的方法:根据项目完成时间、项目费用和效益投入比三个客观指标,结合项目对各种资源的要求,确定三个指标的权值。项目风险系数可以表述成:r=f(w1,w2,w3,T,T/T0,S/S0,U/U0),R<1;式中:r为风险系数;T、T0分别为实际时间和计划时间;S、S0分别为实际费用和计划费用;U、U0分别为实际效能和预计效能;w1、w2、w3分别是时间、费用和效能的加权系数,而且应满足w1+w2+w3=1的条件。

2.神经网络单元。完成风险辨识单元的输入后,神经网络单元需要先载入经初始化的核心风险因素的历史数据,进行网络中权值的训练,可以得到输入层与隐含层、隐含层与输出层之间的权值和阀值。

(1)选取核心特征数据作为输入,模式对xp=[xp1,xp2,.,xpn]T,dp(网络期望输出)提供给网络。用输入模式xp,连接权系数wij及阈值hj计算各隐含单元的输出。

m

Ypj=1/{1+exp[-(∑wijxpi-hj)]},i=1,2,.,m;j=1,2,Λ,n,

i=1

(2)用隐含层输出ypj,连接权系数wij及阈值h计算输出单元的输出

m

Yp=1/{1+exp[-(∑wjxpi-hj)]},i=1,2,.,m;j=1,2,Λ,n,

i=1

Yp=[y1,y2,……,yn]T

(3)比较已知输出与计算输出,计算下一次的隐含各层和输出层之间新的连接权值及输出神经元阈值。

wj(k+1)=wj(k)+η(k)σpσpj+α[wj(k)-wj(k-1)]

h(k+1)=h(k)+η(k)σp+α[h(k)-h(k-1)]

η(k)=η0(1-t/(T+M))

η0是初始步长;t是学习次数;T是总的迭代次数;M是一个正数,α∈(0,1)是动量系数。σp是一个与偏差有关的值,对输出结点来说;σp=yp(1-yp)(dp-yp);对隐结点来说,因其输出无法比较,所以经过反向推算;σpj=ypj(1-ypj)(ypwj)

(4)用σpj、xpj、wij和h计算下一次的输入层和隐含层之间新的连接权值及隐含神经元阈值。wij(k+1)=wij(k)+η(t)σpjxpi+α[wij(k)-wij(k-1)]

3.风险预警单元

根据风险评价系数的取值,可以将项目的风险状况分为若干个区间。本文提出的划分方法是按照5个区间来划分的:

r<0.2项目的风险很低,损失发生的概率或者额度很小;

0.2≤r<0.4项目的风险较低,但仍存在一定风险;

0.4≤r<0.6项目的风险处于中等水平,有出现重大损失的可能;

0.6≤r<0.8项目的风险较大,必须加强风险管理,采取避险措施;

0.8≤r<1项目的风险极大,重大损失出现的概率很高,建议重新考虑对于项目的投资决策。

总之,有许多因素影响着项目风险的各个对象,我们使用了用户评级的方式,从风险评估单元中获得评价系数五个等级。给出各风险指标的评价系数,衡量相关风险的大小。系数越低,项目风险越低;反之,系数越高,项目风险越高。

二、实证:以软件开发风险因素为主要依据

这里我们从影响项目风险诸多因素中,经项目风险系数计算,作出决策表,利用粗集约简,抽取出最核心的特征属性(中间大量复杂的计算过程省略)。总共抽取出六个主要的指标(PersonnelManagement/Training,Schedule,ProductControl,Safety,ProjectOrganization,Communication)确定了6个输入神经元,根据需求网络隐含层神经元选为13个,一个取值在0到1的输出三层神经元的BP网络结构。将前十个季度的指标数据作为训练样本数据,对这些训练样本进行数值化和归一化处理,给定学习率η=0.0001,动量因子α=0.01,非线性函数参数β=1.05,误差闭值ε=0.01,经过多次迭代学习后训练次数N=1800网络趋于收敛,以确定神经网络的权值。最后将后二个季度的指标数据作为测试数据,输入到训练好的神经网络中,利用神经网络系统进行识别和分类,以判断软件是否会发生危机。实验结果表明,使用神经网络方法进行风险预警工作是有效的,运用神经网络方法对后二个季度的指标数据进行处理和计算,最后神经网络的实际输出值为r=0.57和r=0.77,该软件开发风险处于中等和较大状态,与用专家效绩评价方法评价出的结果基本吻合。

参考文献:

[1]王国胤“Rough:集理论与知识获取”[M].西安交通大学出版社,2001

神经网络论文范文篇2

关键词经济活动预测模型人工神经网络

经济活动诸如商品价格走势、生产活动的产量预测、加工的投入产出分析、工厂的成本控制等方面都是重要的技术经济层面。定量化的经济活动分析是经济学研究的必由之路,而建模是量化分析的基础,这是因为模型为科学分析和质量、成本等控制提供了理论依据。本文针对经济活动中大多数研究对象都具有的非线性特点,给出了用人工神经网络(ArtificialNerveNetwork)模型建立经济活动的预测模型的原理和方法,并描述了神经网络与各种先进的建模方法相结合的模型化方法,为经济活动的分析、预测与控制提供了理论基础。

1神经网络模型方法

现实的经济系统是一个极其复杂的非线性系统,客观上要求建立非线性模型。传统上使用回归与自回归模型刻画的都是线性关系,难于精确反映因变量的变化规律,也终将影响模型的拟合及预报效果。为揭示隐含于历史记录中的复杂非线性关系必须借助更先进的方法———人工神经网络(ANN)方法。

人工神经网络具有并行处理、自适应、自组织、联想记忆及源于神经元激活函数的压扁特性的容错和鲁棒性等特点。数学上已经证明,神经网络可以逼近所有函数,这意味着神经网络能逼近那些刻画了样本数据规律的函数,且所考虑的系统表现的函数形式越复杂,神经网络这种特性的作用就越明显。

在各类神经网络模型中,BP(Back-Propagation误差后向传播)神经网络模型是最常用的也是最成熟的模型之一。本质上,BP模型是对样本集进行建模,即建立对应关系Rm→Rn,xk∈Rm,yk→Rn。数学上,就是一个通过函数逼近拟合曲线/曲面的方法,并将之转化为一个非线性优化问题来求解。

对BP神经网络模型,一般选用三层非循环网络。假设每层有N个处理单元,通常选取连续可微的非线性作用函数如Sigmoid函数f(x)=1/(1+e-x),训练集包括M个样本模式{(xk,yk)}。对第P个训练样本(P=1,2,…,M),单元j的输入总和记为apj,输出记为Opj,则:

apj=WQ

Opj=f(apj)=1/(1+e-apj)(1)

对每个输入模式P,网络输出与期望输出(dpj)间误差为:

E=Ep=((dpj-Opj)2)(2)

取BP网络的权值修正式:

Wji(t+1)=Wji(t)+?浊?啄pj+?琢(Wji(t)-Wji(t-1))(3)

其中,对应输出单元?啄pj=f’,(apj)(dpj-Opj);对应输入单元?啄pj=f’,(apj)?啄pkWkj;

?浊是为加快网络收敛速度而取值足够大又不致产生振荡的常数;?琢为一常数项,称为趋势因子,它决定上一次学习权值对本次权值的影响。

BP学习算法的步骤:初始化网络及学习参数;提供训练模式并训练网络直到满足学习要求;前向传播过程,对给定训练模式输入,计算网络的输出模式,并与期望比较,如有误差,则执行下一步,否则返回第二步;后向传播过程,计算同一层单元的误差?啄pj,按权值公式(3)修正权值;返回权值计算公式(3)。BP网络的学习一般均需多周期迭代,直至网络输出与期望输出间总体的均方根误差ERMS达到一定要求方结束。

实践中,BP网络可能遇到如下问题:局部极小点问题;迭代收敛性及收敛速度引起低效率问题。此外还有,模型的逼近性质差;模型的学习误差大,记忆能力不强;与线性时序模型一样,模型网络结构及节点作用函数不易确定;难以解决应用问题的实例规模与网络规模之间的矛盾等。为克服这样的一些问题,同时为了更好地面向实际问题的特殊性,出现了各种基于神经网络模型或与之结合的模型创新方法。

2灰色神经网络模型

灰色预测和神经网络一样是近年来用于非线性时间序列预测的引人注目的方法,两种方法在建模时都不需计算统计特征,且理论上可以适用于任何非线性时间序列的建模。灰色预测由于其模型特点,更合用于经济活动中具有指数增长趋势的问题,而对于其他变化趋势,则可能拟合灰度较大,导致精度难于提高。

对于既有随时间推移的增长趋势,又有同一季节的相似波动性趋势,且增长趋势和波动性趋势都呈现为一种复杂的非线性函数特性的一类现实问题,根据人工神经网络具有较好的描述复杂非线性函数能力特点,用其对季节性建模;最后根据最优组合预测理论,建立了兼有GM(1,1)和ANN优点的最优组合预测模型。该模型能够同时反映季节性时间序列的增长趋势性和同季波动性的双重特性,适用于一般具有季节性特点的经济预测。

首先,建立GM(1,1)模型,设时间序列x(0)=(x(0)(1),x(0)(2),?撰,x(0)(n)),作一阶累加生成:

x(1)=(x(1)(1),x(1)(2),?撰,x(1)(n))(4)

其中x(1)(k)=(x(0)(i),k=1,2,?撰,n

构造一阶线性灰色微分方程并得到该方程的白化微分方程:

+ax=u

用最小二乘法求解参数a,u,得到x(1)的灰色预测模型:

(1)(k+1)=(X(0)(1)-u/a)e-ak+u/a,(k=0,1,2,?撰)(5)

其次,根据上节方法建立BP人工神经网络模型。

第三,将两模型优化组合。设f1是灰色预测值,f2是神经网络预测值,fc是最优组合预测值,预测误差分别为:e1,e2,ec,取w1和w2是相应的权系数,且w1+w2=1,有fc=w1f1+w2f2,则误差及方差分别为ec=w1e1+w2e2,Var(ec)=w21Var(e1)+w22Var(e2)+2w1w2cov(e1,e2)

对方差公式求关于w1的极小值,并取cov(e1,e2)=0,即可得到组合预测权系数的值。

2基于粗糙集理论的神经网络模型

粗糙集理论与模糊集理论一样是研究系统中知识不完全和不确定问题的方法。模糊集理论在利用隶属函数表达不确定性时,为定义一个合适的隶属函数,需要人工干预,因而有主观性。而粗糙集理论由粗糙度表示知识的不完全程度,是通过表达知识不精确性的概念计算得到的,是客观的,并不需要先验知识。粗糙集通过定义信息熵并进而规定重要性判据以判断某属性的必要性、重要性或冗余性。

一般来说,BP神经网络模型对模型输入变量的选择和网络结构确定等都基本凭经验或通过反复试验确定,这种方法的盲目性会导致模型质量变差。用粗糙集理论指导,先对各种影响预测的因素变量进行识别,以此确定预测模型的输入变量;再通过属性约简和属性值约简获得推理规则集;然后以这些推理规则构造神经网络预测模型,并采用加动量项的BP的学习算法对网络进行优化。有效改善了模型特性,提高了模型质量。其建模步骤为:由历史数据及其相关信息历史数据构造决策表;初始化;对决策表的决策属性变量按划分值域为n个区域的方式离散化;采用基于断点重要性的粗糙集离散化算法选择条件属性变量和断点(分点),同时计算决策表相容度,当决策表相容度为1或不再增加时,则选择条件属性变量和分点过程结束;由选择的条件属性变量及其样本离散化值构造新的决策表,并对其约简,得到推理规则集;由推理规则集建立神经网络模型;对神经网络进行训练;若神经网络拟合误差满足要求,则结束,否则,增加n。必须指出,区间分划n太小,会使得拟合不够,n太大,即输出空间分得太细,会导致过多的区域对应,使网络结构过于复杂,影响泛化(预测)能力。

3小波神经网络模型

人工神经网络模型存在的网络结构及节点函数不易确定问题,结合小波分析优良的数据拟合能力和神经网络的自学习、自适应特性建模,即用非线性小波基取代通常的非线性S型函数。

设非线性时间序列变化函数f(t)∈L2(R),定义其小波变换为:

Wf(a,b)==f(t)?渍()dt(6)

式中,?渍ab(t)称为由母小波?渍t(定义为满足一定条件的平方可积函数?渍(t)∈L2(R)如Haar小波、Morlet小波、样条小波等)生成的依赖于参数a、b的连续小波,也称小波基。参数a的变化不仅改变小波基的频谱结构,还改变其窗口的大小和形状。对于函数f(t),其局部结构的分辩可以通过调节参数a、b,即调节小波基窗口的大小和位置来实现。

用小波级数的有限项来逼近时序函数,即:

(t)=wk?渍()(7)

式中(t),为时间序列y(t)的预测值序列;wk,bk,ak分别为权重系数,小波基的平移因子和伸缩因子;L为小波基的个数。参数wk,bk,ak采用最小均方误差能量函数优化得到,L通过试算得到。

4模糊神经网络模型

模糊集合和模糊逻辑以人脑处理不精确信息的方法为基础,而人工神经网络是以大量简单神经元的排列模拟人脑的生理结构。二者的融合既具有神经网络强大的计算能力、容错性和学习能力,又有对于不确定、不精确信息的处理能力,即同时具有底层的数据处理、学习能力和高层的推理、思考能力。

一种应用模糊理论的方法是把模糊聚类用来确定模糊系统的最优规则数,从而确定模糊神经网络的结构。这样确定的网络结构成为四层:第一层为直接输入层;第二层为模糊化层,对输入做模糊化处理;第三层为模糊推理层,对前层模糊结果做模糊推理;第四层为非模糊化层,可以采用重心非模糊化法,产生网络输出。该网络采用动态处理法,增强了其处理能力,且适用性强、精度高。

5结语

除上述几种结合式神经网络方法之外,人工神经网络模型在算法设计方面一直在取得巨大的进步。神经网络模型方法是一种先进的具有智能的非线性建模方法,其在自然科学、经济现象、社会活动等方面的应用正在不断深化,把神经网络方法引入经济活动的分析和预测中,并紧密联系诸多先进的建模方法,是使工业经济、商业经济及其对经济本质规律的研究等各项工作推向前进的重要理论武器。

参考文献

神经网络论文范文篇3

关键词:模糊神经网络;扩展卡尔曼滤波;自组织学习

模糊神经网络起源于20世纪80年代后期的日本,由于其简单、实用,已经被广泛应用在工业控制、系统辨识、模式识别、数据挖掘等许多领域[1~4]。然而,如何从可用的数据集和专家知识中获取合适的规则数仍然是一个尚未解决的问题。为了获取模糊规则,研究人员提出了不同的算法,如文献[5]利用正交最小二乘算法确定径向基函数的中心,但是该算法训练速度比较慢;文献[6]提出了基于径向基函数的自适应模糊系统,其算法使用了分层自组织学习策略,但是逼近精度低。扩展卡尔曼滤波(EKF)算法作为一种非线性更新算法,在神经网络中得到了广泛应用。文献[7]利用扩展卡尔曼滤波算法调整多层感知器的权值,文献[8]利用扩展卡尔曼滤波算法调整径向基函数网络的权值。

本文提出了一种模糊神经网络的快速自组织学习算法(SFNN)。该算法基于无须修剪过程的生长准则增加模糊规则,加速了网络学习过程,同时使用EKF调整网络的参数。在该算法中,模糊神经网络结构不是预先设定的,而是在学习过程中动态变化的,即在学习开始前没有一条模糊规则,在学习过程中逐渐增加模糊规则。与传统的模糊神经网络学习算法相比,本算法所得到的模糊规则数并不会随着输入变量的增加而呈指数增长,特别是本算法无须领域的专家知识就可以实现对系统的自动建模及抽取模糊规则。当然,如果设计者是领域专家,其知识也可以直接用于系统设计。本算法所得到的模糊神经网络具有结构小、避免出现过拟合现象等特点。

1SFNN的结构

本文采用与文献[9]相似的网络结构,如图1所示。其中,r是输入变量个数;xi(i=1,2,…,r)是输入语言变量;y是系统的输出;MFij是第i个输入变量的第j个隶属函数;Rj表示第j条模糊规则;wj是第j条规则的结果参数;u是系统总的规则数。

下面是对该网络各层含义的详细描述。

第一层:输入层。每个节点代表一个输入语言变量。

第二层:隶属函数层。每个节点代表一个隶属函数,隶属函数采用如下的高斯函数:

μij=exp(-(xi-cij)2σ2ij);i=1,2,…,r;j=1,2,…,u(1)

其中:r是输入变量数;u是隶属函数个数,也代表系统的总规则数;μij是xi的第j个高斯隶属函数;cij是xi的第j个高斯隶属函数的中心;σij是xi的第j个高斯隶属函数的宽度。

第三层:T-范数层。每个节点代表一个可能的模糊规则的IF-部分,也代表一个RBF单元,该层节点个数反映了模糊规则数。如果计算每个规则触发权的T-范数算子是乘法,则在第三层中第j条规则Rj的输出为

φj=exp(-ri=1(xi-cij)2σ2ij);j=1,2,…,u(2)

第四层:输出层。该层每个节点代表一个输出变量,该输出是所有输入变量的叠加。

y(X)=uj=1wjφj(3)

其中:y是网络的输出;wj是Then-部分。

2SFNN的学习算法

如前文所述,第三层的每个节点代表一个可能的模糊规则的IF-部分或者一个RBF单元。如果需要辨识系统的模糊规则数,则不能预先选择模糊神经网络的结构。于是,本文提出一种新的学习算法,该算法可以自动确定系统的模糊规则并能达到系统的特定性能。

2.1模糊规则的产生准则

在模糊神经网络中,如果模糊规则数太多,不仅增加系统的复杂性,而且增加计算负担和降低网络的泛化能力;如果规则数太少,系统将不能完全包含输入/输出状态空间,将降低网络的性能。是否加入新的模糊规则取决于系统误差、可容纳边界和误差下降率三个重要因素。公务员之家

2.1.1系统误差

误差判据:对于第i个观测数据(xi,ti),其中xi是输入向量,ti是期望输出,由式(3)计算网络现有结构的全部输出yi。

定义:‖ei‖=‖ti-yi‖;i=1,2,…,n(4)

如果‖ei‖>keke=max(5)

则说明网络现有结构的性能比较差,要考虑增加一条新的规则;否则,不生成新规则。其中:ke是根据网络期望的精度预先选择的值;emax是预定义的最大误差;emin是期望的输出精度;β(0<β<1)是收敛因子。

2.1.2可容纳边界

从某种意义上来讲,模糊神经网络结构的学习是对输入空间的高效划分。模糊神经网络的性能和结构与输入隶属函数紧密相关。本文使用的是高斯隶属函数,高斯函数输出随着与中心距离的增加而单调递减。当输入变量采用高斯隶属函数时,则认为整个输入空间由一系列高斯隶属函数所划分。如果某个新样本位于某个已存在的高斯隶属函数覆盖范围内,则该新样本可以用已存在的高斯隶属函数表示,不需要网络生成新的高斯单元。

可容纳边界:对于第i个观测数据(xi,ti),计算第i个输入值xi与已有RBF单元的中心cj之间的距离di(j),即

di(j)=‖xi-cj‖;i=1,2,…,n;j=1,2,…,u(6)

其中:u是现有的模糊规则或RBF单元的数量。令

di,min=argmin(di(j))(7)

如果di,min>kd,kd=max[dmax×γi,dmin](8)

则说明已存在的输入隶属函数不能有效地划分输入空间。因此,需要增加一条新的模糊规则,否则,观测数据可以由已存在的距离它最近的RBF单元表示。其中:kd是可容纳边界的有效半径;dmax是输入空间的最大长度;dmin是所关心的最小长度;γ(0<γ<1)是衰减因子论文。

2.1.3误差下降率

传统的学习算法把误差减少率(ERR)[5]用于网络生长后的修剪过程,算法会因为修剪过程而增加计算负担,降低学习速度。本文把误差减少率用于生长过程形成一种新的生长准则,算法无须经过修剪过程,从而加速网络的学习过程。

给定n个输入/输出数据对(xi,ti),t=1,2,…,n,把式(3)看做线性回归模型的一种特殊情况,该线性回归模型为

t(i)=uj=1hj(i)θj+ε(i)(9)

式(9)可简写为

D=HΘ+E(10)

D=TT∈Rn是期望输出,H=φT∈Rn×u是回归量,Θ=WT∈Ru是权值向量,并且假设E∈Rn是与回归量不相关的误差向量。

对于矩阵φ,如果它的行数大于列数,通过QR分解:

H=PQ(11)

可把H变换成一组正交基向量集P=[p1,p2,…,pu]∈Rn×u,其维数与H的维数相同,各列向量构成正交基,Q∈Ru×u是一个上三角矩阵。通过这一变换,有可能从每一基向量计算每一个分量对期望输出能量的贡献。把式(11)代入式(10)可得

D=PQΘ+E=PG+E(12)

G的线性最小二乘解为G=(PTP)-1PTD,或

gk=pTkDpTkpk;k=1,2,…,u(13)

Q和Θ满足下面的方程:

QΘ=G(14)

当k≠l时,pk和pl正交,D的平方和由式(15)给出:

DTD=uk=1g2kpTkpk+ETE(15)

去掉均值后,D的方差由式(16)给出:

n-1DTD=n-1uk=1g2kpTkpk+n-1ETE(16)

由式(16)可以看到,n-1uk=1g2kpTkpk是由回归量pk所造成的期望输出方差的一部分。因此,pk的误差下降率可以定义如下:

errk=g2kpTkpkDTD,1≤k≤u(17)

把式(13)代入式(17)可得

errk=(pTkD)2pTkpkDTD,1≤k≤u(18)

式(18)为寻找重要回归量子集提供了一种简单而有效的方法,其意义在于errk揭示了pk和D的相似性。errk值越大,表示pk和D的相似度越大,且pk对于输出影响越显著。利用ERR定义泛化因子(GF),GF可以检验算法的泛化能力,并进一步简化和加速学习过程。定义:

GF=uk=1errk(19)

如果GF

2.2参数调整

需要注意的是,不管是新生成的隐节点还是已存在的隐节点,都需要对网络参数进行调整。传统的方法是使用LLS[10]方法对网络参数进行调整,本文提出使用EKF方法调节网络的参数。由于LLS方法在确定最优参数时计算简单、速度快,但该方法对噪声敏感,其学习速度随着信噪比的增加而下降。另外,与LLS方法相关的问题是其求解可能是病态的,这使得参数估计变得很困难。EKF方法由于其自适应过程比较复杂,计算速度没有LLS方法快,但是EKF方法在噪声环境下具有鲁棒性,使用EKF方法可以实现一种健壮的在线学习算法。网络参数可以用下面的EKF[11]方法进行调整。事实上,网络的参数向量θ可以看做一个非线性系统的状态,并用下面的方程描述:

θi=θi-1

ti=h(θi-1,Xi)+ei(20)

在当前的估计值i-1处将非线性函数h(θi-1,Xi)展开,则状态模型可以重写为

θi=θi-1

ti=Hiθi-1+εi+ei(21)

其中:εi=h(i-1,Xi)-Hii-1+ρi。Hi是如下的梯度向量:

Hi=h(θ,Xi)θ|θ=i-1(22)

参数向量θ使用下面的扩展卡尔曼滤波算法更新:

Ki=Pi-1HTi[HiPi-1HTi+Ri]-1

θi=θi-1+Ki(ti-h(θi-1,Xi))

Pi=Pi-1-KiHiPi-1+Qi(23)

其中:Ki是卡尔曼增益矩阵;Pi是逼近误差方差阵;Ri是量测噪声方差阵;Qi是过程噪声方差阵。

全局扩展卡尔曼滤波算法会涉及大型矩阵运算,增加计算负担,因此可以将全局问题划分为一系列子问题从而简化全局方法。网络的前件部分具有非线性特性,利用扩展卡尔曼滤波算法对其进行调整;网络的后件部分具有线性特性,利用卡尔曼滤波算法对其进行调整,该方法等同于将全局方法简化为一系列解耦方法,可以降低计算负担。由于高斯函数的中心对系统的性能影响不明显,为了简化计算,只对高斯隶属函数的宽度进行调整。

前件参数使用如下的扩展卡尔曼滤波算法更新:

Kδi=Pδi-1GTi[Ri+GiPδi-1GTi]-1

δi=δi-1+Kδi(Ti-wi-1φi)

Pδi=Pδi-1-KδiGiPδi-1+Qi(24)

后件参数使用如下的卡尔曼滤波算法更新:

Kwi=Pwi-1φTi[Ri+φiPwi-1φTi]-1

wi=wi-1+Kwi(Ti-wi-1φi)

Pwi=Pwi-1-KwiφiPwi-1+Qi(25)

2.3模糊规则的增加过程

在SFNN学习算法中,模糊规则增加过程如下:

a)初始参数分配。当得到第一个观测数据(X1,t1)时,此时的网络还没有建立起来,因此这个数据将被选为第一条模糊规则:c0=X0,δ1=δ0,w1=t1。其中δ0是预先设定的常数。

b)生长过程。当得到第i个观测数据(Xi,ti)时,假设在第三层中已存在u个隐含神经元,根据式(4)(7)和(19),分别计算ei、di,min、GF。如果

‖ei‖>ke,di,min>kd,且GF

则增加一个新的隐含神经元。其中ke、kd分别在式(5)和(8)中给出。新增加的隐含神经元的中心、宽度和权值赋值为:Cu+1=Xi,δu+1=k0di,min,wu+1=ei,其中k0(k0>1)是重叠因子。

c)参数调整。当增加新神经元后,所有已有神经元的参数通过式(24)(25)描述的算法调整。

3仿真研究

时间序列预测在解决许多实际问题中是非常重要的。它在经济预测、信号处理等很多领域都得到了广泛应用。

本文采用的时间序列由Mackey-Glass差分延迟方程产生,其方程定义为[5]

x(t+1)=(1-a)x(t)+bx(t-τ)1+x10(t-τ)(27)

为了能够与文献[5,6]在相同的基础上进行比较,取值Δt=P=6,式(27)中的参数选择为:a=0.1,b=0.2,τ=17。预测模型表示为x(t+6)=f[x(t),x(t-6),x(t-12),x(t-18)](28)

为了获得时间序列,利用式(27)生成2000个数据,式(27)的初始条件为:x(0)=1.2。为了训练和测试,在t=124和t=1123之间选择1000个样本作为式(28)的输入/输出样本数据。使用前500个数据对作为训练数据集,后面的500个数据对验证该模型的预测性能。图2显示了SFNN生成的模糊规则数;图3显示了从t=124到t=623的训练结果;图4显示了SFNN良好的预测性能。表1列出了SFNN与其他算法的比较结果。表1显示,与OLS、RBF-AFS算法相比,SFNN具有最少的规则数、最小的误差和良好的泛化能力,同时具有快速的学习速度。SFNN的快速性就在于:采用无须修剪过程的生长准则,加速了网络学习过程;利用扩展卡尔曼滤波调整网络的参数,可以缩短网络的学习周期。从上面的分析可以看出,SFNN具有紧凑的结构、快速的学习速度、良好的逼近精度和泛化能力。

4结束语

SFNN采用在线学习方法、参数估计和结构辨识同时进行,提高了网络的学习速度。基于该方法生成的模糊神经网络具有紧凑的结构,网络结构不会持续增长,避免了过拟合及过训练现象,确保了系统的泛化能力。

参考文献:

[1]

HUANGHuan,WUCong-xin.Approximationcapabilitiesofmultilayerfuzzyneuralnetworksonthesetoffuzzy-valuedfunctions[J].InformationSciences,2009,179(16):2762-2773.

[2]DENGXing-sheng,WANGXin-zhou.Incrementallearningofdynamicfuzzyneuralnetworksforaccuratesystemmodeling[J].FuzzySetsandSystems,2009,160(7):972-987.

[3]韦玉科,汪仁煌,李江平,等.一种新的数据智能化处理算法[J].计算机应用研究,2008,25(5):1328-1329.

[4]CHENSheng,HONGXia,LUKBL,etal.Orthogonal-least-squaresregression:aunifiedapproachfordatamodeling[J].Neurocompu-ting,2009,72(10-12):2670-2681.

[5]CHENS,COWANCFN,GRANTPM.Orthogonalleastsquareslearningalgorithmforradialbasisfunctionnetworks[J].IEEETransonNeuralNetworks,1991,2(2):302-309.

[6]CHOKB,WANGBH.Radialbasisfunctionbasedadaptivefuzzysystemsandtheirapplicationstosystemidentificationandprediction[J].FuzzySetsandSystems,1996,83(3):325-339.

[7]RIVALSI,PERSONNAZL.ArecursivealgorithmbasedontheextendedKalmanfilterforthetrainingoffeedforwardneuralmodels[J].Neurocomputing,1998,20(1):279-294.

[8]SIMOND.TrainingradialbasisneuralnetworkswiththeextendedKalmanfilter[J].Neurocomputing,2002,48(1):455-475.

[9]WUShi-qian,ERMJ,GAOYang.Afastapproachforautomaticgenerationoffuzzyrulesbygeneralizeddynamicfuzzyneuralnetworks[J].IEEETransonFuzzySystems,2001,9(4):578-594.

神经网络论文范文篇4

[关键词]MATLABBP神经网络预测模型数据归一化

一、引言

自20世纪70年代初以来的30多年里,世界黄金价格出现了令人瞠目的剧烈变动。20世纪70年代初,每盎司黄金价格仅为30多美元。80年代初,黄金暴涨到每盎司近700美元。本世纪初,黄金价格处于每盎司270美元左右,此后逐年攀升,到2006年5月12日达到了26年高点,每盎司730美元,此后又暴跌,仅一个月时间内就下跌了约160美元,跌幅高达21.9%。最近两年,黄金价格一度冲高到每盎司900多美元。黄金价格起伏如此之大,本文根据国际黄金价格的影响因素,通过BP神经网络预测模型来预测长期黄金价格。

二、影响因素

刘曙光和胡再勇证实将观察期延长为1972年~2006年时,则影响黄金价格的主要因素扩展至包含道琼斯指数、美国消费者价格指数、美元名义有效汇率、美国联邦基金利率和世界黄金储备5个因素。本文利用此观点,根据1972年~2006年各因素的值来建立神经网络预测模型。

三、模型构建

1.模型选择:BP网络具有理论上能逼近任意非线性函数的能力,将输入模式映射到输出模式,只需用已知的模式训练网络,通过学习,网络就有了这种映射能力。2.样本数据归一化:在训练前,对数据进行归一化处理,把输入向量和输出向量的取值范围都归一到[0,1]。

3.BP网络设计:采用单隐层的BP网络进行预测,由于输入样本为5维的输入向量,因此输入层一共有5个神经元,中间层取20个神经元,输出层一个神经元(即黄金价格),网络为5*20*1的结构。中间层的传递函数为S型正切函数,输出层为S型对数函数。中间层的神经元个数很难确定,测试时分别对12,15,20个数进行测试,寻找误差最小的。

4.网络训练:训练次数epochs5000,训练目标goal0.001

对30个样本数据进行训练,经过1818次的训练,目标误差达到要求,如图2所示:神经元个数为20个时误差最小,此时网络的仿真结果如图3所示,预测精度80%以上,效果满意。

四、结论

在对1976年~2006年的影响国际黄金价格的五种因素的数据进行归一化处理后,用MATLAB建立的BP神经网络预测模型进行预测,达到了很好的效果。

国际黄金的长期价格受到许多因素的影响,本文只是对道琼斯工业指数等影响因素诸如分析,来预测长期的国际金价。还有其他因素,如国际油价,局部政治因素等,如果考虑进去,预测精度会进一步提高。

参考文献:

神经网络论文范文篇5

关键字神经网络,BP模型,预测

1引言

在系统建模、辨识和预测中,对于线性系统,在频域,传递函数矩阵可以很好地表达系统的黑箱式输入输出模型;在时域,Box-Jenkins方法、回归分析方法、ARMA模型等,通过各种参数估计方法也可以给出描述。对于非线性时间序列预测系统,双线性模型、门限自回归模型、ARCH模型都需要在对数据的内在规律知道不多的情况下对序列间关系进行假定。可以说传统的非线性系统预测,在理论研究和实际应用方面,都存在极大的困难。相比之下,神经网络可以在不了解输入或输出变量间关系的前提下完成非线性建模[4,6]。神经元、神经网络都有非线性、非局域性、非定常性、非凸性和混沌等特性,与各种预测方法有机结合具有很好的发展前景,也给预测系统带来了新的方向与突破。建模算法和预测系统的稳定性、动态性等研究成为当今热点问题。目前在系统建模与预测中,应用最多的是静态的多层前向神经网络,这主要是因为这种网络具有通过学习逼近任意非线性映射的能力。利用静态的多层前向神经网络建立系统的输入/输出模型,本质上就是基于网络逼近能力,通过学习获知系统差分方程中的非线性函数。但在实际应用中,需要建模和预测的多为非线性动态系统,利用静态的多层前向神经网络必须事先给定模型的阶次,即预先确定系统的模型,这一点非常难做到。近来,有关基于动态网络的建模和预测的研究,代表了神经网络建模和预测新的发展方向。

2BP神经网络模型

BP网络是采用Widrow-Hoff学习算法和非线性可微转移函数的多层网络。典型的BP算法采用梯度下降法,也就是Widrow-Hoff算法。现在有许多基本的优化算法,例如变尺度算法和牛顿算法。如图1所示,BP神经网络包括以下单元:①处理单元(神经元)(图中用圆圈表示),即神经网络的基本组成部分。输入层的处理单元只是将输入值转入相邻的联接权重,隐层和输出层的处理单元将它们的输入值求和并根据转移函数计算输出值。②联接权重(图中如V,W)。它将神经网络中的处理单元联系起来,其值随各处理单元的联接程度而变化。③层。神经网络一般具有输入层x、隐层y和输出层o。④阈值。其值可为恒值或可变值,它可使网络能更自由地获取所要描述的函数关系。⑤转移函数F。它是将输入的数据转化为输出的处理单元,通常为非线性函数。

2.1基本算法

BP算法主要包含4步,分为向前传播和向后传播两个阶段:

1)向前传播阶段

(1)从样本集中取一个样本(Xp,Yp),将Xp输入网络;

(2)计算相应的实际输出Op

在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时的执行过程。

2)向后传播阶段

(1)计算实际输出Op与相应的理想输出Yp的差;

(2)按极小化误差的方式调整权矩阵。

这两个阶段的工作受到精度要求的控制,在这里取作为网络关于第p个样本的误差测度,而将网络关于整个样本集的误差测度定义为。图2是基本BP算法的流程图。

2.2动态BP神经网络预测算法

在经典的BP算法以及其他的训练算法中都有很多变量,这些训练算法可以确定一个ANN结构,它们只训练固定结构的ANN权值(包括联接权值和结点转换函数)。在自动设计ANN结构方面,也已有较多的尝试,比如构造性算法和剪枝算法。前一种是先随机化网络,然后在训练过程中有必要地增加新的层和结点;而剪枝法则正好相反。文献[2]中提出了演化神经网络的理念,并把EP算法与BP进行了组合演化;也有很多学者把遗传算法和BP进行结合,但这些算法都以时间复杂度以及空间复杂度的增加为代价。根据Kolmogorov定理,对于任意给定的L2型连续函数f:[0,1]n→Rm,f可以精确地用一个三层前向神经网络来实现,因而可以只考虑演化网络的权值和结点数而不影响演化结果。基于此,在BP原有算法的基础上,增加结点数演化因子,然后记录每层因子各异时演化出的结构,最后选取最优的因子及其网络结构,这样就可以避免由于增加或剪枝得到的局部最优。根据实验得知,不同的预测精度也影响网络层神经元的结点数,所以可根据要求动态地建立预测系统。具体步骤如下:

(1)将输入向量和目标向量进行归一化处理。

(2)读取输入向量、目标向量,记录输入维数m、输出层结点数n。

(3)当训练集确定之后,输入层结点数和输出层结点数随之而确定,首先遇到的一个十分重要而又困难的问题是如何优化隐层结点数和隐层数。实验表明,如果隐层结点数过少,网络不能具有必要的学习能力和信息处理能力。反之,若过多,不仅会大大增加网络结构的复杂性(这一点对硬件实现的网络尤其重要),网络在学习过程中更易陷入局部极小点,而且会使网络的学习速度变得很慢。隐层结点数的选择问题一直受到神经网络研究工作者的高度重视。Gorman指出隐层结点数s与模式数N的关系是:s=log2N;Kolmogorov定理表明,隐层结点数s=2n+1(n为输入层结点数);而根据文献[7]:s=sqrt(0.43mn+0.12nn+2.54m+0.77n+0.35)+0.51[7]。

(4)设置结点数演化因子a。为了快速建立网络,可以对其向量初始化,并从小到大排序[4,7]。

(5)建立BP神经网络。隐含层传递函数用tansig,输出层用logsig,训练函数采用动态自适应BP算法,并制订停止准则:目标误差精度以及训练代数。

(6)初始化网络。

(7)训练网络直到满足停止判断准则。

(8)用测试向量对网络进行预测,并记录误差和逼近曲线,评估其网络的适应性。其适应度函数采取规则化均方误差函数。

(9)转到(5),选取下一个演化因子,动态增加隐含层结点数,直到最后得到最佳预测网络。

3基于神经网络的预测原理[4]

3.1正向建模

正向建模是指训练一个神经网络表达系统正向动态的过程,这一过程建立的神经网络模型称为正向模型,其结构如图3所示。其中,神经网络与待辨识的系统并联,两者的输出误差用做网络的训练信号。显然,这是一个典型的有导师学习问题,实际系统作为教师,向神经网络提供算法所需要的期望输出。当系统是被控对象或传统控制器时,神经网络多采用多层前向网络的形式,可直接选用BP网络或它的各种变形。而当系统为性能评价器时,则可选择再励学习算法,这时网络既可以采用具有全局逼近能力的网络(如多层感知器),也可选用具有局部逼近能力的网络(如小脑模型控制器等)。3.2逆向建模

建立动态系统的逆模型,在神经网络中起着关键作用,并且得到了广泛的应用。其中,比较简单的是直接逆建模法,也称为广义逆学习。其结构如图4所示,拟预报的系统输出作为网络的输入,网络输出与系统输入比较,相应的输入误差用于训练,因而网络将通过学习建立系统的逆模型。但是,如果所辨识的非线性系统是不可逆的,利用上述方法将得到一个不正确的逆模型。因此,在建立系统时,可逆性应该先有所保证。

4应用实例分析

以我国西南某地震常发地区的地震资料作为样本来源,实现基于动态神经网络的地震预报。根据资料,提取出7个预报因子和实际发生的震级M作为输入和目标向量。预报因子为半年内M>=3的地震累计频度、半年内能量释放积累值、b值、异常地震群个数、地震条带个数、是否处于活动期内以及相关地震区地震级。在训练前,对数据进行归一化处理。由于输入样本为7维的输入向量,一般情况下输入层设7个神经元。根据实际情况,输出层神经元个数为1。隐含层神经元的传递函数为S型正切函数,输出层也可以动态选择传递函数。实例数据来自文献[4],将数据集分为训练集、测试集和确定集。表1中的7×7数组表示归一化后的训练向量,第一个7表示预报因子数,第二个7表示样本数。

表1归一化后的训练向量

在不同神经元数情况下,对网络进行训练和仿真,得到如图5所示的一组预测误差曲线。其中,曲线A表示隐层结点数为6时的预测误差曲线,曲线B表示隐含层结点数为3时的预测误差曲线,曲线C表示隐含层结点数为5时的预测误差曲线,曲线D表示隐含层结点数为4时的预测误差曲线。将五种情况下的误差进行对比,曲线C表示的网络预测性能最好,其隐含层神经元数为5,图中曲线E表示的是隐含层结点数为15时的预测误差曲线(文献[4]中的最好结果)。同时也证明,在设计BP网络时,不能无限制地增加层神经元的个数。若过多,不仅会大大增加网络结构的复杂性,网络在学习过程中更易陷入局部极小点,而且会使网络的学习速度、预测速度变得很慢。

5结论

本文针对基本的BP神经网络,提出了可动态改变神经元数(与精度相关)的BP神经网络预测方法,可以根据实际情况建立预测系统。用此种方法可以建立最好的神经网络,不会有多余的神经元,也不会让网络在学习过程中过早陷于局部极小点。

参考文献

[1]YaoX,LiuY.FastEvolutionaryProgramming.inEvolutionaryProgrammingⅤ:Proc.5thAnnu.Conf.EvolutionaryProgram,L.Fogel,P.AngelineandT.Bäck,Eds.Cambridge,MA:MITPress,1996,451-460

[2]XinYao,YongLiu,ANewEvolutionarySystemforEvolvingArtificialNeuralNetworksIEEETRANSACTIONSONNEURALNETWORKS,VOL8,NO.31997,694-714

[3]潘正君,康立山,陈毓屏.演化计算[M].北京:清华大学出版社,1998

[4]飞思科技产品研发中心.神经网络理论与实现.北京:电子工业出版社,2005

[5]蔡晓芬,方建斌.演化神经网络算法.江汉大学学报,第33卷第3期,2005.9

神经网络论文范文篇6

关键词神经网络;反向传播算法;PSO算法;适应度函数

人工神经网络是由人工神经元互连而成的网络,它从微观结构和功能上实现对人脑的抽象和简化,具有许多优点。对神经网络的权值系数的确定,传统上采用反向传播算法(BP算法)。BP网络是一种多层前向反馈神经网络,BP算法是由两部分组成:信息的正向传递与误差的反向传播。在反向传播算法中,对权值的训练采用的是爬山法(即:δ算法)。这种方法在诸多领域取得了巨大的成功,但是它有可能陷入局部最小值,不能保证收敛到全局极小点。另外,反向传播算法训练次数多,收敛速度慢,使学习结果不能令人满意。

粒子群优化算法(ParticleSwarmOptimizer,PSO)是一种进化计算技术(evolutionarycomputation)。源于对鸟群捕食的行为研究,PSO中,每个优化问题的解都是搜索空间中的一只鸟,我们称之为粒子。所有的粒子都有一个由被优化的函数决定的适应值(fitnessvalue),每个粒子还有一个速度决定他们飞翔的方向和距离。然后粒子们就追随当前的最优粒子在解空间中搜索。如果用粒子群算法对神经网络的权值进行训练,会得到较快的收敛速度,而且可以避免局部最值得出现。研究表明PSO是一种很有潜力的神经网络算法。

本文提出了一种基于PSO算法的BP网络学习算法,并通过MATLAB7.0实现对一组简单的向量进行训练对PSO—BP算法和BP算法进行了对比,试验结果说明PSO—BP算法适合训练BP网络,并且也有希望应用于其他种类的前向网络的训练。

1PSO算法

PSO中,每个优化问题的解都是搜索空间中的一只鸟。我们称之为“粒子”。所有的例子都有一个由被优化的函数决定的适应值(fitnessvalue),每个粒子还有一个速度决定它们飞翔的方向和距离。然后粒子们就追随当前的最优粒子在解空间中搜索。

D维搜索空间中,有m个粒子,其中第i个粒子的位置是,m,其速度为。将带入目标函数可计算出适应值。记第i个粒子搜索到的最优位置为,整个粒子群搜索到的最优位置为。离子状态更新操作为:

其中,i=1,2…,m,d=1,2…,D;是非负常数,称为惯性因子。也可以随着迭代线性减小;学习因子,是非负常数;r1,r2是介于[0,1]之间的随机数;是常数。

迭代中止条件一般选为最大迭代次数和粒子群迄今为止搜索到的最有位置满足适应阈值。

2基于PSO的BP网络学习算法

BP网络是一种多层结构的前向网络,其隐层神经元的激活函数为S型函数,而输出神经元的激活函数可以是S型函数,也可以实线性函数,典型的S型函数为:

(3)

其中:s为神经元的加权输入函数。

用PSO算法训练BP网络时,定义粒子群的位置向量的元素是BP网络的全体连接权和阈值。首先初始化位置向量,然后用PSO算法搜索最优位置,使如下均方误差指标(适应值)达到最小

(4)

其中,N是训练集的样本数;是第i个样本的第j个网络输出节点的理想输出值;是第i个样本的第j个网络输出节点的实际输出值;C是网络输出神经远的个数。

基于PSO算法的BP网络学习算法流程如下:

1)选定粒子数m;适应值阈值ε;最大允许迭代步数;、和;初始化X和V为(0,1)间的随机数。

8)endfor

9)fori=1:1:m

10)按式(1)计算;按式(2)计算;

11)endfor

12)endwhile

13)以所得权值阈值为初始值用BP算法对网络进行训练

上述流程中,1)到12)用标准PSO算法对权值和阈值进行训练,13)对PSO输出的权值和阈值作为初始值用BP算法训练网络(MATLAB中有集成的训练函数)。另外,,其中是第I个粒子的位置;V=,其中是第I个粒子的速度;是m个粒子迄今搜索到的最优适应值,其对应的粒子位置矩阵是p=;是粒子群迄今搜索到的最优适应值,对应的最优粒子位置是,粒子数m选定为30个。

3结果分析

本实例中随机选取机输入和输出矩阵,如:p=[00000;10001;01001;00100;00010];t=[0000;1000;0100;0010;0001]。由于P是五行的矩阵,所以网络输入层的神经元个数为:5个,T为五行矩阵,故输出层神经元个数为:5个,隐含层神经元个数为:6个。

首先观察一下PSO算法中的适应值(fitness)的变化过程,图1中,实线表示适应值的平均值,虚线表示是最优适应值。从图中可以看出适应值迅速的选择过程。

图2为用PSO—BP算法和BP算法在训练误差精度为0.002的情况下的误差演化曲线:(a)为PSO—BP算法训练误差演化曲线,所用时间是20.422000s。(b)为常用BP算法训练误差演化曲线,对权值的训练采用的是梯度下降法,所用时间是27.172000s。从图中可以看到:PSO—BP算法的迭代次数远远小于BP算法,并且训练时间也缩短了。

(a)

(b)

图2

为了充分说明实验结果,笔者做了多次反复实验,实验结果如下表:在训练误差精度为0.002的情况下,十次试验中PSO—BP算法的平均迭代次数远小于BP算法,收敛时间较接近。

算法

次数BP算法PSO—BP算法

迭代次数收敛时间迭代次数收敛时间

1158735.79700071719.547000

2105123.17200079433.390000

391718.28100068327.813000

480916.28200087933.265000

5132333.125000109730.218000

6214643.76600093126.046000

7116123.64100056817.391000

853014.68700073625.782000

9141526.75000086927.625000

10122724.17200095329.422000

平均值1216.625.967300822.727.04990

4结论

本次试验中对BP算法和PSO—BP算法进行了对比试验,试验结果证明:PSO—BP算法优于BP算法。具体表现在:学习算法的收敛速度有所提高;BP算法中的局部极小问题常令学习结果不满意,PSO的全局优化能力使问题得到解决。

参考文献

[1]MartinT.Hagan,HowardB.Demuth,MarkH.Beale,著,戴葵,等译.《神经网络设计》.机械工业出版社,2002年9月

[2]徐丽娜编著.《神经网络控制》.电子工业出版社,2003年2月

[3]高隽编著.《人工神经网络原理及仿真实例》.机械工业出版社,2003年8月

[4]ZbigniewMichalewicz,DavidB.Fogel著,曹宏庆,李艳,董红斌,吴志健,译.《如何求解问题——现代启发式方法》.中国水利水电出版社,2003年2月

神经网络论文范文篇7

[关键词]反射认知创造神经网络人工智能

一、生物神经网络系统

生物神经系统是以神经元为基本单位,神经元的外部形态各异,但基本功能相同,在处于静息状态时(无刺激传导),神经细胞膜处于极化状态,膜内的电压低于膜外电压,当膜的某处受到的刺激足够强时,刺激处会在极短的时间内出现去极化、反极化(膜内的电压高于膜外电压)、复极化的过程,当刺激部位处于反极化状态时,邻近未受刺激的部位仍处于极化状态,两着之间就会形成局部电流,这个局部电流又会刺激没有去极化的细胞膜使之去极化等等,这样不断的重复这一过程,将动作电位传播开去,一直到神经末梢。

神经元与神经元之间的信息传递是通过突触相联系的,前一个神经元的轴突末梢作用于下一个神经元的胞体、树突或轴突等处组成突触。不同神经元的轴突末梢可以释放不同的化学递质,这些递质在与后膜受体结合时,有的能引起后膜去极化,当去极化足够大时就形成了动作电位;也有的能引起后膜极化增强,即超极化,阻碍动作电位的形成,能释放这种递质的神经元被称为抑制神经元。此外,有的神经元之间可以直接通过突触间隙直接进行电位传递,称为电突触。还有的因树突膜上电压门控式钠通道很少,树突上的兴奋或抑制活动是以电紧张性形式扩布的,这种扩布是具有衰减性的。

图1

一个神经元可以通过轴突作用于成千上万的神经元,也可以通过树突从成千上万的神经元接受信息,当多个突触作用在神经元上面时,有的能引起去极化,有的能引起超极化,神经元的冲动,即能否产生动作电位,取决于全部突触的去极化与超级化作用之后,膜的电位的总和以及自身的阈值。

神经纤维的电传导速度因神经元的种类、形态、髓鞘有无等因素的不同而存在很大差异,大致从0.3m/s到100m/s不等。在神经元与神经元之间的信息交换速度也因突触种类或神经递质的不同而存在着不同的突触延搁,突触传递信息的功能有快有慢,快突触传递以毫秒为单位计算,主要控制一些即时的反应;慢突触传递可长达以秒为单位来进行,甚至以小时,日为单位计算,它主要和人的学习,记忆以及精神病的产生有关系。2000年诺贝尔生理学或医学奖授予了瑞典哥德堡大学77岁的阿维·卡尔松、美国洛克菲勒大学74岁的保罗·格林加德以及出生于奥地利的美国哥伦比亚大学70岁的埃里克·坎德尔,以表彰他们发现了慢突触传递这样一种“神经细胞间的信号转导形式”。本次获奖者的主要贡献在于揭示“慢突触传递”,在此之前,“快突触传递”已经得过诺贝尔奖。此外,使用频繁的突触联系会变得更紧密,即突触的特点之一是用进废退,高频刺激突触前神经元后,在突触后神经元上纪录到的电位会增大,而且会维持相当长的时间。所以可以得出一条由若干不定种类的神经元排列构成的信息传导链对信息的传导速度会存在很大的弹性空间,这一点对神经系统认知事件有着非常重要的意义。

神经系统按功能可大致分为传入神经(感觉神经)、中间神经(脑:延脑、脑桥、小脑、中脑、间脑、大脑脊髓)与传出神经(运动神经)三类。

生物要适应外界环境的变化,就必须能够感受到这种变化,才能做出反应。生物的感受器多种多样,有的是单单感觉神经元的神经末梢;有的是感受器细胞;还有的感受器除了感受细胞外还增加了附属装置,且附属装置还很复杂,形成特殊的感觉器官。无论感受器的复杂程度如何,它在整个神经系统中都起着信息采集的作用,它将外界物理的或化学的动态信号反应在感觉神经细胞膜的电位变化上,膜上的电位变化可形成动作电位向远端传导。

中间神经在系统中起着计算及信息传导的作用,通常感觉神经传来的动作电位经过若干个中间神经元的计算响应后在传递到传出神经形成反射弧,但也有的反射弧仅由传入神经元与传出神经元直接组成,如敲击股四头肌引起的膝反射。传出神经可分为躯体神经与内脏神经两类,它们都最终连接着效应器,只是内脏神经需要通过一个神经节来连接效应器,最后由效应器调空肌体器官做出相应的反应。

二、生物神经网络的建立

1994年,一种被称为Netrin-1、将轴突吸引到分泌它的神经细胞的可扩散蛋白被发现,此后人们发现,同一轴突引导分子既可吸引、也可排斥前来的轴突。其中,环状AMP(也称cAMP)、环状GMP(也称cGMP)和钙离子,都可能是从参与将发育中的神经元引导到其目标上的受体中转导信号的第二种信使。新的实验表明,正是cAMP/cGMP的比例决定着Netrin-1是起一种吸引信号的作用还是起一种排斥信号的作用,这些环状核苷通过控制轴突生长锥中的L-型钙通道来起作用。

目前已经发现大量对神经轴突生长具有导向作用的分子,这些分子可以分为两大类:一类分子固着在细胞膜表面或细胞外基质中,影响局部的神经纤维生长,这类因子包括ephrin,MAG(myelin-associatedglycoprotein),Nogo等;另一类是分泌性分子,能扩散一定的距离并形成浓度梯度起作用,如netrin,slit,semaphorin家族的大多数成员,及各种神经营养因子等。神经轴突的前端有生长锥(growthcone)的结构起到对环境信号的探测作用。神经生长锥表面存在各种导向因子的受体,它们特异地识别环境中各种因子,并向细胞内传递吸引(attractive)或是排斥(repulsive)的信号,从而通过调节生长锥内的细胞骨架的重组来引导神经纤维沿特定路线生长(我国科学家袁小兵等研究人员发现,在脊髓神经元上,神经细胞内RHOA酶和CDC酶直接传递外界方向信号,引导神经生长方向,同时这两种酶相互作用,对生长方向进行细致的调节)。未成熟神经细胞柔弱的轴突在这些信号的引导下,试探地穿行于正处于发育阶段、仍是一片纷乱的大脑之中,最终抵达适当的目的地。一旦轴突的末端找到了其正确的栖息地,它就开始与周围神经元建立尽可能广泛的突触联系,以便传导信息。

脊椎动物出生后早期发育中的一个特征是,神经键(或神经连接)的消除。最初,一个神经肌肉连接被多个轴突支配,然后所有轴突都退出,只剩下一个,对相互竞争的神经元来说,决定胜负的是它们的相对活性。为了能准确的连接到目的地,单个或多个神经元会沿导向分子所确定的大致方向上生长出若干条神经纤维,其中总会有能正确连接到目的地的神经纤维,所建立的若干神经链路在刺激信号的作用下,正确的信息传递会使链接会变的更加稳固,反之则慢慢萎缩分离。打个比方讲:两个城市间原本没有路,如果要修的话会先派人去探索出若干条路,最后去修筑被优选出来的路,而其他的则会被遗弃。

三、神经网络的基本工作原理

1、反射

自然界中,事物的发展、能量的转化、信息的传递等等各种的自然现象都包含着因果关系,只要时间没有停滞,这种关系将广泛存在,从“因”到“果”,贯穿着事物的发展过程,当过程长且复杂时我们称之为“事件”,反之则称之为“触发”。

生物个体在与外界环境或是个体自身进行物质或信息交换时,也存在着这种现象,在这里我们称之为“反射”。

反射是最基本的神经活动,现行的说法是将反射分为两种,无条件反射和条件反射,其中,无条件反射是动物和人生下来就具有的,即遗传下来的对外部生活条件特有的稳定的反应方式,在心理发展的早期阶段,这种反应方式提供最基本的生存技能,也就是本能,如:食物反射、防御反射、定向反射,还有一些可能是在人类进化过程中,曾经有一定生物适应意义的无条件反射,如:巴宾斯基反射、抓握反射、惊跳反射(又叫摩罗反射)、游泳反射、行走反射等,此外,还有其他一些无条件反射,如眨眼反射、瞳孔反射、吞咽反射、打嗝、喷嚏等等。

条件反射是后天训练出来的,著名科学家巴甫洛夫就曾对条件反射的形成、消退、自然恢复、泛化、分化以及各种抑制现象进行过相当细致、系统的实验研究,。

无论是条件反射还是无条件反射,从主观上都可以看作是一种因果作用关系,即都存在着触发条件,都会导致某一结果的产生,所以无条件反射其实也属于条件反射范畴。只有在成因上,无条件反射是根据遗传信息形成的神经网络结构,而条件反射是后天在先前的网络基础上,依据外界环境继续发展完善的神经网络结构。两者之间是继承和发展的关系,但从这两个阶段所形成的神经网络功能来看,对外界的刺激都具备输入、传递、输出这一处理过程即反射过程,所以从某种意义上讲,也可以把无条件反射归类到条件反射范畴中去,或者说条件反射等同于反射。

神经系统中的条件反射具有三个要素:输入、传递、输出。其中的每一个要素既可以用单个神经元表示,也可以用一个神经群落来表示。当用少数几个神经元表示时,对应的是生物个体对局部刺激的反应,当扩展到神经群落时,对应的就可能就是对某一激发事件的处理方法了。

反射中的输入,最能使我们联想到传入神经元(感觉神经元),但在这里,它可以指单个的感觉神经元,也可以指一种感官(眼睛中的视神经群落、耳中的听觉神经中枢、皮肤中与各类感受器连接的神经群落等等),甚至可以是大脑中某一区域内形成某一表象或是概念的神经群落。反射中的输出同样可以指传出神经元(即脊髓前角或脑干的运动神经元),也可以指大脑中某一区域内形成某一概念或是表象的神经群落。反射中的中间传递过程是信息的加工处理的过程,可以由单个神经元、神经链路或是神经网络来承担,甚至可以直接由输入与输出的对应载体来分担。这样生物神经系统中的反射弧只是它的一个子项罢了,条件反射在主观上也对应着我们常说的“产生、经过与结果”即因果关系。

2、认知

有一个低等生物海兔的记忆试验:海兔本身具有被触摸(水管部分)后的鳃缩反射,但连续十几次的刺激后,鳃缩反应就逐渐减慢.经过研究发现,海兔的习惯化是由于神经递质发生变化所致.进一步的研究发现这种变化是突触中的感觉神经元的Ca离子门关闭,导致递质的释放量减少所致.上述试验说明简单的记忆与神经递质和突触有关.又如大鼠的大脑皮质切除试验:用迷宫训练大鼠,如果大鼠学会并记住顺利走出迷宫的道路后,切除它的大脑皮质,记忆就会消退.不论切除的是大脑皮质的哪一部分,总是切除的多,记忆消退的多;切除的少,记忆消退的就少。

首先,认知通常强调的是结果,是神经网络定型后的结果。神经网络的定型过程就是认知的建立过程,也就是生物个体的学习过程,它同时表现了出生物的记忆过程。定型好的神经网络对触发信息的处理过程即反射过程,就是记忆的提取过程,也正是通过这一过程反映出了认知的存在。

生物个体对客观事物的认知可以解释为:客观事物在主观意识中形成了表象,并且该表象与一系列的活动(生理的或心理的)相联系。换句话说,某一客观事物的信息如果经过大脑处理能够引发出一系列的动作(这是一种反射现象,符合前面对反射的定义),我们就可以说对这一事物已经认知了。

行为主义与符号主义中对认知建立过程中所显现出的记忆现象都有很详细的类别划分,其中每一种记忆类别都仅与一种认知的建立模式相对应。所以,与其用记忆类别来划分还不如用认知类别来划分更为合理,在这里由于篇幅所限,我仅将认知简单概括为以下三种类别:物体认知、事件认知以及两种认知的衍生产物抽象事物认知。

a、物体认知

感受外界客观环境最简单的办法是通过感官直接去“接触”物质对象,并通过大脑处理,并最终导致一个或一系列的结果,这种因果过程就是对客观物体的认知。如:看到一个苹果,我们产生了拿的动作,同时也可以产生许多其他的动作如激活色彩感觉中枢、激活味觉中枢等等,当可以有这些动作产生时,就完成了对苹果的认知。

下面我们将详细讲解神经网络对物体认知的描述。

一个输入集合I(触觉、视觉等的感应细胞构成的集合或是处于某一层次上的神经元集合)对之内两个不同区域(A、B)的刺激做出相应Y与X两种不同反应的神经处理过程,如图2。

图2的a、b、c为三种AB可能存在的输入情况。图2a中A、B分别对应Y、X,神经链路没有重叠,刺激A时得到Y的输出,刺激B时得到X的输出,结果不会出现问题,请注意:带有方向的黑线只是代表逻辑上的链路,在实际中,链路与链路之间有质的区别,这里只做简单的等价说明,用数量表示质量。图2b中A、B间有了交叉,在处理过程中,当A受到刺激会产生Y的输出,同时会有三条逻辑链路去刺激X,但做为X的全部决定因素,这三条相比从B到X余下的空闲联络,只占很小的一部分,它们还不足以激活X,所以分别刺激A、B仍然会得到正确的输出。对于X这种在某一层次上的输出神经元来说,是否能被激活,主要取决于所有处于不同状态的输入链路的能量对比,在这里能量被量化为逻辑链路的数量,这样每个神经元对值的判断则等价为判断处于激活状态的逻辑链路数是否过半。此类神经链路就是兴奋类传导神经网络,单纯采用此类神经链路的系统只需要根据相应刺激感受区域是否有刺激发生,就可以得出正确的输出结果,但是在图2c中,刺激区域A包含着B的情况下,如果刺激B区会有正确输出X,然而如果刺激A区则会出错,Y与X会同时有效,这时我们就需要一种链路来阻止这种错误的发生,这就是抑制类神经链路,如图2c中的虚线箭头所示,抑制类逻辑链路只起到冲减、抵消兴奋类逻辑链路数量的作用,使得X在冲减后的兴奋链路合计数小于阀值,从而达到唯一正确输出Y得目的。

在图2中列举的神经网络认知模式中,虽然只涉及到了输入与输出,但在两者之间已经包含了计算的成分,或是说承担了传递计算的功能,此外不难发现:能够对某一物体认知,必须要首先区分开其他物体,尤其是符合图2c中的情况,物体间的差异正好可以满足这一需求。这样,即使是从同一个感官传来的信息,也能做到很好的区分。

当认知的对象较为复杂时(如苹果),对象包含有各种各样的属性,其中的每一种属性的响应过程,在局部都遵循着反射的定义。当在某一时刻,与苹果相关的各种属性的神经子网络被大部分激活时,苹果的表象就成了焦点。更确切的讲是,感官捕捉的信息在传递的过程中,经过了代表各种属性的神经子网络,一些属性因条件不满足而停止传递,最后由可以通过的(即被确认的属性)神经子网络继续向后传递,最后再引发一系列的动作,其中反射可以指局部的传递(单个属性的确认),也可以指整个传递过程(看到苹果后,可以去拿可以去想等等)。

苹果在人脑中形成的表象,其实就是指感官根据苹果实物产生的电信号所能经过的神经链路,神经链路与神经网络的关系相当于行走路径与公路网的关系。此外其他的神经区域输出的电信号如果在传递过程中也能引发出与前面提到的“苹果神经链路”相同或相似动作或是功能的话,也可以说是形成了苹果的表象,这种现象可以使我们认知客观世界不存在的事物或个体自身从未接触过的事物。

b、事件认知

任何事物在一段时间内发生了变动,在这里都可以被称之为事件。因果关系同样也具备事件的属性,如果能深入分析一下各种事件的过程,基本上都能找到因果关系的影子。在前面对物体的认知中,我们知道了神经网络认知物体是以因果关系的方式建立的网络链路,为了不引起混淆,下面以因果关系为认知对象的,我们用事件来代替,对事件的认知过程,近似于对物体的认知过程,相当于把事件等同于物体,由于事件具有时间性,所以神经网络就必须能够处理时间问题。

神经元的形状各异,轴突有长有短,且对信息的加工时间与传递速度也各不相同,这样对同一起点不同的传递路径,信息的传递速度可能不同。还以图2为例,现在假设每一个箭头除了代表一个神经元连接外,还代表一个单位传递时间,当首先刺激A区后并在第二个单位时间内刺激B区,将两次触发过程当作一个事件,导致一个输出Y;同法当先刺激B区,然后在刺激A区时会有另一个输出X,如图3

根据这种通过神经链路上神经元个数进行延时的方法,任何处于时间片段上的信息都可以被处理。我们再举个更加复杂的例子,单输入神经元网络对摩尔斯电码的识别与重现。

假设输入神经元为A,按严格的尔斯电码规则来刺激该神经元,最后由神经网络得出字符序列,如图4

当A收到刺激信号时,将信号广播给不同的识别群体,图4中只给出了其中的一个网络群体,给出的这个群体只能认识字符“b”即电码“—…”。为了简化说明,图4中舍弃了每个神经元的其他输入输出链路以及相关的抑制链路,所以图中的每一个指向神经元的箭头均存在着“与”的逻辑运算关系,在这里它们不表示逻辑数量。

由图4可以看出,先收到的信号经过较多的传递神经元进行延时,再连同后面收到的信号一起同时传递到结果输出上,这样处于时间片段上的信息就可以被当作是一个整体来进行处理。粗虚线上半部分为输入识别部分,下半部分为信息重现部分,仔细观察就会发现,两部分的神经链路并不是互成镜像,输入为前端延时,依次为:1、3、5、7、8、9,输出为后端延时,依次为:9、7、5、3、2、1,所以认识事物与应用事物是由两套不同的神经网络来控制完成的。图4中的两条倾斜细虚线是一个虚拟的标示线,从某种意义上讲这里是事物的表象层,中间本应该是更加复杂的表象处理网络,在这里只简单的假设性的给出了表象输出与输入。

c、抽象概括与抽象描述

对事物(事件、物体)的认知,使我们得以在大脑中建立出与客观世界相对应的表象,作为记录事物表象的神经链路网上的每一个分支与合并都可能是事物在不同层次上的一种“特征的概括与描述”(参见图3左图)。

神经网络在认知新的事物时,输入信息总是尽可能的使用已存在的网络链路进行传递处理,当处理不足以产生正确的结果时才在信息的中断处搭建新的网络连接。在局部,如果已存在的网络链路可以被使用,那么这部分网络结构通常是一种共性的表达,当这种表达随着同类认知的增加而逐渐完善时,就可以作为一种属性的表象,这在主观上是一种抽象概括的过程。

例如,对苹果的认知,“苹果”本身是一个概括出来的词汇,它不具体指哪一个苹果,但在认知若干个具体苹果的过程中,与各个苹果相对应的神经链路的共用部分被逐渐加强,这部分神经网络就可以说是“苹果”这一概念的表象区域。此外,神经网络结构不光能实现对有形的抽象概括,也可以对无形的加以抽象概括,例如“水果”的表象,这一表象的形成可以说是用若干不同种类的水果培养出来的,也可以说是由“苹果”、“梨”等等表象的神经链路的共用部分完善而成的,后一种方式可以理解为抽象概括可以建立在另一种抽象概念之上,即对无形的事物也可以做抽象概括。换个角度讲,这些抽象出来的表象本身就是一种有形的物质,它是由若干神经元搭建起来的网络系统,是客观存在的东西,这样的话就与第一种方式相一致了。

语言是生物间交流的工具,是生物为了更好的适应周围的环境而进化产生的,在这里它包含有声音、文字、动作、行为以及低等生物的化学接触等等内容。就拿我们人类来说,每一个发音、每一个文字符号都可以说是对应着一种表象,这个表象可以是抽象出来的也可以是具体事物产生的。语言是通过触发来进行工作,当然也可以说是一种反射或是因果现象。无论是说还是听,也不论是写还是看,对于说或者是写这种输出性质的处理,可以解释为某个表象被激活时,它又被作为输入信号沿着该表象至发音或是运动器官间的语言神经链路传递电信号,直至发音或是运动器官做出相应的动作。听与看也是如此,感官接收到信息后传递直至激活某一个表象区域(请参见图4)。语言与表象之间广泛存在着对等映射关系,它可以使我们能够直接去运用语言来进行思维,即便是表象与输入输出没有语言神经链路对应关系的,如果需要我们也会临时的建立起语言神经链路,如本文中说的图几图几、这个那个等等,或者用相关的有语言链路的表象通过塑造、阐述、刻画、定位等等方式来体现或是建立该表象,这种建立神经链路的过程往往体现出不同种类的记忆模式。

生物的记忆过程与机械的存储过程原理基本相同,都是通过改变载体的性状来表达的,只是生物是通过神经网络的响应过程来表达或再现记忆的内容,就是说该神经网络的连接结构就反映着记忆的内容,所以生物的记忆过程就是建立特定连接方式的神经网络的过程,而提取过程就是激活这部分神经网络的过程。一旦载有相关记忆内容的神经网络结构被确定时,能量只能体现在信息的提取与再现上,当然维持这种结构也需要一点能量,不然神经元就饿死了:)注意:这里强调的是“过程”。

生物的认知过程对外表现为学习过程,对内表现为神经网络的建立及使用过程,在学习过程中往往会同时伴随着反馈过程(内反馈或外反馈),生物从外界获得信息,传递处理后再作用给外界,并同时获取作用后新的信息,周而复始的运做,这就是外反馈过程。外反馈过程是依靠外界因素帮助或是引导或是促使生物个体建立起能与环境相协调运做的神经网络系统,主观上我们称之为“教育”。内反馈主要体现在我们的思维活动上,通常外界事物在大脑中存在着对应的表象,被外反馈完善了的事物表象之间同样可以建立起互动联系,比如讲一个事物的表象被激活(输入),引发其他的表象也被激活(输出),这些被激活的表象同样也可以作为输入去激活先前的或是其他的表象,然后周而复始的运做,使得信息得以在脑内进行反复的处理。内反馈过程实际上就是一种“自学”的过程,但它的激发源头必定是与外界有关,并且最终要作用于外界,所以说内外反馈往往是兼而有之的。

在认知过程中随着内反馈的素材(表象)不断增多,生物个体渐渐能够认知自身与外界间的互动关系,自我意识也就随之产生,同时我们用以进行思维的素材及其运作方式,如概念,词汇以及由这些材料所带来的情感因素及组织方式等等,绝大部分都来源于前人或者是借用他人的经验,生物个体对这些经验素材的获取,或是由于接触的几率的不同,或是由于认同的程度的高低,个体间总会存在着差异,这样就产生了我们不同的个性特征。

3、创造

生物在与周围环境发生相互作用时,不可避免的会对周围的环境造成一定的影响,无论是主动的还是被动的,这些对环境的影响最终都是为了促使生物以更好的适应周围的环境。遵循优胜劣汰的法则,好的影响将会被保留继承下去,如搭窝、建巢、获取食物等等,而坏的影响会增加生物生存的风险。

神经网络在认知事物后,事物的表象往往不是特定对应着某一个具体事物,而是对应着在一个模糊的范围内所含阔的一类事物。例如,我们认知的苹果,泛指各种各样的苹果,甚至还包括那些嫁接出来的长的象其他水果的苹果等等。在我们依据苹果的表象勾勒出一个具体的苹果时,这个苹果将肯定不会与客观世界中的任何一个苹果相同,因为没有两样东西是绝对相同的。产生一个客观世界不存在的事物,就是创造,其过程就是创造的过程。

生物神经网络中事物的表象往往穿插交错在一起,它们以链路最省的方式构成。任何神经链路上的合并都可以说是事物的某一特征在某一层次上的概括,所以表象可以以不同的内涵层次来拆分成各种各样的属性单元(元素),而任何神经链路上的分支都可以说是事物的某一特征在某一层次上的副本,使得这些属性单元也能够隶属于别的表象或是说用于构建(表达)别的表象,当若干种属性单元在某一时刻都处于激活状态时,就等同于一种表象被激活,无论这个表象是否对应着客观世界中的事物,如果没有对应关系那就是一个较高形式的创造过程。

创造的几种主要的表达形式:联想、推理、顿悟

a、联想

当一个事物的表象被激活时,也就是说该表象所包含的若干属性单元(元素)同时有效时,我们的注意力焦点就集中在这个表象上,如果对该表象的处理(内或外反馈)使的表象被否决时,也就是说由于一些属性单元的失效(或被抑制,或处于高阻),导致该表象无法成立的时候,剩余的属性单元或许可以构成另一种事物的表象,或许还需要结合那些被激活了的新的属性(或是由外界事物具有的新的属性所激活,或是因降低了对一些属性的抑制所导致的激活)。

b、推理

联想是一种去激活与事物表象相关联的其他表象的过程,主观上是一种横向扩展的过程,那么纵向过程就是由于一个或若干个事物表象被激活,从而导致另一个表象也被激活的过程,即推理过程,其中的任何一个表象的确立(激活)都会通过反馈过程加以验证。推理与联想在神经网络结构上十分的相似,功能上也基本相同,只是在主观认识上,联想更强调相关性或是相似性,而推理则强调的是次序性或层次性。

c、顿悟

当我们思考一件事情时,或设计一件东西的时候,常常会遇到百思不得其解的情况发生,但有时,在某个偶然的事件影响下,我们会突然明白或能够解决这些问题,这就是顿悟现象。

事物的表象是由若干个神经网络属性单元所构成的,我们说的“问题”在大脑中也是一种表象,是一种经反馈过程没有验证通过的特殊的表象,这个表象的属性单元可能包括具体的事物表象、抽象的事物表象、逻辑关系、公理、定律等等内容,但这些属性同时有效时,问题的表象并不能通过内外反馈的验证。作为一个急切需要解决的“问题”,“问题”的表象被反复的激活(深思熟虑反复思考),在一个偶然机会,一个别的事件表象被激活,或是因为此事件的某个属性单元弥补了“问题”表象的一个重要的空缺;或是因为此事件“问题”表象中的某个关键的属性单元被抑制失效,“问题”表象得以完善并能够通过反馈验证,这就是顿悟。

四、神经网络的相关问题

人在成长过程中,他的学习过程就是构建相应神经网络结构的过程,随着认知程度的增加,网络结构也日趋复杂,对刺激的反应过程也随之复杂化,当复杂到无法预测时,主观上就会认为反应过程是自发产生的,这是人的一种错觉。

幼年,人脑神经网络的建立过程需要大量的空闲神经元,基本雏形确定后,剩余的空闲神经元会损失大半,这样才能够给网络的发展腾出空间。余留下来的空闲神经元或是成为新建神经链路中的一部分而被确定下来;或是被用于临时搭建的某些链路;或是作为备用存在于网络的空隙当中。

青少年,神经网络属于高速建立阶段,这个阶段的神经网络可塑性极强,主要是因为针对事物的认知,即是以机械性记忆为主,对事物认知的量及内容是抽象逻辑思维建立的基础及倾向,随着量的增加抽象概括的能力会逐渐增强。

中青年,事物的认知量及逻辑思维能力的配比达到了最佳程度,不光有一套较好的能与外界交互的神经网络系统,而且神经网络还保留有发展的余地,即还保留有一定的可塑性。

中年,无论是抽象事物还是具体事物,认知量已基本确定,网络的结构已日趋复杂化,在一些局部,需要修改的或是新建的神经链路对空闲神经元的需求也已日趋紧张,使得我们的认知速度逐渐减慢。

老年,在许多的神经网络区域,空闲的神经元已开始满足不了认知的需求,另外因为无法认知新的事物,对外界的反应能力也开始下降,连带的相关神经区域得不到激活,神经链路的健壮性开始下降,以至于一些神经链路解体,伴随的就是认知量的下降,即健忘等等现象,并且成为一种恶性循环发展下去……。

五、后记

为了能清楚的阐述它的运行机制,同时也是为了验证这套理论,根据前面所提到的神经元的结构功能及组网方式,我通过计算机软件设计了虚拟的神经网络系统,2000年软件完成了调试,并得到了很好实验结果。

参考文献

1《现代科学育儿答疑》(0-3岁)人民教育出版社1999年第1版

2陈守良等,《人类生物学》,北京大学出版社,2001年12月

3陈阅增等(1997).《普通生物学》.北京:高等教育出版社

4苏珊·格林菲尔德,《人脑之谜》杨雄里等译

5陈宜张《分子神经生物学》人民军医出版社1997年2月

6伊·普里戈金、伊·斯唐热著、曾庆宏、沈小峰译《从混沌到有序》,上海译文出版社1987年版。

神经网络论文范文篇8

关键词PID控制;BP神经网络;遗传算法;参数优化

1引言

由于常规PID控制具有鲁棒性好,结构简单等优点,在工业控制中得到了广泛的应用。PID控制的基本思想是将P(偏差的比例),I(偏差的积分)和D(偏差的微分)进线性组合构成控制器,对被控对象进行控制。所以系统控制的优劣取决于这三个参数。但是常规PID控制参数往往不能进行在线调整,难以适应对象的变化,另外对高阶或者多变量的强耦合过程,由于整定条件的限制,以及对象的动态特性随着环境等的变化而变化,PID参数也很难达到最优的状态。

神经网络具有自组织、自学习等优点,提出了利用BP神经网络的学习方法,对控制器参数进行在线调整,以满足控制要求。由于BP神经网络学习过程较慢,可能导致局部极小点[2]。本文提出了改进的BP算法,将遗传算法和BP算法结合对网络阈值和权值进行优化,避免权值和阈值陷入局部极小点。

2加热炉的PID控制

加热炉控制系统如图1所示,控制规律常采用PID控制规律。

图1加热炉控制系统简图

若加热炉具有的数学模型为:

则PID控制过程箭图可以用图2表示。

其中,

采用经典参数整定方法——临界比例度对上述闭环系统进行参数整定,确定PID控制器中Kp=2.259,Ki=0.869,Kd=0.276。参考输入为单位阶跃信号,仿真曲线如图3所示。

图2PID控制系统

图3Z—N整定的控制曲线

仿真曲线表明,通过Z—N方法整定的参数控制效果不佳,加上PID参数不易实现在线调整,所以该方法不宜用于加热炉的在线控制。

3基于遗传算法改进的BP神经网络PID控制器参数优化整定

对于加热炉控制系统设计的神经网络自整定PID控制,它不依赖对象的模型知识,在网络结构确定之后,其控制功能能否达到要求完全取决于学习算法。

3.1遗传算法改进的BP算法实现

一般BP网络结构如图4所示,其算法步骤为:

(1)输入训练样本,按网络结构得到输出;

(2)将实际输出与希望输出比较,得到误差,根据误差调节阈值和权值。重复两个步骤,直到误差满足要求为止;

研究表明,采用上述BP算法逐步调整权值和阈值,可能导致学习过程收殓速度慢,训练时间过长,又易陷入局部极小点而得不到最佳的权值和阈值分布。为了加快学习速率,已经有了一些优化BP算法[3],采用动态学习因子和惯性因子。这些方法在加快网络收殓速度方面比较显著,能较好地避免网络陷入局部极小。遗传算法不要求目标函数具有连续性,而且可以对复杂的多峰的,非线性及不可微的函数实现全局寻优,因此容易得到全局最优解或性能很好的次优解。将遗传算法和BP算法相结合可以具有寻优的全局性和精确性。算法过程为:

(1)对权值和阈值编码生成初始种群,由于是多参数优化问题,采用多参数映射编码;

(2)计算适应度值;

(3)如果不满足遗传算法停止条件,则对当代种群进行交叉、选择和变异产生新的个体,转(2);否则,转(4);

(4)对遗传算法找到的较好的解空间,采用BP算法在这些小的解空间中搜索出最优解。

3.2PID参数优化

由图5可知,神经网络根据系统的运行状态,通过在线调整PID的三个参数Kp,Ki,Kd,以达到某种性能指标的最优化。

图5BP网络整定PID参数原理图

经典增量式PID的控制算法:

算法步骤:

(1)确定网络结构,采用3—4—3的结构,输入分别为e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)。输出为Kp,Ki,Kd。

(2)选择初始种群N=60,交叉概率Pc=0.08,权值,阈值的范围和初始化。选取目标函数为(偏差绝对值积分):,适应度函数为:

(3)采样得到rin(k)和yout(k),计算该时刻的误差。

(4)对网络进行学习,在线调整权值,阈值,计算神经网络的各层输入,输出,得到三个可调参数Kp,Ki,Kd。计算系统输出。

(5)计算适应度若不满足要求,转入第(3)步。

(6)找到最优的Kp,Ki,Kd,对系统仿真。

图6BP网络整定的控制曲线

仿真结果显示,用BP神经网络整定的PID控制系统比经典的Z—N(临界比例度)法有更快的响应特性,良好的动态特性和比较强的鲁棒性。

4结束语

由于神经网络具有自组织、自学习等优点,本文提出的优化的BP神经网络相结合的方法对控制器参数进行寻优,可根据对象的变化情况对控制器参数的在线调整,满足控制对象的动态特性随着环境变化而变化的要求。达到好的控制效果。遗传算法与BP网络的结合弥补了BP网络学习过程收敛速度慢,可能陷入局部级小的不足。

参考文献

[1]王树青等编著.工业过程控制工程[M].北京:化学工业出版社,2002

[2]李士勇著.模糊控制、神经控制和智能控制论[M].哈尔滨:哈尔并工业大学出版社,1996

[3]胡志军,王建国,王鸿斌.基于优化BP神经网络的PID控制研究与仿真[J].微电子学与计算机2006,23(12):138—140

[4]张文修著.遗传算法的数学基础[M].西安:西安交通大学出版社,2003

神经网络论文范文篇9

在水利及土木工程中经常会遇到地形面,地形面是典型的空间自由曲面,地形面在给出时,往往只给出一些反映地形、地貌特征的离散点,而无法给出描述地形面的曲面方程。然而有时需要对地形面进行描述,或者当给出的地形面的点不完整时,需要插补出合理的点。以往大多用最小二乘法或其它曲面拟合方法如三次参数样条曲面、Bezier曲面或非均匀有理B样条曲面等,这些拟合方法的缺点是:型值点一旦给定,就不能更改,否则必须重新构造表达函数;在构造曲线曲率变化较大或型值点奇异时,容易产生畸变,有时需要人为干预;此外,这些方法对数据格式都有要求。

神经网络技术借用基于人类智能(如学习和自适应)的模型、模糊技术方法,利用人类的模糊思想来求解问题,在许多领域优于传统技术。用神经网络进行地形面构造,只要测量有限个点(可以是无序的),不需要其它更多的地形面信息和曲面知识,当地形面复杂或者是测量数据不完整时,用神经网络方法更具优势,而且还可以自动处理型值点奇异情况。

本文提出用BP神经网络结合模拟退火算法进行地形面的曲面构造。

2模型与算法的选择

为了对地形面进行曲面构造,首先要有一些用于神经网络训练的初始样本点,对所建立的神经网络进行学习训练,学习训练的本质就是通过改变网络神经元之间的连接权值,使网络能将样本集的内涵以联结权矩阵的方式存储起来,从而具有完成某些特殊任务的能力。权值的改变依据是样本点训练时产生的实际输出和期望输出间的误差,按一定方式来调整网络权值,使误差逐渐减少,当误差降到给定的范围内,就可认为学习结束,学习结束后,神经网络模型就可用于地形面的构造。

BP网是一种单向传播的多层前向网络。网络除输入输出节点外,还有一层或多层的隐层节点,同层节点中没有任何耦合。输入信号从输入层节点依次传过各隐层节点,然后传到输出节点,每一层节点的输出只影响下一层节点的输出。其节点单元传递函数通常为Sigmoid型。BP算法使神经网络学习中一种广泛采用的学习算法,具有简单、有效、易于实现等优点。但因为BP算法是一种非线性优化方法,因此有可能会陷入局部极小点,无法得到预期结果,为解决BP算法的这一缺点,本文将模拟退火算法结合到BP算法中。

模拟退火算法是神经网络学习中另一种被广泛采用的一种学习算法。它的基本出发点就是金属的退火过程和一般组合优化问题之间的相似性。在金属热加工过程中,要想使固体金属达到低能态的晶格,需要将金属升温熔化,使其达到高能态,然后逐步降温,使其凝固。若在凝固点附近,温度降速足够慢,则金属一定可以形成最低能态。对优化问题来说,它也有类似的过程,它的解空间中的每一个点都代表一个解,每个解都有自己的目标函数,优化实际上就是在解空间中寻找目标函数使其达到最小或最大解。

(如果将网络的训练看成是让网络寻找最低能量状态的过程,取网络的目标函数为它的能量函数,再定义一个初值较大的数为人工温度T。同时,在网络的这个训练过程中,依据网络的能量和温度来决定联结权的调整量(称为步长)。这种做法与金属的退火过程非常相似,所以被称为模拟退火算法。)

模拟退火算法用于神经网络训练的基本思想是,神经网络的连接权值W可看作物体体系内的微观状态,网络实际输出和期望输出的误差e可看作物体的内能,对网络训练的目的就是找到恰当的状态W使其内能e最小,因此设置一个参数T来类比退火温度,然后在温度T下计算当前神经网络的e与上次训练的e的差△e,按概率exp(-△e/T)来接受训练权值,减小温度T,这样重复多次,只要T下降足够慢,且T→0,则网络一定会稳定在最小的状态。

模拟退火算法虽然可以达到全局最优,但需要较长时间,BP算法采用梯度下降方式使收敛速度相对较快。为取长补短,我们将两种算法结合起来,采用BP算法的梯度快速下降方式,同时利用模拟退火算法技术按概率随机接受一个不成功的训练结果,使梯度快速下降过程产生一些随机噪声扰动,从而既保证了网络训练的快速度下降,又保证了训练结果的最优性。

3网络结构与学习算法

3.1网络结构

如何选择网络的隐层数和节点数,还没有确切的方法和理论,通常凭经验和实验选取。本文采用的BP网络结构如图1所示,输入层两个节点,分别输入点的x坐标和y坐标;两层隐层,每层10个节点,输出层一个节点,输出点的z坐标。

3.2学习算法

学习算法的具体过程如下:

其中Out_node为输出神经元集合.

4计算实例

为了检验本文算法的有效性,我们用本文算法对黄河下游河滩地形面进行曲面构造,地形面数据按截面给出,我们用奇数截面上的点为学习样本,偶数截面上的点用于检验本算法的精度.表1给出了测量值z1与本文算法计算结果z2,z2为本算法经过大约3500次迭代的结果.由这些数据可以看出,本文算法计算出的值与测量值的误差大约在0.02左右.完全可以满足实际工程要求的精度.

5结语

用神经网络进行地形面的曲面构造,不必求出曲面的方程,只需知道有限个点即可,而且这些点可以是散乱点.与传统方法相比,神经网络方法具有很强的灵活性.

本文将BP算法和模拟退火算法结合起来,解决了BP算法容易陷入局部极小的致命缺点.但仍然没有解决BP算法收敛速度慢的缺点.

NEURALNETWORKMETHODTOCONSTRUCTTERRAINSURFACE

LiuXue-mei1,2,DondWen-sheng1,2,ZhangShu-sheng1

(1NorthweasternPolytechnicalUniversity,ShanxiXiAn710072)

(2NorthChinaInstituteofWaterConservancyandHydroelectricPower,HenanZhengzhou450045)

Abstract

Thispaperpresentsanartificialneuralnetworkapproachtosolvetheproblemofterrainsurfaceconstruction.ThismethodtakesadvantageoftheglobalminimumpropertyofSimulatedProcedureonthebasisofBPalgorithm,thuscanjumpoutofthelocalminimumandconvergetotheglobalminimum..ThismethodwerevalidatedbysimulatingbottomlandterrainofYellowRiver.

Keywords:terrainsurface;freeformsurface;neuralnetwork;BPalgorithm;simulatedannealing

参考文献

[1]王铠,张彩明.重建自由曲面的神经网络算法[J].计算机辅助设计与图形学学报,1998,10(3):193-199

神经网络论文范文篇10

关键词:ZISC78;径向基函数神经网络(RBFNN);实时;预报

1引言

神经网络是近年来得到广泛关注的一种非线性建模预报技术。它具有自组织、自学习、自适应和非线性处理、并行处理、信息分布存储、容错能力强等特性,对传统方法效果欠佳的预报领域有很强的吸引力。基于神经网络的非线性信息处理方法已应用于军事信息处理及现代武器装备系统的各个方面,并有可能成为未来集成智能化的军事电子信息处理系统的支撑技术。该技术在一些先进国家已部分形成了现实的战斗力。

船舶在波浪中航行,会受到风、浪和流的影响,因而将不可避免地发生摇荡运动。严重的摇荡会使船员工作效率下降、物品损坏、军舰的战斗力下降。如果能够预知未来一段时间船舶的运动情况,不仅有利于尽早采用先进控制算法控制舰载武器平台隔离船舶运动的影响,使其始终稳定瞄准目标,而且还可获得未来一个海浪周期内的船舶运动情况,以研究船载武器上层的控制策略,从而提高火力密度,因此,有必要研究在海浪中具有一定精度的海浪中船舶运动的短期预报。此外,如能有效准确地预报船舶的横摇运动,对于提高船舶的耐波性和适航性也有重要意义。

国内外学者也将神经网络用于船舶运动预报研究,但往往没有考虑实时性等实现问题,因而不能实用化。神经网络实现技术是神经网络研究的一个重要方面。神经网络实现可分为全硬件实现和软件实现两种。目前神经网络的实现还主要以软件模拟为主,由于现行的冯诺曼计算机体系结构不能实现并行计算,因而神经网络软件的实时应用还受到一定限制。

目前,一些著名集成电路制造公司如Intel、Mo-torola、松下、日立、富士通等均已推出自己的模拟或数字神经网络芯片,这些芯片无论在网络规模还是运行速度上都已接近实用化的程度,因而给神经网络应用的发展以极大的推动。由于舰载武器系统,需选用具有在片学习功能的神经网络芯片,即将网络训练所需的反馈电路及权值存储、计算和修正电路都集成在了一个芯片,因而可实现全硬件的、具有自学习能力的神经网络系统,也可以说,这是一种具有自适应能力的神经网络。

2ZISC78的功能及工作原理

ZISC78是由IBM公司和Sillicon联合研制的一种低成本、在线学习、33MHz主频、CMOS型100脚LQFP封装的VLSI芯片,图1所示是ZISC78的引脚排列图。ZISC78的特点如下:

●内含78个神经元;

●采用并行结构,运行速度与神经元数量无关;

●支持RBF/KNN算法;

●内部可分为若干独立子网络;

●采用菊花链连接,扩展不受限制;

●具有64字节宽度向量;

●L1或LSUP范数可用于距离计算;

●具有同步/异步工作模式。

2.1ZISC78神经元结构

ZISC78采用的神经元结构如图2所示,该神经元有以下几种状态:

(1)休眠状态:神经网络初始化时,通常处于这种状态。

(2)准备学习状态:任何时侯,神经网络中的神经元都处于这种状态。

(3)委托状态:一个包含有原型和类型的神经元处于委托状态。

(4)激活状态:一个处于委托状态的神经元,通过评估,其输入矢量处于其影响域时,神经元就被激活而处于激活状态。

(5)退化状态:当一个神经元的原型处于其它神经元类型空间内,而大部分被其他神经元类型空间重叠时,这个神经元被宣布处于退化状态。

2.2ZISC78神经网络结构

从图3所示的ZISC78神经网络结构可以看出,所有神经元均通过“片内通信总线”进行通信,以实现网络内所有神经元的“真正”并行操作。“片内通信总线”允许若干个ZISC78芯片进行连接以扩大神经网络的规模,而这种操作不影响网络性能。

ZISC78片内有6bit地址总线和16bit数据总线,其中数据总线用于传输矢量数据、矢量类型、距离值和其它数据。

2.3ZISC78的寄存器组

ZISC78使用两种寄存器:全局寄存器和神经元寄存器。全局寄存器用于存储与所有神经元有关的信息,每片仅有一组全局寄存器。全局寄存器组中的信息可被传送到所有处于准备学习状态和委托状态的神经元。神经元寄存器用于存储所属神经元的信息,该信息在训练学习操作中写入,在识别操作中读出。

2.4ZISC78的操作

ZISC78的操作包括初始化、矢量数据传播、识别和分类等三部分。

初始化包括复位过程和清除过程。

矢量数据传播包括矢量数据输入过程和神经元距离计算过程。神经元距离就是输入矢量和神经元中存储的原型之间的范数。通常可选L1范数或Lsup范数:

其中,Xi为输入矢量数据,Xs为存贮的原型数据。

对于识别和分类,ZISC78提供有两种可选择的学习算法RBF和KNN。其中RBF是典型的径向基函数神经网络。在该RBF模式下,可输出识别、不确定或不认识的状态;KNN模式是RBF模式的限制形式,即在KNN模式下,新原型的影响域总被设为1,输出的是输入向量和存储原型之间的距离。需要指出的是,ZISC78具有自动增加或减小神经元个数以适应输入信号的分类和识别功能,神经元个数的最大值和最小值在全局寄存器组中设定。

2.5ZISC78的组网

一个ZISC78芯片内可以通过寄存器操作定义若干个独立的网络。若干个ZISC78芯片通过层叠可以组成一个更大的神经网络,组网芯片数量没有限制,小于10个ZISC78组网时,甚至连电源中继器件也不需要。所以,ZISC78具有最大的灵活性,能够满足不同的需要。

3仿真实例

为了验证ZISC78用于船舶运动实时预报的精度,本文对径向基函数神经网络预报进行了仿真,图4给出了基于径向基函数神经网络和船舶运动惯导实测信号预报的0.3秒(15步)误差曲线图。

通过以惯导实测数据ZHX_lg.dat为例预报0.3秒(15步)以后的船舶运动,作者运用相空间重构理论已经判断出本数据为非线性信号。

该仿真的最大预报误差方差为6.4666e-004,该数据可以满足战技指标。