航空专用网络故障检测技术研究

时间:2022-03-25 10:24:33

航空专用网络故障检测技术研究

摘要:文章深入研究了多种航空专用网络技术,根据航空网络特点和具体应用的需求,分析总结了航空专用网络中存在的多种故障模式,并针对各种故障模式提出了适用于航空网络的切实可行的故障检测方法。该方法目前已在多个型号飞机的机电、航电网络上论证并实现,经过了实验室和机上大量的功能测试和验证,可满足具体型号的技术要求,能够及时准确的检测出网络运行过程中的已定义故障,具有良好的可用性和可靠性。

关键词:航空网络;故障检测

随着网络技术的飞速发展,多种适用于航空电子的专用网络技术(如AFDX网络、FC总线、1394总线、1553总线技术)也得到了大力发展。航空网络技术具有连线少、资源能共享能力强、稳定性好、适应性强、易于维护和扩展等优点,能够显著提高了飞机的综合性能。为了提高航空网络技术的稳定性和可靠性,这就需要自主研发相应的网络故障检测技术,用以保证整个机载网络中各设备安全可靠的运行。航电系统的网络结构复杂,各类传感器、终端设备和接口数量众多,对网络故障检测技术的安全性、稳定性和正确性的要求非常高,一般的网络故障检测技术无法满足其需求。因此,应该大力研究和发展航空专用网络故障检测技术。本文根据机载网络的故障检测要求,重点研究了多种拓扑结构下的网络故障模式,并针对故障模式提出了对应的故障检测方法。

1航空网络故障检测的需求

航空网络故障检测技术,不仅应该在系统规定的条件下检测出已定义的故障,还必须满足其自身的特殊需求,即:1)实时性:故障检测技术必须能够高效监视航空网络中多个节点设备的状态,必须能够在规定的时间范围内检测出已定义故障;2)可靠性:故障检测技术本身必须是可靠的,能够技术检测出故障且不会误报不存在的故障;3)低流量:尽管被监视的网络中各种设备数量众多、位置分散,但故障检测技术作为一种基础服务引入网格环境中,要求其对整个网格通信性能影响到尽可能的小,所耗费的资源尽可能低;4)灵活性:航空网络中的故障检测技术会用于网络中各个不同的设备,要与不同类型的应用程序兼容,要求故障检测技术能够根据应用程序类型的不同和需求的不同,相应调整检测策略。

2航空网络特点分析

航空网络的故障模式与网络的协议特性和拓扑结构密切相关,分析故障模式时必须考虑网络协议特性的拓扑结构

2.1航空网络的协议特性

航空专用网络协议多种多样,他们具有如下共同的特点:1)可靠性:航空网络对数据通信的可靠性要求较高,希望各设备按照事先定义的方式稳定运行,不允许既定数据丢失,也不允许产生不希望的数据。2)实时性:航空专用网络对数据通信的时间有着严格的要求,即规定了多个设备间的数据通信应该在固定的时间内完成,不可拖延。3)确定性:航空专用网络应具有可定义性,且各个消息应该在规定的范围内到达目的节点,该时间范围可确定。

2.2航空网络拓扑结构

航空专用网络一般为星型或总线型的拓扑结构,其中比较有代表性的有星型结构的AFDX网络技术,和总线结构的ARINC825CAN网络技术。AFDX网络结构为可拓展的星型拓扑结构,由端系统(EndSystem)、交换机(Switch)和传输链路组成,每个交换机允许连接若干个端系统,多个交换机可以互联组成更大的网络。ARINC825网络结构可设计为总线型拓扑结构,多个节点机通过与公共总线连接,组成总线型互联网络。该网络中的各个节点之间可以是对等的关系,也可以根据实际需要设计为主从模式。

3故障模式分析和检测

航空网络由节点机和连接节点机的设备组成。可以按照故障所在的位置,将航空网络中的故障分为单节点故障和网络连接故障。

3.1单节点故障分析和检测

单节点故障是指网络中某一单个节点发生了故障,该故障只对本节点的相关功能有影响,不应影响网络整体功能。该故障有以下几种类型。1)硬件故障硬件故障是指构成节点设备的各部分硬件出现的故障。硬件故障一般与时间和环境相关,一般来说,硬件故障可能是FLASH故障、CPU故障、SDRAM故障、DPRAM故障、时钟故障、PCI总线故障等。该故障的检测方法分为以下几种:对于DPRAM或SDRAM等具有存储功能的部件,检测一般为方法读写操作或CRC校验和对比;对于CPU或DSP等具有计算功能的部件,检测方法一般为算术和逻辑运算。2)软件故障软件故障是指软件没有按照既定的方式运行,或无法应对突发的异常时产生的故障。该故障一般为逻辑级故障、数据结构故障、软件差错和系统级的故障。软件故障的检测方法有:看门狗、心跳检测、状态监控、异常中断。3)通道故障通道故障是指节点设备的通信通道出现了故障,无法接入网络。通道故障的检测方法较多,但最可靠的检测方法为收发环路法,即节点机向网络中的另一设备发送一个请求,并在固定的时间内收到该请求的正确响应。

3.2网络连接故障分析和检测

链路故障是指网络中连接各节点机的链路发生了故障,该故障可能导致整个网络无法正常通信。该故障有如下几种类型。1)核心设备故障航空网络中的核心设备为网络通信的关键部件,一般是指星型拓扑结构中的交换机,或者总线型拓扑结构中的总线连接设备。核心设备故障故障是指这些关键设备无法正常工作,从而导致整个网络上所有节点不能通信,成为一个个孤立的节点设备。2)网络断裂网络断裂是指网络中某处通道连接的故障,导致多个节点组成的整体网络断裂成若干个局部网络,虽然各个节点的通信功能正常,但无法执行整体的网络功能。3)节点脱离节点脱离是指某节点设备与网络的连接断开,无法了接入网络中。该故障会导致此节点与网络脱离,成为孤立的节点。从以上分析可知,检测网络连接中的故障,不仅要检测单个节点,还应充分考虑所有节点的相互通信。可以引入网络管理的概念,在网络中定义一个管理端,其他的节点作为端。管理端可以主动的向端发送Get请求,端收到请求后将自身的状态信息整理好发回管理端,管理端就可以获取网络中其他节点的状态信息,从而获取网络中其他节点的状态(包括节点自身状态和与网络的连接状态)。

4故障检测实现与验证

4.1单节点故障检测方法

对于单个节点的故障,采用BIT(Build-In-Test)的方法进行检测。BIT可根据运行时机分为三类:上电BIT、周期BIT、维护BIT。1)上电BIT:该功能在设备上电时执行,检测设备的关键部件是否存在异常,如CPU、存储设备(FLASH、DPRAM)、时钟。该项检测应该在很短的时间内完成,并存储检测结果。2)周期BIT:该功能在设备正常工作时周期的执行,在不影响正常功能的情况下检测设备中的部件是否存在异常,该检测应注重实时状态,如软件是否正常运行,时钟是否稳定增长。该检测应周期执行,并存储检测结果。3)维护BIT:该检测在设备处于维护状态时执行,应该全面的检测设备的运行情况,检测范围可以很广,检测时间可以较长。该检测在设备正常运行时禁止使用。三类BIT的使用规则为:上电后立即执行上电BIT,设备运行过程中周期的执行周期BIT,设备在维护状态下执行维护BIT。网络中的设备多种多项,所以BIT的检测项和检测方法可根据具体情况来定义。三类BIT综合使用,可以全面的检测出设备中已定义的故障。将三类BIT的检测结果综合处理,形成节点状态信息,并将该状态信息妥善存储,将周期BIT的检测结果实时更新到该信息中。

4.2网络连接故障检测方法

网络连接故障检测的基本思想为:网络管理。在网络中,将某一节点定义为管理端,其他节点定义端。管理端可以向所有端发送请求,并在规定时间内接收到各个端的响应消息,根据收到响应消息的情况判断整个网络中的故障类型。但由于管理端本身也是一个节点,也有可能出现连接故障和设备故障,所以网络中设置两个管理端互为备份。使用网络管理方法进行网络连接故障检测的判断准则如下:1)管理端向某节点发送请求后,没有在规定时间内接收到响应消息,则可判断该节点故障。故障类型可能为连接故障或节点设备故障。通过查看该节点的自身状态信息,判断故障为连接故障还是节点故障。2)管理端向某节点发送请求后,在规定的时间内收到了响应消息,但响应中的状态信息中存在异常情况,即可检测出该节点中存在的具体故障。3)管理端向某节点发送请求后,在规定的时间内收到了响应消息,且响应中的状态信息中不存在异常情况,则说明该节点没有任何故障,可正常工作。

5总结

本文设计和实现的机载网络故障检测方法已完成工程设计与实现,并通过了大量测试验证,其功能和性能满足系统的应用要求。该技术对我国自主研发新一代飞机的机载网络技术具有重要意义和价值。由于机载网络技术的发展与升级,且网络中存在的故障很难定义全面,还应该深入分析网络的特点,提高存在故障的定义率;并考虑故障检测技术的可靠性、安全性需求,进一步改进和完善适用于航空网络的故障检测技术。

作者:刘芸 陈伊卿 吴姣 刘鸽 单位:中航工业西安计算技术研究所