网络监控故障常见问题范文

时间:2024-03-07 17:47:15

导语:如何才能写好一篇网络监控故障常见问题,这就需要搜集整理更多的资料和文献,欢迎阅读由公文云整理的十篇范文,供你借鉴。

网络监控故障常见问题

篇1

关键词 电厂;热控自动化系统;稳定性

中图分类号TM7 文献标识码A 文章编号1674-6708(2015) 153-0057-02

热控自动化系统作为电厂机组控制重要组成部分,其运行稳定性与可靠性,决定了设备生产效率。以提高热控自动化系统运行稳定性为目的,结合我国电厂机组容量不断加大的现状,需要从技术角度出发,结合系统自身特点,争取在现有基础上对自动化技术进行更新完善。总结以往生产管理经验,确定热控自动化系统管理优化要点,选择合适措施对其进行改造,争取在根本上提高其运行稳定性。

1 热控自动化技术分析

社会生产生活均离不开电力资源的支持,为满足发展现状需求,电厂生产面对的挑战更大,逐渐投入更多机组.提升机组容量,对生产体系自动化管理系统有着更高的要求,争取持续提高电阻运行效率。同时,还需要遵循低碳经济理念,将节能降耗原则贯彻到底,积极应用热控自动化技术,对传统生产与管理体系进行改造优化。即利用编程语言,来实现对系统操作的控制,从根本上来提高电能生产自动化水平。通过对电厂生产体系中温度变化进行有效控制,以相同燃料来获取更多电力资源产量,在提高生产效率的同时,保证生产活动开展的安全性。

2 电厂热控自动化系统技术分析

2.1 分散控制系统

分散控制系统为电厂热控自动化系统的主要组成部分,包括网间通信接口、开发维护接口、现场过程控制接口以及运行操作接口四个相互独立部分,采取集中显示与分散控制的方式。此子系统能够与内热控自动化系统整体内部通信网络有效结合在一起,组合成为过程控制系统。在对此模块进行设计时,应以应用模块为主,通过合理配置与灵活组态来保证各项功能的顺利实现。

2.2 实时监控系统

电厂生产系统复杂性比较高,在生产过程中经常会因为各项因素影响而出现故障,为保证生产设备运行可靠性,就需要设置实时监控系统,争取及时发现存在的各类问题,将问题扼杀在萌芽中,减少各类故障的发生。实时监控系统的存在.可以在检测到故障隐患时,及时告警并采取自动保护动作。电厂实时监控系统分为信息管理系统与厂级实时监控系统两部分,利用控制器与数据连接口实现连接,来达到数据共享的目的。

2.3 视频网络监控系统

视频网络监控系统对提高电厂生产安全性具有重要意义,对此子系统进行设计优化,便于实现电厂生产全过程的监控,尤其是可以将此技术应用到危险程度高,且无人值班操作管理难度大的区域,可以随时掌握生产系统运行状态。视频网络监控系统在实际应用中,需要与辅助系统中通信接口进行结合,来实现对整个电厂运行的实时监控,同时也可以对工作程序与工作工程进行监控。积极应用数字化技术,建立数字视频网络监控系统,实现与厂级管理信息系统、通信接口的连接,利用共享信息来对各类问题进行综合分析。

2.4 辅助控制系统

辅助控制系统在电厂热控自动化系统中占据重要位置,通过合理设计可以实现在无人控制状态下运行。此子系统在运行时,能够通过可编程控制器来设置自动控制指令,并利用数据交换机以及其他数据接口来保证系统能够安全、稳定运行,并通过综合数据的传输来达到信息共享的目的。另外,可以通过中央控制室来实现对辅助控制系统的集中控制,确保电厂生产系统可以在无人控制状态下完成相应工作。

3 电厂热控自动化系统常见问题与原因分析

3.1 热控元件故障

常见热控元件故障即元件信号失真,生产过程中设备拒动或误动,是影响电厂生产安全性与稳定性的主要因素。如果出现故障的元件是FSSS或者ETS等相关设备,将会造成生产系统直接跳闸,甚至会造成设备损坏,不但会降低生产安全性,同时也会造成巨大的经济损失。导致热控元件出现故障的原因比较多,尤其是电厂生产环境相对特殊,受到环境因素、元件安装因素、设备服务时间因素以及系统电源故障因素等影响,再加上管理不及时,最终会出现运行故障。想要减少热控元件故障的发生,需要总结以往管理经验对各项影响因素进行综合分析,重点预防系统容量与系统负荷超载。

3.2 DCS系统故障

即集散控制系统,其综合性比较高,涉及到的专业学科包括计算机技术、网络技术、CRT技术以及过程控制技术,不同技术功能不同,通过组合应用,可以实现远程遥控现场设备、数据记录、数据采集以及状态监控等功能。其中,中央处理器与组态监控画面为两个主要部分,其中中央处理器作用于控制板、电源、1/0模件以及底板等部分。而组态监控画面则主要实现数据显示、操作员站监控以及历史数据查询等功能。对于DCS系统来说,其还可以通过网络实现监控数据与各服务器的交换,一旦其出现故障,势必会影响数据的收集效果,影响监视质量。对诱发故障原因进行分析,常见有操作站问题、辅助DPU切换失败、主DPU死机以及服务器死机等,降低生产系统运行安全性,情况严重时甚至会出现机组停机、设备损坏等问题。

3.3 系统逻辑故障

常见于新投入设备,因其投入运行时间较短,很容易因为逻辑设计不完善因素而导致系统故障,出现判断失误、信号发送错误以及错误动作等问题,最终造成发电机组非正常机组。一般对于电厂新投入机组,在正式投入运行前均需要进行试运行操作,会多次出现系统逻辑缺陷问题,延误正常投产时间,降低设备运行安全性。因此,在试运行阶段,需要重点做好热控系统设计合理性的分析,并根据试运行结果来确定系统逻辑设计优化方案,对存在的漏洞进行修复,避免因为逻辑缺陷而导致电厂机组设备非正常停机。

4 电厂热控自动化系统稳定性优化措施分析

4.1 系统控制单元设计优化

对热控系统控制单元DCS系统进行设计优化,提高单元控制的智能化与响应性,在根本上提高DCS系统运行智能化与灵敏度,对系统监控能力进行完善。基于此需要积极应用各项新型技术,做好与计算机技术、电子技术的联系,对传统技术体系进行更新,形成高智能、现代化分散控制系统,如利用DEH控制系统。同时,还需要对自动控制过程控制软件进行优化,即在对控制程序模块进行设计时,需要对系统控制范围内以及控制指标进行优化,提高系统整体抗干扰性能。其中要求自动控制过程优化设计,争取提高系统过程控制处理能力,在每个过程控制中实现软件服务,最大程度上来满足电厂生产监控需求。

4.2 系统硬件管理优化

硬件设施是热控系统重要组成部分,如果其出现故障势必会降低热控自动化系统运行稳定性,因此需要以其为对象建立完善管理体系。将功能质量为前提,采取措施对系统设备进行管理,提高其耐老化性能,可以适应生产环境,避免因为外界因素的而影响而出现故障。在对硬件选型时,需要对设备运行环境进行综合考察,保证所选硬件型号、质量以及性能合适,能够较强的适应环境。同时,还需要做好质量验收工作,将日常管理落实到位,重点做好机房温度、系统电源、终端工作状态、通信状况等方面维护工作,严格落实各项管理措施,做好各个细节的养护管理工作,减少硬件故障发生的概率。

4.3 系统逻辑设计优化

电厂热控系统逻辑设计的合理性是生产稳定性的基础,应通过措施优化来减少误动、拒动等故障的产生。要求在逻辑设计初期阶段进行性能测试,选择用三取二保护逻辑,通过质量码对每个测点质量进行判断。此种测量方式具有较高的可靠性,可以保证取样信号的逻辑判断,减少误动作的产生。同时,在满足系统功能运行条件下,通过逻辑优化,来降低运行人员劳动强度与操作风险,尤其通过对单点保护逻辑的优化,来减低故障发生的概率。

4.4 APS技术应用优化

即顺序控制系统,对其进行优化,可以在提高操作人员技术水平的同时,实现对操作行为的有效控制,提高行为实施的规范性,减少违规操作行为的发生。对顺序控制系统进行优化,还可以减少机组启停时间,在整体上提高电厂热控自动化系统运行性能,提高其反应能力。另外,还可以对热控设备维护工作进行加强,建立设备故障、检修与更换台帐,做好各项故障的记录分析,提高热控设备运行稳定性。

篇2

关键词:集中维护;组网设计

中图分类号:TN929.5 文献标识码:A 文章编号:1000-8136(2011)36-0033-02

随着人们对通信业务的不断需求,推动了PSTN网络的快速发展,促使网络规模逐步扩大,各地市长途局、关口局、汇接局、端局、模块局数量巨增,相应的对网络监控的实时性、准确性;对故障处理的快速性、及时性;对全程全网的统一监管;杜绝信息倒流等方面都提出了更高的要求,各大运营商摒弃传统的维护组织架构,尽快改革运维模式势在必行。目前,建立省级网管中心、地市级网管中心,采取维护工作“三集中”原则,即“集中管理、集中监控、集中维护”,则是优化维护手段、提高维护水平和降低市分公司运维成本的优选方案。针对中兴ZXJ10B型交换机机型,搭建交换集中维护网管系统,普及集中维护终端的安装及维护技巧是保障网络安全的必要前提。

1交换集中维护系统组网设计

集中维护终端一般安装在地市或者省级的网管中心,远程集中监控各地交换局。搭建省级交换网管,可利用省DCN网(计费网)网络,集中维护终端通过路由器等相关网络和传输,连接到各地ZXJ10交换局的后台局域网129服务器上。保证集中维护终端与各监控局的网络和路由畅通。接入的监控局包括各地市关口汇接局、端局(包括专网)、SSP局等,见图1。

集中维护终端与本地维护终端通信机制基本相同,可以实现的维护、操作功能与本地终端完全相同。不同的只是通过网络将集中维护终端置于网络远端,并可以在1台远程维护终端上切换不同交换局实现多个局的维护。

图1交换集中维护系统组网

2交换集中维护系统终端安装

可选择中兴公司开发的交换集中维护系统软件,安装终端时要求各维护交换局版本必须一致。涉及终端命名、IP地址指配配置,以及客户端安装BDE、ODBC通信系统、应用测试。也可选择目前功能比较强大的NetView交换网综合网管系统软件安装。

(1)命名和IP地址规划可充分利用各局在DCN网络内的命名和IP地址段。

(2)数据库连接方式对于中兴V304B3040303版本及以前版本,是命名管道方式,可以打开129等服务器的共享目录且开放相应端口。对于V304B3(041013)、V311新版本,使用TCP方式。对于V304B5新版本,采用TCP方式或者命名管道。

(3)安装通信系统,运行\INSTALL\INSTALL.EXE。选择windows2000server+SqlServer2000。出现“初始化后台程序运行环境”界面。选择需要安装的子系统,开始后台通信系统安装,选择[集中维护终端],增加需要维护局的区号和局号。有名节点设置中的服务器节点设置根据实际情况修改。如果终端通过路由或在局域网内通过TCP方式连接到维护局129服务器上,则选择[通过网关与交换局连接]即可,[网关节点号]必须不能与本机节点号相同,范围在134~253之间。如果没有设置该网关的IP地址则单击下一步,此时无论是通过路由连接还是局域网访问对程序运行都没有影响。填写网关节点号,

(4)测试:①与129服务器、话务统计服务器通信正常。②与计费服务器通信正常。③前台版本升级,探针等维护功能正常。

(5)选择安装综合监控平台体系架构――NetView交换网综合网管系统。安装Pcanywhere软件,通过Pcanywhere连接管理各地市。实现24 h全天候监控交换机,每日监控内容可按照网元名、网元英文名、网元类型、IP地址、是否ping通、23端口通否、6688端口通否、8866端口通否、是否有告警、是否有话务逐项进行采集数据,可实现在时间、地域、网元等各种维度上的数据汇总,提供不同维度和粒度的预处理数据,呈现来自拓扑图中各个网元的告警和状态信息,提供告警根源定位,对故障实时、准确、有效的统一管理和集中控制;提供预防式的运维管理,为网络规划和调整提供强大的报表分析。注意,需要对各地市中兴交换机的Pcanywhere的登陆的用户名密码统一设置。如:①Pcanywhere登陆的用户名、密码均为:jhwg;②中兴计费前置机机器的用户名:administrator,密码设为:zxsys。

(6)在各地市的网管前置机上须配合完成软件加载、IP地址核配修改、网线铺设连接等工作。首先安装中兴网管前置机软件,放在交换机版本根目录下\netfor2000\Netfront和Tserver。先运行Netfront\netfront3.5.2\DISK1\install,在“交换局代码”

中需填入事先规划好的各局不同的3位数字;第二运行Tserver\ Chinese V3.6t\Tserver\144mb\DISK1\setup,全按缺省设置点击下一步,完成后重启。重启后需要运行C:\ZXJ10\Winnttcp.exe和接口执行程序(Program Files\ZTECOPRORATION\Interface Application\Interface.exe)。登陆后台网管,打开行式人机命令;运行新安装的网管前置机3个程序。注意:将1、3加到启动中,电脑重启后可自动运行。登记各端局的话务和告警。话务统计报告要TA0、TA2、TA4,统计项全选,周期为一个小时。其中涉及事先调查各局的目的码信息。还需安装PC anywhere软件的被控端。

(7)可以从省交换网管上连线至地市,建立市交换网管。亦称反牵终端。需要操作步骤是使用FTP命令下载程控交换网管系统安装软件,打开“我的电脑”;在地址栏内输入核配的IP地址,如“ftp:\\10.116.31.234”或“ftp:\\10.116.31.237”;输入用户名:jhwg,密码:jhwg;下载安装软件并安装。包括Netview软件包及Pc anywhere主控端软件,并添加管内各局所为主控端。

3常见问题维护处理技巧

(1)如果采用路由器组网开通,遇到路由器调测、配置故障可以先检查路由安装、配置。注意:超级权限口令绝对不能丢失,更不能随意设置。配置应双方本局域网内的机器能够ping到对方,否则逐步检查串口所连转换器拨码开关、同步串口状态、转换器指示灯状态,可更换路由察看是否为路由的故障。可自环确认是否为传输的问题,检查机器的网关,网内的计算机、网线或网口的状态。

(2)如果启动WINNTTCP程序,连接某局,无法执行该程序,网络检测确认正常,则说明通讯系统安装时参数配时错误,需要重新安装通讯系统;程序运行后按组合键Ctrl+Alt+F12检查各局向连接通讯状态,察看该局向129与2号模块连接状态是否为True。查看129等服务器的IP地址与实际是否相同。

(3)通讯正常后,双击后台维护系统,如果没有弹出登陆界面,则进入WINDOWS的任务管理器选择进程,找到ZXLOGIN.EXE、ZDE.EXE与WINNTTCP.EXE 3个进程强行关闭后再双击即可。

(4)如果不能通过机器名称访问到129,须分析是否正确开放集中维护终端所使用的端口,通过路由器等组网,路由器需要开放TCP:5000、1433、1723、500、1701、135-139,UDP:135-138端口。

(5)如果通信观察出错,须分析集中维护终端将各局的IP地址设置是否出现重复,导致TCP建链出问题。

(6)如果集中维护终端显示切换后观察部分模块通信中断问题,须分析是否在切换时没有将前一个监控局的所有程序退出。

(7)如果中兴网管系统出现告警监控不上报,多次处理均无效,须考虑重新安装中兴网管,版本目录下进行网管前置机安装、通用接口程序安装,然后中兴网管系统告警上报需要在以下目录中配置一项参数:网管系统安装盘(默认安装在C盘):\datain\datain.ini文件中需要配置POWERENABLE=ON才可以上传告警信息,然后重新启动网管前置机即可。

Exchange Network Design, Terminal Maintenance

on Installation and Maintenance Skills

Shen Mei

篇3

关键词:教育信息化;运维服务;信息系统;服务管理

中图分类号:G203 文献标志码:B 文章编号:1673-8454(2014)22-0031-05

一、 人大附中信息化的现状与挑战

1.现状分析

人大附中教育信息化建设一直走在全国前列,始终致力于教育信息化的超前探索。2012年6月,人大附中成为教育部教育信息化试点校之一。教育部、北京市和海淀区的领导对人大附中的信息化建设给予了高度评价。

成熟的IT组织中,项目后期的系统运维及服务管理的投入一般占总项目投入的70%,远高于系统建设成本,现在学校教育信息化建设也从早期的硬件建设为主演进为管理能力提升、服务能力提升阶段。人大附中信息中心以为教职员工提供最优质的IT服务,探索最精益化的IT管理水平为工作重心,从管理能力和管理手段上不断创新,不断发展。人大附中于2004年开始尝试采用运维服务外包模式为教职员工提供技术支持服务,不断引入先进的IT服务管理技术和工具提升信息系统管理水平,为学校的教育信息化发展提供了坚实的保障。

2.存在的问题和挑战

人大附中数据中心现有教育教学系统30余个,服务器、网络设备数量已经接近400台,内部数据累计100T、IT支持服务日均30个服务事件。面对越来越多的应用系统、网络设备、主机、数据库、安全设备,运行维护的工作内容和复杂度随之大幅度增加,对信息系统运维保障的质量要求也越来越高。原有运行维护手段的局限性就愈见突出,具体表现为如下几点。

(1)缺少业务系统监控手段,服务响应被动

学校一直未部署系统管理软件,当系统发生故障,工程师需要到达现场连接设备查看运行情况。缺乏对关键设备的监控手段,缺乏集中的主动式故障预警能力。不能全面分析系统运行的性能状况和提前发现系统的潜在隐患。往往是业务中断了很久之后管理员才被通知故障发生,此时已经产生了严重影响。

(2)信息系统的安全性挑战日益增加

IT系统的安全平稳运行不仅关系到学校,而且联系着社会上的多个行业、部门及个人,为此学校网络的运行质量和效率、IT资源的安全性、稳定性显得更加重要和突出。而与之相对应的是IT运维管理工作多年来一直处于手工处理维护的状况,各种服务工作始终处于一种被动的状态之中。

(3)信息技术服务没有统一的服务平台

随着近年来信息化的投入不断增加,越来越多的业务系统上线,信息中心可以为教职员工提供的服务越来越丰富,但是新教师没有一个界面能够全面了解信息服务,用户需要拨打多个电话才能找到一个人,办好一件事,严重影响工作效率,降低了用户的服务体验和满意度。

(4)日常运维工作占用了大量的人力资源

学校现有约30个业务系统,100台服务器,完成对其运行情况和系统日志检查需要10个小时,任务执行起来难度较大。由于缺乏系统化运维手段,需要较多的运维工时才能完成对关键信息系统的运行监控和维护操作,运维人员的数量会随着信息系统的增加而不断增加。

(5)无法有效管理外包服务商

人大附中于2004年开始采用运维服务外包模式为教职员工提供技术支持服务,外包服务团队承担了绝大部分的日常维护和支持工作,现阶段IT服务中心已经入驻多家公司的服务团队,在多年的运维服务外包合作中,信息中心已经摸索出一套针对外包服务商的管理和考核办法,但是依然缺乏工具支撑,如何有效衡量其工作量,准确评价供应商服务效果,及时掌握供应商的服务质量达成情况,避免由于供应商的服务质量而导致运行风险是信息中心服务管理中面临的一项挑战。需要对用户、信息中心教师和服务商工程师的服务过程进行全面且科学的管理。

二、 人大附中信息服务系统管理模式及特点

随着人大附中信息系统的不断丰富,管理复杂度要求不断提高,促使运维服务工作也要从传统技术管理向服务管理转化,结合ITIL和ITSS等国内外先进的运维服务理念,建立了统一的运维服务管理体系。

根据人大附中的业务规模以及人员结构特点,建立包括事件管理、问题管理、配置管理、变更管理在内的运维服务管理流程,通过设置SLA服务级别和标准化服务报告管理,实现服务管理的两个闭环,不断更新和持续改进。通过采用先进的运维服务工具软件实现运维服务的电子化,标准化和体系化。服务管理体系设计如图1所示。

1.统一服务中心的概念

人大附中为全体教职员工提供的信息服务包含信息、电教、图书信息服务,由三个子部门和一个专职的IT服务中心进行交付,其中人大附中信息中心是承担学校教育信息化建设和计算机教学职能的部门,是教学与服务相结合的部门。我们的信息服务组织架构如图2所示。

人大附中IT服务中心是面向教职员工的接口,由外部服务商派驻工程师提供技术支持服务,也就是说用户首先接触的是IT服务中心,IT服务中心判别无法处理或者需要资源申请的事情,升级至信息中心或者电教中心。

人大附中电教中心主要承担了各级各类活动现场拍摄、数字化音视频资料采编和管理、现代化教学环境的技术支持服务、学校宣传资料设计制作、大型综合会议与重大活动技术支持与保障工作。

图书馆为读者提供书刊借阅、数字资源查询、图书馆知识培训、阅读指导、教学参考资料等服务。统一服务中心的概念如图3所示。

2.建设集中、统一的服务中心

人大附中IT服务中心通过呼叫中心系统实现类似10086的统一服务热线,通过热线接入自动弹出呼入人员信息,在服务管理系统内进行记录、处理和关闭。通过统一服务中心接入服务申请,科学地分派和升级,极大缩短故障处理时间,提升IT服务台预处理能力和减少现场服务次数。利用搭建起来的呼叫平台进行高效的数据统计、分析和智能预警。

用户也可以通过自助服务平台提交服务请求,当请求被受理和关闭时将自动发送相关活动信息至用户校内邮箱,简化了用户服务请求过程,提高了沟通效率,提升了用户服务体验。通过服务管理系统将故障信息采集和统一处理。即将网络管理、系统管理、机房环境管理等功能整合在一起,实现统一的监控数据采集、一体化的报警数据处理、统一的故障流程处理。

3.服务外包商的质量管理

人大附中于2004年开始采用运维服务外包模式,经过多方的合作交流,人大附中信息中心总结出一套供应商支持的合作模式。

信息中心统一供应商的服务管理活动,建立以服务级别达成率为主要依据的评价和考核策略,结合乙方项目考核指标,将供应商的服务过程记录在服务管理平台上,促使多个供应商的服务视角一致。要求供应商按照合同约定定期提交统一格式的运维服务报告。

信息中心定期发起对部门内部员工和外部供应商工程师的服务意识与服务能力培训,在信息中心的倡导下,IT服务中心的绝大部分服务工程师已经通过了ITIL(服务管理方法论)的培训和认证,这也是服务流程可以被很好执行的重要原因。

对乙方的服务质量进行统计和监督,同时信息部门也需要知道自己的信息资产的容量和可用性信息,传统方法是在事件记录表中增加一列用以记录你关注的事件类别的故障次数、无故障时间、故障数量、平均修复时间,单位时间内的可用性是多少,这一列信息就是我们的技术服务目录,作为供应商付款依据,也同时是信息中心所管理的信息资产的可用性监控、资金投入分析决策的数据支撑。

4.服务可视化管理

对于全体教职员工来说,谈到信息化的价值一定是以给用户提高了什么、增加了什么、减少了什么为依据的。这时需要有一个目录来列出信息中心可以为用户提供的服务,这些服务是否收费,获取服务的流程,在申请服务后多久可以获得服务,服务的可用性指标怎么承诺的,服务的支持时间是怎样安排的,为用户总结出这样的一份表单就是IT服务目录。通过服务目录的梳理驱动IT组织内部变革,梳理内部服务的流程,梳理信息部门与供应商直接的关系;梳理出清晰的业务服务目录,是未来服务计费等精细化管理的前提条件。通过服务台、自助服务网站有效记录服务目录内服务项的使用频率,使用习惯,不断优化服务目录内容和展现方式。

人大附中的信息服务目录覆盖信息、电教和图书馆等部门共计57项服务,教职员工可以通过目录了解到自己可以享受到那些资源和服务,尤其对于新入职的教职员工价值尤为突出。人大附中IT运维管理页面如图4所示。

5.信息设备监控管理

通过部署全面的监控管理系统可以实时了解信息资产的使用情况,监控系统覆盖机房温度和湿度等环境信息,管理服务器、网络设备、安全设备、存储设备和业务服务。当监控对象发生故障或者超出设定阈值时将根据策略通过邮件、短信等通知到指定联系人。关键服务中断将直接生成事件记录自动导入到服务管理平台,由服务台工程师按照流程进行处理或上报。服务管控示意如图5所示。

通过监控管理系统规范了运行管理,有序开展系统维护窗口。将管理数据电子化,管理过程规范化。通过监控系统生成性能分析报表、资源统计报表;为运维服务提供分析报表,如统计业务系统的平均无故障运行时间,运行维护的事件、发生故障的原因,技术人员根据报表及时将经常发生的事件上升为问题。通过运维服务管理体系的不断完善和固化。

6.服务管理平台

随着IT系统的发展及内部用户数量的增加,人大附中信息中心通过部署服务管理平台实现了服务台、事件管理、问题管理、知识库管理等运维流程工具并固化流程,使运维工作能够实现标准化、流程化、自动化。量化运行质量和服务水平,提高IT系统的运行效率。

使用规范化的流程管理办法,使以往繁杂无序的运维服务管理工作变得标准有序,实现IT运维服务管理工作从被动管理向主动服务的转化,为信息中心管理人员和IT服务支持人员提供一个灵活、易于量化的管理平台。服务管理平台结构如图6所示。

通过服务管理平台与呼叫中心系统和信息监控管理系统接口,实现了从用户自服务申请、电话呼入申请、系统监控事件等多种方式发起了服务请求,对服务范围内事件进行全生命周期的跟踪,监控和报告管理。

7.服务支持过程管理

人大附中信息系统管理参照ITIL(信息服务管理方法论)管理思想,结合实际情况进行信息系统服务管理流程的设计和执行。服务支持过程包括事件的记录、支持、升级、关闭、变更和知识管理等活动。事件管理流程概览如图7所示。

(1)事件记录和初始支持

事件记录和初始支持是事件管理流程的起点。所有教职员用报告或系统监控产生的IT事件都必须从这个步骤开始。该步骤的目的是快速、准确地探测和捕捉所有在IT生产环境中发生的事件,并在其他管理流程中帮助确定问题和解决问题。同时及时将信息通知到相关的部门。在本活动中,将收集创建一个事件单所需要的信息。重点是准确、完整地记录必要的信息。该步骤的一项重要任务是对每个事件进行正确的分类,随即在现存的解决方案中查询与该事件相匹配的方案。

(2)事件调查和诊断

这个步骤阶段的目标是进行深入的调查,以解决事件。各个技术水平的运维工程师将会参与寻找一个解决方案或变通方案。如果还是不能解决事件,可能需要问题管理流程也参与进来进行更加深入的分析研究。

(3)事件解决与升级

这个步骤尝试使用解决方案和变通方法来解决事件。某些情况下,需要升级的二线或者其他部门协调处理。

部分需要投入资源或者设计基础架构变化的操作需要引入变更审批活动,对过程的风险和业务窗口进行批准和评估。对于某些事件,即使得到了解决,仍然需要创建问题单以进一步寻找其根源。

(4)事件关闭

这个步骤确保客户对事件的处理情况感到满意,建议用户在系统内直接填写满意度反馈信息,默认7个工作日满意度自动生效为“满意”。同时需要确认事件单的信息是正确、完整的,以便于以后生成报表。另外,处理过程中的经验认为是有分享价值的需要升级到知识管理流程,以形成可重用的知识。

三、实施中容易遇到的问题与对策

1.无法监控到所需对象,未能实现预警功能

服务管理项目立项初,会担心监控效果不理想,经实际考察市场已经有很多可以提供IT运维服务管理咨询及其工具的公司,网络监控管理系统经过十几年的发展已经趋于成熟,解决方案提供商数量丰富,有较大选择空间,在学校实施可以先对其监控功能进行测试,满足所需监控和告警功能点后再进行采购。

2.服务管理系统使用不起来

很多组织针对IT服务管理立项后,项目实施效果不理想,缺少事件记录,或者记录得不详细,无分析价值。针对这种情况在信息中心和IT服务中心组织了多次服务管理及工具的培训,并且要求乙方供应商对员工进行管理考核,通过乙方个人绩效指标与现有ITSM系统指标结合的方式共同推进系统的使用。

要求用户在申请资源类服务时必须进入系统填报信息,不断总结常见问题的解决方法更新到知识库中,系统在受理服务请求和关闭服务请求都会给申请用户发送邮件通知,在用户的使用中慢慢体会到系统的便利性,系统的用户参与度将不断提高。

3.服务台推广不起来,用户习惯找熟人

服务台的建立改变了用户申报服务需求的方式,用户在服务台刚建立之初由于缺乏直接感知,会对服务台的功能和效果提出质疑甚至是抵制,对于此类情况:

首先,加强宣传和引导,使用户了解自助服务台的职能和功能,逐渐提升用户感知。通过知识库的建立,不断完善各种应用系统配置手册和解决办法,系统支持个人服务过程查询,如资源申请的审批情况和进展情况,提高系统的利用率。

其次,采用循序渐进的方式,加强用户服务体验,逐步建立用户与服务台之间的信任关系。当服务台方便、快捷、有效的价值逐渐展现时,有问题找服务台的意识行为将形成用户的一种习惯。

最后,在通过管理规定要求所有用户向自助服务台申报服务需求,将收到较好的效果。通过信息系统各种资源,可以在门户中进行虚拟机申请,账户申请,电教资源申请等活动,不断提高系统的利用率。

四、信息服务系统的管理对人大附中信息化发展的价值

通过信息服务系统管理能力的提升,提高了服务工程师的服务意识,提高了IT部门主动服务的能力,从技术手段和管理手段上保证信息系统性能指标的可视性,真正实现统一管理、集中监控,全面提升信息系统管理水平和用户的服务体验。

1.从技术上保证IT系统稳定运行

信息中心可以全面、深入地对数据中心机房IT基础支撑系统(如网络、网络设备、服务器、数据库系统、中间件系统、安全设备等)和业务系统进行全面的了解,实现信息系统综合管理的目标,根据采集的各类数据,集中、形象、快速地展现网络、系统、应用以及业务的状态及变化,并快速地发现、定位网络系统的各种问题、变化和隐患,方便有效地对其进行分析研究,快速地隔离、解决这些问题。从而提高业务系统的可靠性,改善系统性能,提高处理效率。

通过一系列高效深入的监控手段不但能保证各项业务系统的稳定运行,还保证了数据的安全。通过对网络性能进行监控,建立性能处理的基线,定期提供性能报表和趋势表,可以根据趋势分析,提出性能优化的建议,并通过历史性能指标对网络状况和设备运行状况进行分析,及时发现和解决潜在问题,规避风险,优化网络,最终使网络处于良好的运行状态,保障整体网络及应用系统的稳定运行。

2.整合技术和管理流程、提高业务系统的稳定性

改变以往系统管理员手工操作复杂(如查找故障问题、数据统计等),顾此失彼、事倍功半的工作方式,通过建立和规范运行维护流程,建立系统故障处理的工作流,减少出错,不断跟踪流程和充实维护知识经验,提高运行维护的效率。

从被动响应式工作方式转变成主动服务,提高信息中心的工作质量和服务能力,保障包括各项系统在内的各项IT系统的安全、稳定和高效运行,全面提升信息系统的服务质量。

3.用户服务获取更简单快捷

建设统一服务台和热线接收服务申请,避免找不到运维人员的情况发生;同时由服务台负责对用户各种服务需求处理进度进行跟踪和督促,用户通过服务管理平台查询处理进度,减少了沟通成本,提升了服务处理的效率和满意度。

4.信息化手段与教育教学活动相融合,提升核心竞争力

IT服务管理强调IT与业务需求的有效融合,IT服务管理需要针对学校业务和用户真实的可用性需求,对业务系统支持能力进行合理的安排和设计;通过事件管理、问题管理等流程的稳定、规范运行全面支持IT基础架构和学校业务的稳定持续运行,保证IT资源的有效利用和业务系统运行的高可用性和高安全性。

为了保证IT系统稳定、可靠、高效、安全地运行,在充分利用已有资源并持续优化资源配置,全面支撑学校发展规划和需要,最终实现IT和业务目标的统一。

5.信息系统管理水平引领行业发展,树立行业典范