银行科技服务规范化实践

时间:2022-07-20 08:58:04

银行科技服务规范化实践

科技服务标准化是信息化建设中重要的基础环节,其发展从早期依靠科技人员的技术水平,到初步规范科技运维服务,再到利用现代化运维工具结合人、技术实现科技服务标准化。人民银行乌鲁木齐中心支行借鉴ITIL理论及最佳实践,尝试将IT运维监控平台和科技服务流程相结合,在规范化、合规性要求的基础上形成了一套覆盖全行信息化业务的定量化、可控的科技管理体系。

一、解决方案和建设目标

一是改变以往“事后补救”为“事前防范”,从被动服务转变为主动服务,采用信息化的手段管理,提高对业务的支持力度,把科技部门从“救火队”的角色中解脱出来,成为“保健医生”。二是对目前人民银行使用的现代化支付系统、账户管理等重要应用系统进行分析,找出这些重要系统的风险点,部署相应的软件对各重要应用系统的软硬件、网络运行情况进行实时监测,各监控软件可以7×24小时工作,为应用系统提供忠实、可靠的异常状态报警。三是提高科技服务的规范性和可靠性,工作目标和要求成为可检验的指标,大幅提升事前预防、事中记录及事后追溯的能力。我们发现利用目前的自动化网络管理系统(IT监控管理平台)与人民银行科技服务管理相适应的流程化工具(IT服务管理平台)相结合可以达到预期目标,同时借鉴ITIL理论及最佳实践,设计出我行IT运维综合管理平台的整体架构,如图1所示。

二、服务标准化的基础——IT监控管理平台

IT监控管理平台(以下简称监控平台)由多个子系统组成,包括机房环境、软硬件平台、网站类业务、安全集成等,是一个全局统一的监控平台,能够在一套监控平台上对以上系统进行有效监控。系统具有分类业务视图、网络拓扑实时监测,在线采集系统资源、机房环境数据采集及数据、报表分析、告警通知等功能。系统采用B/S与C/S相结合的架构,通过简单网络管理协议(SNMP)、程序(Agent)等多种方式实时采集生产环境中的各种网络设备、服务器、应用系统、中间件、UPS、空调等运行数据,并通过SNMPTrap和Syslog信息集成第三方告警信息。监控平台除了具有系统监控、阀值预警、多渠道报警等功能外,还具有一些自身特点。主要体现在以下几方面。

1.监控平台的B/S结构监控平台在使用SNMP、Agent等传统监控方式的基础上,整合了服务器、系统软件厂商的监控告警消息,机房环境监测的告警,以及存储、网络等资源的监控告警消息,形成多种消息通过统一告警平台进行预警的目的。由于每个监控子系统都是由不同厂商使用不同结构、不同语言开发的产品,其接口和数据调用都有自己的原则,需要将众多结构不一的监控系统和协议在统一的需求框架下整合起来。人民银行乌鲁木齐中心支行项目实施小组在经过大量技术论证后,以松耦合集成为原则,保持各系统底层架构不变,统一监控平台的界面风格,统一的操作方法集成各类事件消息。操作人员可在任何一台终端上通过浏览器对几百台设备的运行状态进行监控和处理。

2.多层次的系统架构监控平台从逻辑架构上划分为采集层、数据层、应用层和表现层。采集层主要负责采集被监控系统的各类原始信息,包含性能数据、链路数据、故障数据等。数据层主要完成对采集来的各类资源数据进行预处理及标准化处理。应用层对监控数据完成进一步加工,提供完善的管理功能,包括:性能管理、告警管理、资源管理、报表管理、拓扑管理、安全管理等模块。表现层是通过Web界面或Client界面将采集到的监控信息以可视化的形式展现出来,具有良好的人机交互性。

3.多种数据采集方式系统采用多种数据采集方式:一是支持SNMP轮询的数据采集,SNMP协议支持V1、V2和V3版本。二是支持在被检查设备上安装Agent程序的采集方式。Agent方式能够支持主流的Unix、Linux、Windows操作平台,并且支持再扩充功能,即一个系统只需要安装一个Agent,如被监控节点发生变更或增加,只需编写相应的脚本导入Agent即可。

4.多种报警和预警方式告警平台以事件接收服务器为核心,负责报警事件的接收、过滤、筛选、分析、标准化等工作。我们采用多种方式通知告警事件,包括短信通知、邮件通知、客户端页面通知、声光通知等。系统管理员无论在监控室内还是外出办公,均可及时收到并处理报警信息。同时,为避免中间节点故障产生连锁告警事件而产生告警风暴,监控平台还采用重复告警合并、告警压制、事件关联性分析等,有效控制告警风暴的产生,提高告警的有效性和准确性。

5.全面的统计分析报表功能监控平台提供各种常用报表模板,如:当前严重告警统计分析;按用户要求自定义的设备可用性分析报表;当前系统运行状态、趋势等多种报表。还能按用户指定要求订阅数据报表,发送到指定邮箱。这些报表的应用一方面可以及时掌控各种资源的运行情况,另一方面可以通过趋势分析,为资源整合、优化和设备管理提供依据。

三、服务标准化的初步尝试——流程化管理

将监控平台所发现的事件与告警,自动与服务流程管理系统相结合,由监控平台的事件告警处理中心将告警分类,将严重告警和主要告警自动生成工单,派发给相应的管理员进行处理,这样即能够及时解决故障,又能够将故障的处理过程全面记录。我们将全辖业务系统运行的各种事件按照ITIL的标准划分为事件、故障、变更、、科技工作管理等几类,分别对这几类事件规定了相应的工作流程,在每个流程中制订了相应的角色、分工,从而使各项工作标准化,对科技人员的工作绩效实现量化考核。技术支持人员的每项工作以及对系统的维护改动都具有可追溯性,全面反映信息资产的生命周期状态,为今后的审计和绩效考核提供服务。同时,将这些运维经验积累并建立“知识库”,在全辖范围内实现知识共享。每位业务、技术人员将遇到的问题和解决方法、经验等形成文字资料后可放到该平台上,全疆业务和运维人员在遇到类似问题时就可以得到实时帮助。

四、科技服务标准化初见成效

首先,该平台的使用大大降低了科技人员检查巡检各信息系统及基础设施所耗费的精力和时间,科技人员只需要登录到监控服务器就可以随时了解各信息系统及基础设施状况。例如,各地市中支巡检时间从以往的2小时减少为现在的15~20分钟,极大提高了工作效率,有效缓解了大量的维护任务与有限的人力资源之间的矛盾。其次,告警准确,预警及时,变被动防护为主要预防,有效降低系统故障率。平台除了一般故障告警外,还能够在统一的界面下对网络设备、各重要应用系统的主机、数据库、中间件设置告警阀值。如CPU和内存的使用率,文件系统和数据库日志空间的使用率,重新启动指定的应用程序进程等等。有效控制风险发生,使管理员能很快地定位系统故障,大大降低故障响应时间,同时尽早发现系统异常,在系统尚未发生故障时即对系统进行维护和干预。据统计,监控平台上线后,超过95%的系统异常均通过告警提示,由管理员及时介入干预而未形成故障。第三,通过提供的报表和图表,便于运维人员评估运行压力,提出解决方案,提高设备利用率,并通过趋势分析对系统资源优化,设备配备升级提供科学合理的依据。第四,促进了整个运维管理的制度化、标准化发展。从发现告警、通知机制、到达现场时间、故障诊断、处理时限、应急启动到设备健康检查、资源使用情况等,都做到有章可循、责任分明,并有相关处理记录,使运维管理体系更加规范化,实现科技服务标准化跨越。