主机监控系统在中型银行的实践

时间:2022-08-18 09:31:14

主机监控系统在中型银行的实践

摘要:本文首选介绍了IBM大型主机和IBMTivoli系列产品,然后以南方某中型银行为例,通过对Tivoli相关产品进行整合利用,探索并建设了一套包含告警收集与丰富、事件生成与处理、性能与可用性基线管理、大屏展示等功能的主机监控系统。利用主机监控系统,南方某中型银行完善了主机资源性能监控,实现了IT运维管理与业务发展的融合,提高了数据中心运维自动化管理水平。

关键词:银行;大型机;Tivoli;监控

一、相关技术概述

(一)IBM大型主机

1964年,IBM研制出第一代商用大型计算机服务器,经过50多年的不断发展,其稳定性和安全性在所有计算机系统中首屈一指。大型主机擅长处理海量的并发任务,稳定性超过其他类型的服务器,I/O能力强,因此特别适合运行银行的核心系统。从20世纪80年代开始,中国的国有银行开始使用IBM大型主机。目前,国有五大行(工商、农行、中行、建行、交行)和部分银行类金融机构(江苏农信、四川农信)的核心系统运行在大型主机平台上。Z/OS,CICS,DB2分别是大型主机上专用的操作系统、交易中间件和数据库软件。

(二)IBMTivoli产品

Tivoli是IBM为大中型企业专门设计的一套完善的产品家族,拥有完善的产品线,可用于管理网络和计算机的各种产品,为各种IT系统和平台提供管理功能。与监控相关的Tivoli系列软件包括以下几种。1.Omegamon。Omegamon对大型机的Z/OS操作系统、CICS中间件、DB2数据库等子系统进行性能监测和报表分析,可实时查看交易的运行情况。2.Monitoring。Monitoring(简称ITM)通过程序自动监视重要系统资源,检测运行故障和潜在的问题,同时自动触发对事件的操作。3.OMNIbus。OMNIbus功能是将各子系统和监控管理平台收集到信息进行汇总、判断、关联、压缩、处理等操作,再将其发送给监控人员和事件处理人员。4.WebTop。WebTop是Tivoli用于给用户提供Web视图的软件模块,可以根据用户需求进行定制,通过一张监控视图就可以实时了解所有相关资源当前的状态和变化,并且可以直接查看事件的具体信息和性能等详细指标。5.Impact。Impact是用来进行事件丰富的工具模块,可将告警事件与外部数据库中的信息进行比对,将事件相关的外部信息填充至告警信息中,从而使维护人员准确把握某一事件的真正原因及可能造成的后果。

二、需求分析

由于银行的核心系统承载了所有重要业务的记账功能,因此实现对大型主机运行状态的实时监控至关重要。以南方某中型银行为例。该银行核心系统运行在IBM大型主机上,希望通过一个主机监控系统对核心系统所有指标进行全方位实时监控,并帮助技术人员多层次、多角度地了解主机系统的运行状况、趋势走向。经需求分析,系统主要操作人员涉及监控平台管理员、主机系统及数据库维护人员、监控平台操作员、ECC操作员,最终确定的系统总体用例如图1所示。图1 系统总体用例集中监控系统主要包括系统管理、事件管理、性能管理、报表管理、可用性管理、统一门户等用例,每个用例都有不同的功能。下文将以事件管理为例进行详细介绍。事件管理主要实现监控系统管理员、ECC操作员、监控平台操作员对告警事件的配置、处置、转事件单等功能。具体需要实现的功能有以下几种:重复告警过滤功能,通过设定滤除某些不重要的事件,避免事件风暴的产生,减轻技术人员的处理工作量;告警关联功能,通过设定特定相关事件的关联性来帮助技术人员快速定位并解决问题;告警自动恢复功能,通过对可自动处理的异常告警制定自动化恢复策略,以缩短事件处理时间,规避人为失误风险;告警分类功能,根据事件的影响程度、类型、来源对事件进行分类;告警丰富功能,将事件与其中文解释建立关联,以及将事件与对应的参考应急处理资料建立关联,为技术人员提供参考,提高应急处理的效率;告警监控屏蔽功能,提供灵活的配置界面,实现在特殊条件(如正常停机)下的事件监控动态屏蔽;告警严重等级自动升级功能,实现事件响应超长条件下的严重等级自动升级及相应通知对象提升;事件通知功能,通过短信、电邮告警通知,使事件得到准确的响应和处理。监控系统管理员制定监控管理配置表,部门主管提出监控目标和具体指标的初步需求,监控管理员对需求进行整理,ECC操作员提出视图和工单转发需求,监控平台操作员提出处理需求,部门主管提供告警接收人的信息,监控系统管理员对所有需求进行汇总,由主管审批后,即可按照需求对事件进行处理。事件管理业务流程如图2所示。

三、设计与实现

(一)系统拓扑设计

主机监控系统主要集中部署在该银行内网,可以通过银行内部网络访问,也可以通过互联网访问。内网环境主要部署事件告警服务器、ITM监控服务器、可用性管理服务器、报表服务器、门户服务器、认证服务器以及数据库服务器。同时,事件告警服务器与短信服务平台、流程平台进行网络连通。所有服务器均采用负载均衡的高可用方式进行部署。系统拓扑如图3所示.

(二)总体架构设计

本系统主要包括管理资源层、管理工具层、管理分析层、统一展现层,系统架构如图4所示。1.主机管理资源层。即被监控对象层,包括主机Omegamon监控对象的操作系统Z/OS、数据库DB2、中间件CICS等。2.管理工具层。即对管理资源层进行监控所需要的所有工具软件,包括Omegamon主机实时监控工具、RMFIII主机性能监控工具、NetviewE/AS主机事件监控工具、REXX自开发主机健康检查工具。3.管理分析层。根据管理工具层所提供的监控数据,按照数据的来源以及属性分别送入不同的分析模块中进行处理。告警分析和集中处理模块完成对告警信息的收集、过滤、关联、压缩和丰富;可用性管理模块提取主机端运行状态数据,进行主机健康状态的处理和判断。4.统一展现层。负责统一门户的展示管理,将下层管理分析层准备好的展示数据进行统一展示管理。同时,为管理员提供专门的维护界面以对整个监控系统进行客户化和灵活的配置。

(三)功能模块实现

在功能模块的实现上,本文以告警分析与集中处理模块为例进行详细说明。告警分析与集中处理模块通过告警接收器接收来自各类资源管理工具产生的告警事件。告警接收器提供对不同事件源的接收接口,用于接收主机端各类管理工具产生的异常事件告警,之后针对不同类型来源的告警事件采用不同的预处理规则进行处理,之后进入综合处理。告警综合处理功能包括丰富告警信息、关联告警和分析告警根原因等,而完成这些功能将可能通过综合数据服务与交互平台来访问其他的各类数据源。这些行为包括根据配置库的信息进行告警丰富、根据配置库关联关系进行告警信息的关联、读取知识库信息获取告警的解决方案等,并且通过数据交互接口实现告警事件与业务服务管理平台的关联。告警分析与集中处理模块的详细功能架构如图5所示。

四、功能测试

主机监控系统是基于B/S结构实现的,所有服务器均部署在x86虚拟化环境中,客户端用户使用浏览器访问服务器。测试服务器的硬件配置为IntelXeonE5-2650v4CPU4核、内存32G、磁盘800G,操作系统为Suse12,应用部署的中间件为WebSphere8.0,数据库为DB2V10。在进行测试用例设计时,该银行共编写了32个测试用例,覆盖了所有的功能需求,并于2020年5月至6月顺利执行通过了全部的测试用例,测试结果见表1所列。以大屏展示功能测试用例为例,测试结果展示的效果如图6所示。

五、结束语

本文以南方某中型银行为例,在前期进行需求分析的基础上,对市场上现有的Tivoli产品进行整合利用,并设计出了一套功能丰富的主机监控系统。利用主机监控系统,该银行不仅可以对IBM大型主机的操作系统、中间件、数据库等基础软件的技术指标进行实时监控和异常告警,而且可以对运行其上的银行核心系统进行每秒交易量、总交易量合计、交易响应时间等业务指标的实时集中展示,大大提高了银行系统管理员的工作效率。

参考文献:

[1]杨光.大型机平台个人贷款业务系统的设计与实现[D].成都:电子科技大学,2013.

[2]曾光.基于IBM主机的银行系统解决方案[D].上海:同济大学,2008.

[3]袁春风,王帅.大学计算机专业教育应重视“系统观”培养[J].中国大学教学,2013(12):41-46.

[4]薛宝明,苑华伟.主机在中型银行的应用实例、挑战与解决方案[J].金融科技时代,2020(4):77-83.

[5]刘凯强,吕远阳.浅谈商业银行系统高可用技术架构设计与实现[J].信息技术与信息化,2017(9):57-59.

[6]黄强.IT集中监控系统告警关联分析模型研究[J].科技尚品,2017(5):1-4.

作者:苑华伟 薛宝明 单位:江苏省农村信用社联合社