基层央行业务网超融合平台探索

时间:2022-07-16 11:51:20

基层央行业务网超融合平台探索

摘要:业务网超融合平台是人民银行邵阳市中心支行解决信息系统“孤岛式的建设和应用模式”的重要举措,是信息系统虚拟化建设道路上一个非常重要的尝试。本文介绍了该平台的建设、完善过程和主要做法,并对实际运维情况进行小结。

关键词:金融科技;超融合平台;运维

一、引言

当前,人民银行信息化建设发展迅速,但基层央行在系统的上线及运维方面,一直以来都存在“孤岛式”的建设和应用弊端,存在建设周期长、资源利用率低等问题,数据的安全性及工作效率有待提高。中国人民银行邵阳市中心支行(以下简称“人行邵阳中支”)为了解决弊端,积极探索虚拟化建设,于2017年11月初立项建设业务网超融合平台,2018年1月18日正式上线。在实际运行过程中,该行不断总结、不断探索,先后进行了2次升级(一次平台架构升级、一次网络结构升级),逐步完善平台,最终圆满达成了建设目标。

二、探索背景

(一)平台拓扑简单,风险抵御能力不足。在平台建设初期,人行邵阳中支决定整个平台的建设分多步进行,首期升级原有闲置服务器的硬件配置,在此基础上搭建一个双节点超融合架构平台,今后再根据需要逐步升级平台。初期的拓扑如图1所示。初期平台上创建了服务器网段、安全设备网段、测试网段等3个虚网,迁移了公文流转、TIPS前置系统,邵阳金信港、邵阳电子设备管理系统,远程培训课程分发子系统主机、远程培训课程分发子系统主机和备机等6个在用应用系统,后期又创建了6个用于测试的云盘系统虚拟机。平台CPU、内存、存储资源充足,完全能满足所有虚拟机运行及数据实时备份的需求。但是在双节点架构运行时,一旦其中一个节点故障,在故障节点修复前平台的运行压力将急剧增加,可能影响某些部署在平台上的系统的流畅性。同时,还将暂时出现单点风险。(二)局域网拓扑过时,效率及安全性有待提升。一是从平台拓扑结构及局域网拓扑结构上来看,业务出口分别用千兆双绞线与两台核心交换机相连。实际上,由于两台核心交换机通过传统“MSTP+VRRP”架构进行组网连接,平台两条业务出口线路中有一条处于阻断状态,其网络利用率最多只能达到50%。局域网拓扑亟待优化,平台入网连接方式有待改进。中心网络的可靠性及转发能力亟待提高。二是从网络管理层面来看,平台上线后,业务网的业务系统、平台软件等全部部署在同一个虚网内(服务器虚网),无法做到对平台访问控制的最小权限配置,不便于对服务器进行分类管理及精细化访问控制,存在一定的风险隐患。(三)运维不够深入,平台功能有待深挖。平台上线后,人行邵阳中支组织力量平稳地将现行的业务系统逐一迁入平台,实现了业务系统的实时备份。管理员每天巡检平台实体机的工作状态,登录平台查看虚拟机的状态,并在业务系统维护前保存快照。监控和运维手段比较单一,未能完全发挥出超融合平台的智能化功能。

三、主要做法

(一)升级平台架构,提升平台健壮性。为了解决平台风险抵御能力不足的隐患,并扩充平台的存储空间,人行邵阳中支新购入了一台服务器,把平台升级到3节点架构。新的架构充分考虑冗余设计,提升了平台的容错能力,如极大地降低了平台在硬件和线路两个方面的单点隐患。硬件方面,由于服务器数量增加到3台,在一台实体机故障宕机的情况下,平台完全有能力支撑目前的所有业务正常运行,为故障机器的维修恢复提供了充足的时间。线路方面,平台的业务出口和存储通信均采用冗余连接。每台服务器分别分配2个业务端口连接至2台核心交换机,2个存储通信端口连接至2台存储通信交换机,其中任何一条线路或交换机故障均不会影响平台的正常运行。由于服务器端口资源有限,管理端口和VXLAN通信端口暂时不做冗余连接。平台升级后的拓扑如图2所示。(二)优化网络结构,拓展平台高效性。为了从网络层面上拓展平台的高效性,人行邵阳中支对业务网核心交换机进行了虚拟化升级。经过充分的市场调研及可行性验证,在现网设备上增加了两块堆叠板卡和两块万兆业务板卡,通过堆叠板卡组建CSS系统,实现了核心交换机虚拟化。接下来,人行邵阳中支将原有的平台实体机与核心交换机之间的所有连线进行了聚合,实现了业务出口的负载均衡。这样,在扩容网络效率的同时,保护了已有投入,同时简化了设备的配置和管理,提高了系统的可靠性。因此,网络利用率、切换速度等方面都有了大幅度提升。核心交换机虚拟化升级后平台的拓扑如图3所示(三)细化网络管理,提高平台安全性。根据人行邵阳中支局域网IP地址的应用现状及今后虚拟化建设的发展需求,该行将服务器生产区划分为应用服务器、平台服务器、存储服务器、特殊服务器等4个虚网。其中,原服务器网段变更为应用服务器网段。应用服务器子网段主要部署对外提供服务的应用系统(如当前在用的所有应用系统),平台服务器子网主要部署超融合平台服务器,存储服务器主要部署网络存储服务器(比如云盘系统、FTP服务器等),特殊服务器主要部署今后新上线的对访问控制较为严格的应用服务器。虚网调整完成后,将平台从应用服务器子网段迁移到了平台服务器子网,并对平台服务器子网设置了严格的访问控制,只允许本地网管人员及系统管理员的IP访问,极大地提高了平台的安全性。(四)挖掘平台功能,增强运维便捷性。平台上线后,业务网内除上级托管在机房的4台设备外,其他业务网应用服务器已基本迁移到平台上,且今后上线的新系统也将部署在平台上,平台实际上已经成为服务器生产区。因此,如何充分发挥平台的效用,提升运维便捷性,值得人行邵阳中支认真思考。1.虚拟机外部备份。上线初期,平台的虚拟机备份均位于平台本地,一旦平台出现崩溃式故障,就会存在丢失所有数据的风险。基于将虚拟机备份独立于平台之外的思路,人行邵阳中支咨询厂家,找到了平台虚拟机外部备份的方法。平台是通过创建备份池来存放备份数据的,而备份池的位置可以选择本地或Windows共享目录,还可以通过iSCSI服务扩展虚拟存储。其中,Windows共享目录和iSCSI服务扩展虚拟存储的方式可以将虚拟机备份到外部。两种方式对比而言,iSCSI服务扩展虚拟存储安全性更高,但需要提供支持iSCSI服务协议的外部设备。考虑到实际情况,在不增加投入的前提下,人行邵阳中支选择采用Windows共享的方式,将平台虚拟机备份到安装了Windowsserver2008系统的闲置服务器上。为了提高备份服务器的安全性,将备份服务器部署在平台服务器子网并设置了严格的访问策略,只允许平台服务器访问该备份服务器。外部备份配置完成后,平台每天23:00开始将虚拟机自动备份到备份服务器,提高了数据安全性。2.启用平台监控。登录平台后,在首页可以看到一些简单的平台运行数据,方便值班人员及时了解平台的运行情况。但该界面内容过于简单,值班人员如果需要了解各虚拟机的详细运行情况,需要进入不同的模块调阅,往往层级还比较深,操作比较复杂,反应时间比较长。有的甚至需要从系统管理员处获得授权才能进入应用系统,增加了值班人员巡检的难度。为了使日常巡检变得更加方便快捷,人行邵阳中支启用了平台的监控中心功能。监控中心界面布局大方,科技感强,更直观地展示当前各业务系统的运行状况、资源占用情况、告警情况等,更能一键进入虚拟机详情界面,全面、直观地展现虚拟机实时状况。监控中心的启用,大大地提高了值班人员的工作效率。3.平台故障通知。平台具备了强大的故障监控功能,当平台发生诸如网络异常(如某个端口掉线)、资源不足(如某个虚拟机内存不足)、操作失败(如备份失败)等故障时,均会产生告警记录。告警信息会及时在平台首页显示,使值班人员巡检时能及时发现。然而人行邵阳中支并不满足于登录系统发现告警,而更希望告警信息能实时通过其他方式通知运维人员。通过查询平台白皮书及咨询厂商发现,系统本身自带邮件通知功能。该功能配置完成并启用后,平台可以将告警信息实时发送到目的邮箱,在及时通告告警信息的同时扩大了告警信息的获知群体(由单一值班人员扩展到全科人员),提高了平台故障处理的时效性。(五)制订平台制度,强化运维规范性。在日常运维方面,人行邵阳中支坚决落实上级行“三道防线”的要求,积极推动平台在运行维护、风险控制、安全审计全方位落实到位。系统试运行后,其先后制定了《超融合平台运维管理制度》和《超融合平台应急预案》,从职责分工、运维流程、安全保密、应急资源、应急管理等多个方面提升平台的安全保障。

四、小结

人行邵阳中支业务网超融合平台已上线运行2年多,平台的各项指标性能良好,运行稳定。在这2年的运维中,人行邵阳中支认真观察、大胆探索,围绕平台的安全性、健壮性、便捷性、稳定性开展调研,从平台架构、平台运行环境、平台功能挖掘、平台制度建设等方面入手,进行大量的实验及调整工作,实现了构建一个安全、可靠、便捷、高效、节能的虚拟化平台的目标。

参考文献:

[1]张栋锴,郭东旭. 超融合架构在商业银行省级分行中的应用[J]. 金融科技时代,2019(7):32-36.

[2]张光华. 超融合系统架构在数据中心的应用研究[J]. 通讯世界,2017(9):21-

[3]谢艺平,赵丹锐. 浅析服务器虚拟化常见的安全隐患及其防范措施[J]. 现代信息科技,2018(11):153-154. 

作者:张勇 单位:中国人民银行邵阳市中心支行