轨道交通AFC线灾备设计方案

时间:2022-07-08 09:07:30

轨道交通AFC线灾备设计方案

摘要:本文基于郑州市轨道交通自动售检票线网管理中心(ANCC)系统主副中心双活设计方案,从灾备中心建设的必要性入手,分析得出选择双活中心方案建设。其次对双活中心的容灾架构、存储双活、应用双活和主备倒切流程等分别做出分析,展现了双活中心的架构特点和相较于传统方案的应用优势,为后续城市线网管理中心的建设提供参考。

关键词:城市轨道交通;自动售检票系统;灾备

1引言

近年,全国各地城市轨道交通的快速建设,各大城市的城轨线网逐渐成型,对线网级自动化、智能化调度指挥和运维管理的需求日益加强[1]。郑州市轨道交通在建设多线路中心(MLC)和清分中心(ACC)扩容的背景下,从架构、可行性、建设成本、技术发展趋势等方面进行了充分的论证和分析,依托云平台、大数据的快速发展,最终确定实施ACC及MLC系统组合建设方案,即建设郑州市轨道交通线网管理中心ANCC系统。可以看出,ANCC成为了郑州市轨道交通全线网AFC系统协调及对外票务信息服务和管理的主要窗口,重要性可见一斑。ANCC系统瘫痪或者由于其它原因(火灾、恐怖袭击等)退出运行,将会导致全线网运营管理处于瘫痪状态,造成票务收益损失[2],因此建立一套安全、可靠的灾备系统,是非常必要的[3]。本文基于郑州市轨道交通ANCC系统的建设,分析了灾备中心建设的必要性、双活中心方案的设计选择,并对双活中心的建设方案进行介绍。

2建设背景

2.1必要性分析

灾备方案是ANCC建设工作重要内容,关系到业务可用性、业务连续性、数据安全性、系统合规性等多方面[4]。高可用设计包括平台架构高可用和业务系统高可用,保证整个业务平台可以稳定运行,当故障出现时快速定位并恢复故障[5];对于业务系统来说,在出现意外宕机时业务不会中断,对用户无感知。ANCC作为线网级生产平台,作为各线路的大脑,如果由于意外事故的出现,线网级业务瘫痪并停止运行,会给整个行业带来严重的后果[6]。所以应该建立拥有线网业务功能的后备中心系统,当主系统发生故障或意外不能正常工作时,及时、快速地接管主系统的基本工作,实现正常情况下异地灾备、紧急情况下应急处理等。

2.2双活中心的选择

灾备包含三个层次,即基础设施灾备、数据灾备和应用灾备[7]。基础设施灾备是对业务处理逻辑相关的设备备份,数据灾备是对数据备份以保证数据的完整性,应用灾备是对应用处理系统的冗余备份。双活中心方案从基础设施、数据、应用三个层面进行容灾,具有更高级的连续性和高可用性,能够针对服务器、硬盘、适配器卡、网络等物理设备实施保护,也能针对操作系统、数据库、应用、服务等软件的致命错误实施保护,对于发生在本地的错误,具备自动接管功能[8]。该方案技术实现复杂度最高,但能够充分利用两个中心的所有资源,业务高可用性和连续性最优。

3ANCC系统双活中心关键技术

3.1双活容灾架构

各线路数据汇聚节点就近接入,主副中心同时处理业务,资源得到有效利用;业务处理完成后,写入主中心数据库,主副中心数据库通过数据库同步软件进行同步;当主中心/副中心接入故障或业务处理故障时,系统通过预置的备用路由,自动完成线路接入的切换;当系统数据存储出现故障时,系统通过内部业务倒切,实现数据的有序入库存储;通过系统应用双活设计,实现系统的高稳定运营。生产中心发生灾难(生产中心停电、火灾等):可对受云服务器高可用性(CSHA)服务保护的生产云服务器自动或手工切换到灾备中心,快速启动容灾云服务器。计划内停机(计划性停电、日常运维等):容灾管理员可对受CSHA服务保护的生产云服务器进行一键式的计划性迁移,在灾备中心快速启动容灾云服务器,保证业务数据零丢失;在原生产中心完成计划性活动后,容灾管理员对受保护云服务器进行反向重保护,并在合适时间通过计划性迁移将业务切回到原生产中心。双活中心的总体架构如图1所示。

3.2存储双活方案

3.2.1方案描述云硬盘高可用服务(VHA)为云服务器中的云硬盘提供本地存储双活保护[9]。当单套存储设备发生故障时,数据零丢失,业务不中断。该方案是基于FusionSphere OpenStack云操作系统平台的IaaS层云服务器容灾方案。它通过云数据中心结合存储双活实现单中心内的云硬盘容灾。3.2.2方案架构云硬盘高可用服务与网络是解耦的,原则上使用FusionCloud的通用网络方案即可,仅要求在通用组网方案上预留存储网络端口,增加两套双活存储间的双活数据路径。在组件部署上,云硬盘高可用主要增加了存储仲裁软件和BCManager eReplication两大组件。二者均可部署在物理机中,也可以部署在虚拟机中。如图2所示。3.2.3实现原理租户登录VHA服务申请界面,为云主机申请本地存储双活容灾保护。系统过滤出该租户具备创建容灾保护条件但还尚未创建的云主机[10]。租户可从中选择单个或多个需要容灾保护的云主机,提交申请。后台自动调用容灾管理组件对应API,创建存储双活保护,实现的基本原理及主要步骤如下:(1)调用Cinder建卷API,在对应的容灾存储上创建双活占位卷(并设置为预留状态)及双活LUN;(2)调用DRextend容灾扩展组件,为双活LUN配置双活Pair;(3)调用DRextend容灾扩展组件,创建双活一致性组(将双活Pair加入双活一致性组,当灾难发生时,可实现存储一致性切换,实现存储一致性保护);(4)调用Nova的在线重连双活卷扩展接口,将创建的双活LUN挂载给云主机;(5)生成VHA保护服务实例。3.2.4方案优势(1)开放架构业界率先推出基于Openstack+KVM云架构的云硬盘高可用方案,在一套Openstack私有云架构上构建云服务器本地存储双活保护能力防止厂商锁定,为客户节约成本扩展Openstack标准并开放接口,只要第三方厂家支持该接口,就可以接入进行统一高可用配置和管理。(2)按需使用支持租户按需自助申请云硬盘高可用服务,服务开通便捷高效,业务发放周期由一周缩短到半小时内,系统根据租户要求自动化配置和开通云硬盘高可用服务。(3)可靠高效基于存储侧的双活技术,对主机性能无影响;数据实时同步。

3.3应用双活方案

3.3.1方案描述此方案特点是各线路就近接入主、副中心,主副中心同时处理业务,有效利用资源;针对主副中心不能同时上线的情况,由单中心改为双中心的实施过程较简单,可在线操作,不影响业务运行,实施风险较小。总体架构如图3所示。3.3.2实现原理云服务器高可用(CSHA)是为了当生产中心故障后,容灾云服务器能够挂载容灾端的卷,并在灾备中心快速启动,实现的基本原理如下:租户根据生产中心网络、计算的资源类型及高可用要求,在灾备中心配置相同或相似的网络、计算资源,并申请CSHA服务实例。服务申请成功后,根据生产端云服务器的云磁盘信息,自动在容灾端创建相同规格的云磁盘,并在存储层配置双活复制对、一致性组,实现数据的镜像保护。当生产中心发生站点级故障时,云平台仲裁服务显示站点故障,同时生产云服务器、存储层双活复制对故障。此时,可自动或管理员手工触发CSHA保护组切换,将灾备中心的云硬盘挂载至容灾云服务器并启动云服务器。容灾云服务器接入所在灾备中心的网络,取决于容灾云服务器创建时所接入的VPC网络。

3.4主备倒切流程

主备系统倒切应急处置流程分为五个阶段,即灾难发生、处置决策、前期准备、应急处置和处置结束。灾难发生阶段,当系统发生灾难影响生产中心正常业务时,应立即将灾难情况报告给应急处置小组组长、副组长。处置决策阶段,应急处置小组组长、副组长,收到灾难情况报告后,应立即组织小组成员开会,分析灾难具体情况、判断影响范围并确定对应措施启动相关预案,开展应急处置工作。前期准备阶段,根据应急处置小组组长决策,各分组组长按照预案内容,组织分组成员进行主备系统倒切前的相关技术准备。副组长负责与相关单位沟通,协调主备系统倒切前工作。应急处置阶段,准备工作完成后,应急处置小组组长指挥小组成员进行主备系统倒切工作。系统倒切完成后,各分组组长负责确认系统状态、业务情况,并向组进行报告。处置结束阶段,主备系统倒切完成后,确认系统状态、业务情况正常后,应急处置小组组长向上级单位、领导汇报应急处置工作情况。

4结论

轨道交通自动售检票系统线网管理中心的建设,提高了基础设施资源的利用率,实现了郑州轨道信息化基础设施资源的统一规划、统一建设、按需调配、即需即用、有效共享。采用双活中心的容灾方案,可更大程度保证业务的连续性,也可有效保障灾难发生后,业务恢复的时效性。随着技术的发展和建设需求,后续可继续探索灾备中心建设的可能性。

作者:徐淑鹏 陈俊亚 曹美阁 单位:郑州地铁集团有限公司