IT运维服务危机管理研究

时间:2022-01-16 02:46:34

IT运维服务危机管理研究

1危机管理的特点

(1)复杂性随着知识产权事业的高速发展,专利信息化水平不断提高,服务器设备、存储、网络交换机、数据库、中间件等系统不断增加,IT运维规模越来越大,在一定程度上增加了运维的复杂性,另外还涉及不同厂商、不同品牌等,IT环境结构庞大、复杂,各业务系统调用接口众多,从而导致故障定位困难。(2)先兆性IT系统发生故障时,会有一定的先兆性,例如:设备硬件异响、内存、CPU使用率高、监控指标达到预警值等,需要运维人员根据经验、能力敏锐察觉设备故障先兆表现,及时发现问题,快速定位,把问题解决在萌芽状态。(3)突发性IT运维中,也会有一些突发性故障,例如机房停电、漏水、消防火警等,对于这类紧急情况的处理需要按照应急预案进行操作。需要运维人员沉着冷静,正确应对。突发性故障如果不能及时响应,正确应对,造成的危害将是灾难性的。这就要求必须提前制定相应的应急预案。

2危机主要表现

(1)服务台故障报修量经过统计近几年服务台故障报修数量(包括桌面客户端、业务系统、服务器、存储、电话、网络、动力环境):2013年8万件,2014年9万件,2015年突破9万,2016年将近10万。如图1所示看出随着设备使用年限的增长,已进入故障高发期。(2)机房动力环境机房动力环境包括空调、UPS、消防、门禁、新风机等,其中空调故障占87.5%,UPS故障占2.5%,保障占10%。机房动力环境故障主要集中在空调故障,空调故障有可能导致机房高温,造成服务器设备宕机,进而影响业务系统,空调故障危害性大,影响面广,是机房动力环境需要重点关注的对象。(3)IT业务系统IT业务系统包括服务器、网络、小机、安全设备、主机、数据库、中间件、存储等。根据IT工作的特点,可以将IT业务系统故障分为两类:硬件和软件。一种是服务器、网络交换机等硬件设备故障,另一种是数据库、中间件等软件故障。IT业务系统故障主要集中在硬件故障,经过统计数据发现,硬件故障占85%,软件故障占15%。其中硬件故障又细分为电源、硬盘、内存、其他几类,分别占45%,35%,3%,17%。在硬件故障中,电源和硬盘为主要故障占80%。

3现有危机管理举措

(1)应急预案根据各自业务特点制定了相应的应急预案,在危机发生时运维人员能够做到有预案可依,正确应对,把危机带来的危害降到最低。例如机房动环部分有停电应急预案、漏水应急预案、消防应急预案,IT系统部分有E系统应急预案、S系统应急预案、存储应急预案、网络应急预案等。另外,针对节假日期间,还制定了非工作时间重大事件处理流程,以方便值班人员在故障发生时,可以遵循相应的规则操作,解决问题。(2)建立联动机制为了更好地应对IT运维服务危机,建立了联动机制,危机发生时,适时启动更好的解决问题。有些故障比较复杂,可能涉及多方面业务,例如网络、存储、应用等,需要协作共同定位排查问题,解决故障。针对这种情况,建立了总值班人制度,由总值班人进行统一沟通、协调、汇报。(3)危机恢复后及时总结当IT运维故障处理完毕后,及时对问题进行分析总结,找到事发原因,形成分析报告,为今后避免此类情况再发生打下基础。

4危机管理对策改进

引用4R危机管理模型构建一个完整的危机管理架构进行支撑,构建信息中心IT运维服务危机管理体系,包括危机缩减、危机预备、危机反应、危机恢复4个方面。(1)危机缩减在4R模型中,危机缩减是整个危机管理过程的核心,对于组织来说,如果能够将危机风险解决在萌芽状态,有效阻止危机潜在的诱因继续发展扩大,就能够在危机全面形成前将其控制,把危机带来的危害降到最低。危机缩减主要是未雨绸缪,进行预防,把相关工作布置在危机发生之前,危机缩减在危机管理中是关键的一环,该阶段也是解决危机最有效果的。IT运维服务危机缩减管理主要包括进行风险评估、加强风险缩减。在信息中心日常IT运维中,应采取一系列措施,降低风险发生的机率,根据风险评估表,制定有效的应对方法,确保该风险能够降低到组织可以接受的水平。(2)危机预备危机预备是危机管理过程的关键,针对各种危机情况,提前做好预防,在危机来临时,可以进行主动的,有准备的应对,更好地消除危机。所以,在信息中心IT运维服务危机管理时,应重视预防,坚持预防为主,防治结合的原则。IT运维服务危机可以提前进行预防,不管人为因素或突发事件引起的危机,都可以提前制定应急预防,并进行定期演练,这样在一定程度上对危机进行防范,最大程度控制危机,减轻危机对组织带来的不利影响。IT运维服务危机预备管理包括4个方面:组建危机管理团队、完善危机预警系统、强化危机管理预案、定期开展容灾演练。(3)危机反应IT运维服务危机反应阶段是指当危机发生后,危机管理团队马上进行评估,确定危机的级别及影响范围、程度,根据相关应急预案进行处置,该阶段是解决危机的重要环节,在IT运维服务危机反应阶段应做到准确、快速、及时、有效,把危机带给组织的冲击降到最低,减轻损失。IT运维服务危机反应管理包括快速识别确认危机、统一权威信息、危机处理与消除危机。在反应管理中,运维人员应急处置能力至关重要,提高运维人员应急处置能力可以从两方面入手。第一,在信息中心开展培训活动中,加强对业务技能培训的支持力度,通过培训提高运维人员综合业务素质水平。第二,加强容灾演练,通过实战积累经验,提高运维人员的应急处置能力。(4)危机恢复IT运维服务危机结束后,需要对危机管理过程进行回顾、总结,发现问题,找出不足,对原有的应急预案进行完善、优化,为组织进一步提高打下坚实的基础。IT运维服务危机的恢复管理包括危机恢复、化危机为机遇两部分。信息中心IT运维服务危机恢复主要从以下几个方面进行考虑,1)对更换下来的故障备件进行妥善处置,例如硬盘进行格式化处理,保证数据不外泄。2)加强与客户的沟通,争取其理解与支持。3)对危机处置效果进行评估,做好相关文档记录,对发现的问题不回避,不隐瞒。信息中心危机管理团队通过分析总结后,审视IT运维服务危机管理的效果,找出问题并制定有效的措施进行改进。在危机缩减环节,对可能存在的风险进行识别,加强风险管控。在危机预备环节,对危机管理团队的职责进一步界定,优化应急预案,对运维人员加强培训和演练。在危机反应环节,通过总结,完善针对突发事件的响应流程、策略,提高危机管理团队识别、处理危机的能力。另外,利用wiki开发一个危机知识库,对危机处理过程、方法进行总结后按版块进行分类加入知识库,进行经验积累,为日后危机处理提供依据。

参考文献

[1]魏华.公共管理视角下的中国危机管理研究-现状,趋势和未来方向[J].才智,2016,(8):253.

[2]许雁容.巨变时代的危机管理[J].机器人产业,2016,(2):96-100.

[3][美]罗伯特•希斯.危机管理[M].王成,宋炳辉,金瑛.北京:中信出版社,2001:13.

[4]科索路咨询.IT服务管理白皮书[M].科索路咨询,2013:13.

[5][美]罗伯特•希斯.危机管理[M].王成,宋炳辉,金瑛.北京:中信出版社,2001.

[6]赵平.公共危机管理的理论与实践研究[J].人民论坛,2013,(23):56-57.

[7]胡百精.危机传播管理[M].北京:中国传媒大学出版社,2005:8.

作者:于文奇 单位:中国专利信息中心