为了保障组织内的“统一指挥、分类管理、分级处置、快速响应”的应急管理体系长期有效,建立应急管理体系的持续改进机制也是必不可少的。依照IT应急管理体系框架,应急管理体系持续改进涉及多方面的管理工作,包括信息系统应急策略动态更新、应急保障资源动态配置及调整、应急组织及应急预案更新维护、持续的应急预案演练和培训。为保证应急管理体系持续改进机制的有效,逐步把应急管理体系维护融入到IT日常运维工作中去。下图所示是应急管理体系持续改进的参考模型。
图表 IT应急管理体系持续改进模型示意图
应急管理体系的持续改进是一项长期的、复杂的管理工程,内容覆盖了支撑关键业务持续保障的全面的应急资源的维护、场景化的应急组织、职责和成员,预案的开发和维护,演练和培训的过程化管理,以及组织IT应急管理的策略维护和管理。应急管理体系持续改进的触发形式可以是主动式的、被动式的、和事件触发的,不管是那种形式触发的,都需要遵循PDCA的持续改进思想。
主动式的持续改进主要体现在通过定期的采取业务影响分析、信息技术风险识别和评估、应用关联关系分析等理解组织的过程,适时更新组织的应急管理策略;并依据应急管理策略的更新内容,调整应急保障资源的配置策略和执行相应的变更管理;与此同时修订和更新相应的应急组织和场景预案,保证应急预案的正确性和可用性;在此基础上进行针对性应急预案的演练工作,执行演练总结和评价。
被动式的持续改进主要体现在通过年度内部审计或外部审计发现组织的应急管理体系存在的问题和不足,或者组织的关键业务价值链和相关信息系统发生了调整,生产IT系统发生了变更、以及应急保障资源配置发生了变更等因素,需要对应急管理体系的相关方面进行调整、更新和管理。
事件触发式的持续改进,通常是在发生突发事件、并执行了应急处置和善后工作过程后,对事件的发生、事件的应急响应过程、应急处置过程进行总结和寻根问底;并在此基础上对相应的应急策略内容、应急保障资源配置、场景应急预案进行调整、更新和维护的过程。
一、预案维护管理机制
应急预案特指的用于组织进行事件响应及处置的相关文件,包括:突发事件应急响应及处置过程中组织架构和角色分工、突发事件应急响应控制流程、工作任务、行动、数据和资源等信息,用于指导应急组织在预定时间目标内保证关键业务持续。
应急预案进行定期修订和更新,以保证预案文档的有效性。当组织架构、业务功能、信息系统、工作流程、外包服务商等重要信息发生变化时,应急预案应立即进行修订;对应急预案定期评估和检查,发现问题后应立即进行更新;每次应急演练或系统验证/测试后发现应急预案中存在与实际情况不符的情况时,需要在演练或系统验证/测试结束后立即进行更新和预案修订。
应急预案文档应设置专人专岗负责进行维护,通常由应急管理办公室成员具体负责版本管理、文档分发工作。应对应急预案文档进行定期审查,对文档的有效性、文档版本、文档发放状态进行检查,确保预案有效可用。
二、事件善后总结机制
1.建立问题分析机制,整理优化需求
对于的确因技术原因造成的故障或者事件,信息技术部门应出具专门的技术分析报告。对信息技术部门出具的技术分析报告和业务应急处理中暴露的问题,应急技术小组成员应及时进行事后分析和研究,并据此查找业务流程、系统中的漏洞,在完善业务制度和处理流程的同时提出整改或系统优化的需求。
2.总结和完善应急处理方案
对系统故障或突发事件以及相应处理工作进行事后评估与总结,包括事件具体情况及处理经验,及时对应急方案进行完善和更新。
3.做好未解决事宜的后续处理
对应急处理的实施过程中未能适时解决的事宜,例如系统原因造成的单边账、客户投诉引起的纠纷、与主机系统账务出现不一致情况等,待故障或事件解除后,应急技术小组要进一步跟踪并妥善处理。
3.信息披露与通告
对于应报告监管机构和政府其他部门、应进行新闻发布的突发事件或灾难事件,各部门或工作组必须严格按照有关规定或要求对外披露或发布有关信息。