行业资讯
时刻关注行业情况,与时俱进。
美国银行应急预案建设经验分享报告
来源: | 作者:深圳壹师城科技有限公司 | 发布时间: 2015-05-18 | 1427 次浏览 | 分享到:
为深入了解美国银行应急响应及恢复预案建设的职责分工和工作流程等相关内容,并学习借鉴美国银行好的经验,推动我行应急响应及恢复预案建设与开发工作,风险管理部与美国银行合作开展了应急预案经验分享项目,形成了美国银行应急预案建设经验分享成果报告。

为深入了解美国银行应急响应及恢复预案建设的职责分工和工作流程等相关内容,并学习借鉴美国银行好的经验,推动我行应急响应及恢复预案建设与开发工作,风险管理部与美国银行合作开展了应急预案经验分享项目,形成了美国银行应急预案建设经验分享成果报告。


一、美国银行业务持续性管理组织架构


近年来,美国银行逐步加强业务持续性管理的力度,不断优化组织架构及其管理模式。

1、美国银行业务持续性管理部门及其职责分工

美国银行负责业务持续性管理工作的部门为公司恢复能力管理部(ER),设在公司信息管理部门之下,向首席技术官汇报工作。公司恢复能力管理部的各团队分别针对业务影响分析、策略、灾难恢复、应急响应、演练等业务持续性管理各分项工作制定相应的管理策略、模板和政策制度,并通过服务台(service desk)来收集各业务条线在业务持续性管理各项工作中的问题,为各业务部门的业务持续性管理工作提供相应的支持。

公司恢复能力管理部下设6个团队,即预案制定团队、综合性演练团队、工具和综合性团队、监管团队、响应管理团队、供应商恢复性团队。其中:预案制定团队负责业务影响分析模版、业务恢复策略模式、持续性预案模版的制定;综合性演练团队负责数据中心恢复、工作区域恢复等演练协调组织事宜;工具和综合性团队负责服务平台、技术支持等工具开发和维护;监管团队负责收集、评价各业务条线业务持续性管理工作情况;响应管理团队负责明确八大类重大风险事件 的应急响应组织架构、分级标准、分级处置原则、以及基本工作流程等内容;供应商恢复团队负责评估供应商业务持续性管理工作情况。

2、美国银行各业务条线的职责

美国银行各业务条线设有专门负责业务持续性管理的团队,承担各条线业务影响分析、业务恢复策略制定、应急及恢复预案制定及维护、预案演练、应急联系人管理等业务持续性管理的各项工作。


二、美国银行业务影响分析

业务影响分析能测量每个业务功能中断对于业务条线及全行运营的影响,是编制业务恢复策略和制定预案的基础。美国银行业务影响分析工作是由各业务条线具体负责,美国银行八大类重大风险事件包括交易对手风险、声誉风险、流动性风险、市场崩溃风险、以美国银行为对象的恐怖袭击、主要城市的瘫痪、25%-50% 员工不可用、基础设施故障。公司恢复能力管理部负责开发业务影响分析工具、指导全行业务影响分析工作。各业务条线每年都要做业务影响分析,每个条线可根据其业务开展情况选择在一年中的不同时间开展分析。除了年度业务影响分析外,如果业务条线开发出新产品和新服务渠道、工作量发生显著变化、法律或监管领域提出新要求、业务环境或业务排序发生变化等,应自行组织业务影响分析。

1、美国银行业务影响分析职责分工

美国银行公司恢复能力管理部的预案制定团队负责开发业务影响分析模板,包括业务影响分析参考标准、业务影响分析内容模板等,并给出公司统一的业务恢复时间目标(RTO)分级标准,从而为各业务条线业务影响分析提供统一标准。各业务条线的业务持续性管理团队根据业务影响分析模板,组织本条线的业务影响分析工作。业务条线可根据本业务条线的具体特点对业务影响分析的模板进行细化;按照统一的业务恢复时间目标(RTO)分类,得出各业务功能的重要性排序及其恢复时间目标;同时,进一步针对支持重要业务功能运营的工作场地、应用系统、供应商、业务操作步骤、操作人员等资源进行业务影响分析,确定每一重要业务功能详细的资源恢复策略,为业务恢复预案的开发做准备。

2、美国银行业务影响分析的主要流程

美国银行由各业务条线组建业务影响分析项目组来开展业务影响分析工作,各业务条线负责人审批业务影响分析报告。主要流程包括:组建业务影响分析项目组、开展业务影响分析、完成业务影响分析报告。具体工作为:

(1).组建业务影响分析项目组

各业务条线确定参与业务影响分析项目的团队成员,并组织项目组成员会议,对业务影响分析针对的恢复流程和任务进行培训,使各成员了解项目目标。同时制定业务影响分析的日程表,包括所有需要完成的任务、识别团队成员的分工、识别需要解决的问题、设定完成各项任务的日期、记录团队讨论决策、提供持续的情况报告。

业务影响分析项目的团队成员包括业务单元流程/功能问题专家、技术支持人员、供应商管理人员及提供服务的外部供应商、基础设施支持人员、公司恢复能力管理部门人员、业务管理人员、集团业务恢复协调员、应急响应团队人员等。

(2).开展业务影响分析

主要包括选择业务影响分析的范围、确定业务功能的恢复等级、评定风险等级、梳理支持业务功能的不同生产场地及相应的人员情况、梳理支持业务功能的系统、统计支持业务流程/功能的外部供应商等内容。

(3).完成业务影响分析报告

业务影响分析的结果包括恢复时间目标(RTO)、恢复时点目标(RPO)、关键技术支持及其分类、关键流程的优先级排序等内容,基于风险等级确定的恢复目标应作为整个业务单元以及支持业务运营的系统、第三方等恢复的主要依据。该报告需由业务条线负责人审核批准。

需要说明的是,各业务条线业务恢复时间目标的最终确定是在充分考虑技术实现能力、成本效益等因素的基础上综合平衡确定的。最终确定的业务恢复时间目标将作为策略的重要内容。对于相关系统仅支持本条线业务运行的,其业务恢复时间目标由该业务条线自行确定。对于相关系统支持全行性业务运行的,公司恢复能力管理部将负责根据各业务条线业务影响分析提出的业务恢复时间目标结果加以简单汇总,并提交给信息技术条线;当信息技术条线的技术能力无法实现业务条线的恢复时间需求时,公司恢复能力管理部将组织业务条线和信息技术条线的讨论会,与业务条线配合检查其分析结果的合理性,讨论能否调整业务恢复时间,或能否适当地提高相应的技术恢复能力。如果仍无法达成一致,则业务条线将承担提高技术恢复能力的成本或自行寻找外部供应商进行该业务的灾难恢复工作,如果仍存在争端则由高管层协调解决。

3、美国银行业务影响分析工具

美国银行制定了《美国银行业务条线业务影响分析流程》、《业务影响分析参考标准》和《业务影响分析模板》等分析工具,以规范业务影响分析主要内容和基本流程,统一各项分析指标的评估标准。为确保上述工具的适用性,美国银行每年根据最新变化情况,检查、优化调整业务影响分析标准和模板等工具。相关工具主要为:

1、《美国银行业务条线业务影响分析流程》该文件描述了业务影响分析的流程和各项内容,并对影响分析指标、影响评分、业务影响分析业务范围、业务影响分析系统范围、业务影响分析供应商范围、恢复指引要求等内容进行了简要说明。

2、《业务影响分析参考标准》该标准是对业务影响分析各项评估指标的说明性文件,列明了影响指标、指标定义、指标解释、每个指标等级标准、指标案例等内容。

3、《业务影响分析模板》该模板包括影响分析指标表、影响评分表、业务范围表、系统范围表、供应商范围表、恢复内容指引、业务条线审批表等一系列表格。


三、美国银行业务恢复策略制定

业务恢复策略是制定预案的重要依据,是根据业务影响分析结果,为应对银行业务中断事件、保障业务在预定时限内恢复到可接受的服务水平,事先制定的一系列恢复目标、工作要求和资源获取方式等的集合。美国银行根据业务恢复目标的要求、以及工作场所不可用的场景事先明确了七种业务恢复策略供各业务条线选择,指导业务条线进行场所、人员、系统、设施等的恢复工作,以及灾难恢复预案的制定。美国银行业务恢复策略种类和相关工作具体为:

1、美国银行业务恢复策略种类

美国银行按照备用办公场地的不同性质确定了以下几种可以选择的方式:

1.家庭办公策略。灾难发生时,员工通过远程登录的方式,在家办公恢复业务运营。

2.其他生产场所接管策略。当一个生产场所中断,由处理该业务的其他生产场所接管中断生产场所的业务运营。

3.外部服务供应商接管策略。当业务中断,业务切换到外部供应商的相应场所运营。

4.临时业务恢复场所策略。业务条线事先没有安排实际的业务恢复场所,而是事先识别业务中断时所需的场所、系统、人员、设备等资源,并事先进行部署。当突发事件发生时,临时租用恢复场所进行业务恢复。

5.业务条线专用恢复场所策略。个别重要的部门,其业务中断影响范围很广或损失金额很大,且其使用的系统提供商较为单一,很难在短时间内采购,这样的部门会自行决定利用专门的业务恢复场所来支持其业务恢复,可采取自建或租用外包商的场地等形式。

6.银行自有恢复场所策略。公司恢复能力管理部建设并维护银行业务恢复场所,供业务条线恢复业务使用,由使用该场所的业务条线承担相应的费用。

7.外部供应商恢复场所策略。由外包商提供业务恢复场地及其相应设备,在灾难发生时,相关业务部门转移到该场地恢复业务。

2、业务恢复策略的制定

美国银行公司恢复能力管理部门预案制定团队负责制定场地恢复的几种策略模式,提供各业务部门选择,包括与场地恢复相关的人员恢复、系统恢复等。各业务条线根据业务的恢复时间要求、各自的业务特点、成本收益等因素自行选择恢复策略,并经过业务条线主管的审批。


四、美国银行应急响应及恢复预案的制定及管理

预案的制定应在业务影响分析的基础上,根据业务需求、以及已确定的业务恢复时间目标(RTO)、业务恢复点目标(RPO)、业务恢复资源安排、业务恢复顺序等业务恢复策略,编制一套全面的书面行动计划,以确保在业务中断时,可以在预定的时间目标范围内恢复业务运营。

美国银行预案分为威胁应对预案(All-Hazard Planning)和恢复预案。威胁应对预案(AHP)按重大风险事件的种类分为八大类,预案主要明确各类重大风险事件的应急响应组织架构、分级标准、分级处置原则、以及基本应急处置流程等内容。恢复预案包括技术类预案和业务类预案(又称工作区域预案),预案主要描述业务中断后应急响应及恢复的具体操作步骤。美国银行应急响应及恢复预案管理相关工作主要包括:

1、制定预案管理的相关规章并开发预案模板

为加强预案管理,规范预案主要内容,美国银行制定了《业务持续性预案建设和检查指引》(以下简称《指引》)等制度,《指引》明确了业务持续性预案建设的工作要求,规范了预案建设的基本流程和职责分工等内容,并为事后监督检查预案建设完成情况提供依据。《指引》主要包括监管要求、信息分类、业务持续性管理框架执行要求、业务影响分析及其维护、预案开发及维护、供应商持续性服务标准、供应商业务持续性评估、业务条线的业务持续性职责分工培训、业务持续性文件保管等内容。同时,美国银行还开发了恢复预案模板,包括技术类预案模板和业务类预案模板。技术类预案主要描述业务中断后,信息技术应急响应及恢复的具体操作步骤。业务类预案又叫工作区域预案,主要描述因工作场所不可用导致业务中断后,业务应急响应及恢复的具体操作步骤。其中:技术类恢复预案主要包括高等级系统描述、系统恢复时间、灾难和预警通知流程、详细的系统准备流程、在灾备场所存储信息、恢复模式下的操作、灾难发生后向生产场所的回退、复原开发系统等基本内容;业务类恢复预案主要包括业务简介及恢复策略摘要、应急响应通知/报告流程、备用工作场所要求及相关资料、工作场所恢复/迁移规程、业务恢复具体操作流程、业务恢复相关人员联系电话清单、重要业务恢复文件记录等基本内容。

2、开发预案管理系统

为支持协助相关人员开发、审批、发布及更新维护相关预案,美国银行开发了动态灾难恢复预案系统(LDRPS)。各部门在开发预案时,可以在系统中调用业务影响分析的信息,并进一步按照其提示分析业务恢复所涉及的人员、系统、设施、场所等资源,从而进行开发、审核、发布、维护恢复预案等工作。同时,相关部门的预案可以通过系统自动匹配,如某个部门预案中提到需要配备电脑,技术部门预案中提到可以提供电脑,系统就会自动把两个预案关联。另外,更改其中一份预案信息,相关联的预案或含有相同信息的其他预案系统都会自动更新。预案的发布也可以通过设定相应的范围,使与预案有关的部门都可以看到关联的预案。

3、预案制定的职责

美国银行公司恢复能力管理部门负责预案管理规章、预案模版、以及威胁应对预案(AHP)的制定。其中:预案制定团队负责制定统一的预案管理规章及预案模版,并运用动态灾难恢复预案系统(LDRPS)管理预案;响应管理团队负责制定威胁应对预案(AHP)。

各业务条线负责业务恢复预案和技术恢复预案。其中:业务部门负责制定业务恢复预案;技术团队制定相应的技术恢复预案。对于相关部门预案的接口可以通过组织相关部门讨论预案的接口设计及其预案的可行性确定。


五、美国银行预案演练与审核

预案演练是对预案部分或全部内容进行演习的过程,是保证预案有效性的重要手段。美国银行根据预案恢复级别(风险级别)确定了预案演练频率,并对相关演练工作进行了规范。具体要求为:

1、演练方案的基本要求

各部门负责对其制定的预案进行演练。为确保演练的有效性,规范演练内容及演练流程,在预案演练前应制定演练方案。演练方案经业务部门和技术部门的有关领导批准后可实施。演练方案主要内容包括:演练目标、演练范围、灾难场景、灾难时间、演练时间、演练场所、演练假设、演练恢复步骤。

2、演练总结报告的基本要求

演练结束后,业务部门和技术部门的高级管理层必须要对演练结果出具书面意见,确保解决任何遗留问题,确保对恢复预案作相应的修改。同时,演练牵头部门应编制演练报告并召开演练后讨论会,并在演练结束后两周内取得高级管理层的签字确认。演练总结报告主要内容包括:恢复预案名字、涉及业务或系统的名字、恢复级别、演练时间、演练形式、演练概述、演练目的、演练情况、识别存在的问题及问题剖析。

3、预案的质量审查

为高级管理层了解评价预案的可行性和有效性,并督促相关部门不断改进完善预案。美国银行对所有预案进行相应的质量审查工作。演练完成后,演练牵头部门应将相关预案、演练总结报告等材料报送高级管理层进行质量审查、填写质量审查表,并在质量审查表签字。审查表内容主要包括:预案是否充分,恢复战略是否能满足业务要求,演练测试结果是否合格,问题是否已解决。

4、预案演练频率的要求

美国银行主要依据业务恢复时间的目标值(RTO)来明确所有预案的恢复级别(风险级别),并据此进行定期的演练。对于必须在4小时以内恢复的业务,即RTO小于或等于4小时,其预案恢复级别为“特别高”;对于恢复时间可大于4小时,但需要在24小时以内恢复的业务,即RTO在4至24小时之内,其预案恢复级别为“高”。恢复级别为特别高/高的预案至少每12个月演练测试一次。

对于恢复时间可大于24小时,但需要在48小时以内恢复的业务,即RTO在24至48小时之内,其预案恢复级别为“中等”,至少每24个月演练测试一次;

对于可在48小时以后恢复的业务,即RTO大于48小时,其预案恢复级别为“低”,至少每36个月演练测试一次。

如预案涉及生产中使用的主机应用,无论恢复评级高低,至少每12个月要进行一次恢复演练。