对证券业的股票、期货等实时交易而言,业务停滞的每一秒都可能带来巨大损失。证券行业对于业务连续性的诉求远高于其他行业。确保业务连续性成为证券行业IT 运维的核心任务。
业务连续性管理的总体目标是提高证券公司的风险防范能力、有效地减少非计划的业务中断,并确保在重大灾难性事件发生后关键业务的连续运行。本文根据某券商近年业务连续性体系建设实践,从系统基础架构的高可用、灾备系统、运维管理三个方面,分享在业务连续性管理体系建设的经验。
高可用架构体系
券商信息系统高可用建设的关键是以高可用的基础架构来保证连续的业务处理,除了根据不同等级业务系统的不同重要程度,构建动态、多维度的分级防护策略,还涉及以下三方面的高可用技术。
1. 基础资源高可用。主要通过冗余技术,保证机房运行环境的可靠、稳定,同时提高电源、网络等设备的可用性。通过合理的机房建设、常规的检查维护,可以保证机房环境稳定可用性;在电源方面,主要通过冗余电源供应和不间断电源来保障电源的高可用;网络方面的高可用技术包括多线路备份、多网卡聚合、备用的路由器和交换机、网络负载均衡等。
2. 应用系统高可用。这是证券业务系统的基本要求。目前主要通过软硬件冗余、中单件集群、分散部署等架构来实现。以核心交易系统为例,在交易系统的运行可靠性上,采用冗余容错设计,消除关键部件的单点故障,完全实现了没有单点故障的系统设计。对于数据库服务器,有着应用级别和系统级别的热备份技术,系统切换时可以保证数据的完整、快速恢复,并且可以在很短的时间内进行切换,将系统的停机时间降低到最少。另外,在交易系统的设计中,采用了客户程序和应用服务器都支持在线升级的设计方法,完全实现了完整的7x24 小时应用。配合交易、清算相互独立的设计,使得系统可以不用暂停客户服务。在设计上,系统的所有参数都支持在线调整,使得系统维护停机时间缩减到最小,满足高可用的需要。
3. 数据资源高可用。在证券行业,数据高可用是一切灾难恢复和业务连续性的关键。在绝大多数情况下,业务中断的损失要远小于数据丢失的损失。数据库的高可用一般通过数据冗余和结构冗余来实现。
数据冗余一般通过磁盘复制和数据备份来完成,例如使用Oracle 的RMAN、EXP 导出数据库备份,或是通过集中备份软件(如NetBackup)将数据备份到磁带介质保存。
结构冗余可通过集群、热备份等技术来实现,通过多节点负载均衡提供故障容错和无缝切换,热备份技术通过事务日志同步方式实现故障时的主、备用数据库快速切换,如Oracle的DataGuard、SQLserver的AlwaysOn。
图1 交易系统数据灾备架构
灾备系统
1. 同城和异地灾备中心。该券商现有自建机房3 个,分别为外高桥中心机房、上海静安同城灾备机房、深圳异地数据备份机房及多地托管机房机通讯站点,实现“两地三中心”模式。各地互通讯的核心交易系统构架以及网上交易系统构架,能较好地实现紧急情况下的应变处置与快速转接。
图2 基于云计算的“ 双活” 灾备模式
2. 基于云计算的“双活”灾备模式。如图2 所示,该券商目前推进建设基于云计算的交易系统同城“双活”灾备模式。在“双活”模式下,灾备中心和生产中心各承担一半的业务,当生产中心发生灾难性事件无法工作后,灾备机房仍能确保业务连续性不受影响。
3.自动化灾备切换技术。当重大事故出现需要启用灾备中心时,要保证快速、可靠地完成切换。证券公司业务繁杂、系统多样,单凭运维人员手工切换,难以保证执行效率和准确性。对于这种问题,启用IT 系统自动化运维,通过事先根据切换操作步骤编写切换脚本,保障应用系统快速、准确切换。
运维管理
IT系统运维管理工作内容包括对系统应用的运行状况进行监控、评估、调整,还需要通过合理的制度、流程设计和实施来避免故障发生,并通过预先定义事件响应和应急措施,快速解决生产故障,恢复系统运行。
1. 一体化运维管理平台。证券业务种类迅速增加,新系统、新设备不断上线服务,基础设施不断增加,各系统之间存在着更为复杂的数据交互和逻辑关系。运维管理的关注点已从单点管理向综合管理转变,过去的分散运维管理已越来越难以满足业务连续性的要求。建立统一、集成、开放和可扩展的运营管理平台,实现对各类运营事件的全面采集、合理分析和及时处理,成为当前运维管理的必然趋势。顺应这种趋势,该券商制订并实施了基于集中监控的IT 运维管理一体化平台的方案。
整个平台架构的设计覆盖IT 运维的监、管、控各方面,体现了闭环的IT 运维管理特点。一体化运维管理平台从逻辑结构上划分为四个平台和一个核心系统,分别是数据展现平台、流程管理平台、集中监控平台、自动化管理平台以及CMDB 配置管理核心系统。将IT 事件与业务事件进行关联,配合有效的处理流程,确保运维人员从业务角度快速有效地定位及解决IT 故障,确保业务正常运行。
2. 运维管理规范。该券商组织制定《生产环境安全管理规范》、《信息系统分类分级管理规范》等运维管理制度规范,从制度层面改进业务连续性管理水平。
为了保证业务连续性,针对各个业务系统,需要投入运维资源。如何合理分配资源,使各系统的业务连续性得到最大满足,并实现资源利用最大化?依据“信息系统分类分级管理规范”,系统分三个维度,将系统评为四级,不同级别获取不同的资源,最大程度保障关键系统的业务连续性。核心是系统的“分类分级”和基于“分类分级”的资源分配制度。根据维度对各个系统进行评估,评分越高的系统业务连续性保障要求越高,相应的分配的资源就越充足。
3. 应急处置预案与应急演练。证券业务需求迭代频繁、系统变更较多,加上系统本身的复杂结构,出现突发的软硬件事故是不可避免的。要做到事故快速排除,就需要提前针对各种事故场景制订应急预案。应急处置预案分两层次:一是通用的应急处置预案,其中定义了突发事件的通用应急响应流程,是所有其他预案的入口;二是单个系统应急预案,大致覆盖了各系统可能遇到的绝大多数突发事件场景,包括突发事件的发现、处理、恢复等步骤的细节操作。
另外,还制订了应急演练制度,应急演练始终坚持实战和桌面演练、系统讲解与演练落实相结合的方式,全面覆盖系统各环节。
4.培训。须重视对运维人员的培训,使运维人员不仅掌握专业知识和工作技能,还熟悉组织的运维管理制度,具备良好的安全意识和操作习惯,正确应对生产故障和突发事件。
(文章来源:外部稿件)
深圳壹师城科技有限公司
深圳:深圳市南山区粤海街道白石路芒果网大厦909
北京:北京市石景山区金府路银行保险产业园3号楼601室
邮箱: esc@1sc-china.com
咨询: 0755-86722739
邮编: 518000