本文来源于:网络整理,作者:
某省农信:InnoBlueCDP灾备自动化管理平台
2020-03-30 关键词:农信/农商行,运维管理,灾难备份,开发运维
3735
项目背景及目标
一、背景
近年来,基于监管和金融业自身业务连续性要求,完善金融灾备体系建设已迫在眉睫,而在灾难恢复管理中重要的两个指标是重要业务恢复时间目标(RTO)和重要业务恢复点目标(RPO)。目前RPO基于现在主要的灾备复制技术和产品,已经可以满足银监对于RPO的监管要求,基本能达到秒级数据丢失或者零数据丢失,因此如何降低RTO是目前灾备工作的重中之重。

银监会在2010和2011年针对国内银行下发了两个监管文件,*****对银行灾备中心的建设模式和灾难恢复等级做了明确要求:总资产规模一千亿以上的大银行要求设立异地模式灾备中心,其他中小银行要求至少实现同城灾备中心并且实现数据异地备份;第二原则上,要求重要业务恢复时间目标(RTO)不得大于4小时,重要业务恢复点目标(RPO)不得大于半小时。
此外,人民银行对于灾难恢复管理的要求,主要根据业务信息系统对时间的敏感性和重要性,对业务系统进行了分类,其中*****类要求RTO<6小时,RPO<15分钟。
二、目标
瑞蓝创InnoBlue CDP灾备切换自动化管理平台的设计初衷就是围绕着一个目标来进行的:建立灾备切换自动化管理平台,通过标准化、自动化、流程化、可视化的方式,提高企业灾难恢复能力和业务连续性水平,将灾备切换RTO从数小时提升到数分钟。
创新点
一、预置标准化切换操作
InnoBlue CDP对超过90%灾备相关的企业常用各类数据库资源、中间件资源、虚拟化资源、存储资源和网络资源均内置了大量的标准化切换操作,开箱即用,用户可以直接对现有标准资源进行对应操作而无需再编辑复杂的实现脚本,仅需对个性化应用编写少量脚本即可全面实现灾备切换。通过使用经过验证的、标准化的预置标准化切换操作,用户无需在大量常用资源类型上聘请专业厂家定制脚本,可以大大降低灾备预案执行脚本编写难度,提升执行的成功率,降低切换过程需要编写的脚本数量。
二、结合RPA自动化机器人实现完全自动化执行
目前行业内灾备切换工具大多数仅能在服务器端运行非交互式的脚本来实现操作任务,而对于基于windows视窗形式的交互式执行业务操作和基于web浏览器的业务验证操作等需要人工参与的交互式操作任务则束手无策,这也是自动化执行领域的一个历史难题。
瑞蓝创InnoBlue CDP创新性的引入了自研的InnoBlue RPA中的自动化机器人部分,通过使用机器人自动化模拟技术来模拟操作流程,实现交互性强的操作任务,例如:代替人工进行自动化业务验证。通过RPA能够有效的解决如验证码识别登录、web页面业务验证、无接口系统间数据交互、多系统交互操作等复杂交互操作,从而在任务执行层面做到100%自动化,能够真正实现灾备“一键切换”。
技术实现特点
InnoBlue CDP灾备切换自动化管理平台采用了当前主流的B/S架构。前端基于HTML5技术,JQuery、Bootstrap、LayUI框架,兼容IE8+、Chrome、Firefox、360、Safari等各大主流浏览器。后端使用JAVA 1.8开发,基于SpringMVC、Mybatis框架开发,Agent基于Springboot开发,与CDP-Server使用HTTP协议通信,通过WebSocket技术向前端推送更新信息,相比AJAX拥有更高的性能。预案流程使用自主研发的流程引擎,支持顺序、分支、合并、循环、条件分支等流程模式,自由度更高。

高可用性:灾备切换自动化管理平台整体结构均支持高可用分布式的部署架构,可以部署于用户生产中心和灾备中心之间,实现平台自身的高可用性,如上图所示,从应用层和数据库层均使用行业标准的数据同步技术实现,成熟、稳定。
可扩展性:灾备切换自动化管理平台产品服务器端支持单点部署,集群部署两种部署模式,在集群部署模式下支持负载均衡架构和主备切换架构。采用集群部署模式的平台能够自动容错,规避传统主备机模式的单点故障,多台(2台以上)服务器之间可自动互相接管。
高性能:灾备切换自动化管理平台代码经过充分优化,能够支持企业级7x24不间断运行,单点服务器可通过部署多台Proxy代理服务分担压力,支持管理500个以上自动化任务,同时支持100个并发任务。
REST API接口:灾备自动化管理平台具备良好的开放性,API接口使用 REST API 风格描述,接口格式标准统一,使用 HTTP/HTTPS方式调用,支持客户端通过Rest API 或Https协议访问。
项目过程管理
项目各阶段的实施周期

运营情况
本方案提供可靠的灾备自动化管理平台,确保灾备自动化管理平台自身的稳定性和可用性。灾备切换自动化管理平台采用集群模式,并且平台服务端是基于Linux系统开发和运行,为灾备切换自动化管理平台的可靠性提供了有力的保障。平台还能够监控各应用系统灾备资源的系统运行情况,例如相关的网络、主机、系统、数据复制等资源的运行状态,并且可以通过短信和邮件向客户发送报告健康状态。
某银行已经通过本平台完成了两次灾备切换演练,涉及重要业务系统包括核心系统、柜面系统、综合大前置、二代支付、银联卡系统等10几套,涉及灾备数据复制技术包括IBM SVC MM、 Oracle ADG、VMware SRM等。通过模拟主生产中心发生火灾场景,将重要业务系统切换至灾备数据中心,进行真实业务交易后然后回切,交易数据保留,是典型的真切换,真演练场景。切换过程实现一键自动化一致性检查和自动切换执行,提高了灾备切换效率和大幅度减少了RTO时间,从而提高了业务连续性水平。
项目成效
2019年,某银行灾备自动化管理平台建设上线,使灾备管理和业务连续性管理都有较大幅度的提升,主要体现在如下几个方面:
一、降低了组织协作成本
切换演练涉及到企业内不同部门、岗位、人员,管理人员有序按照切换分时计划完成各自执行任务所需沟通成本极高,效率低,且难以保证每人对当前执行情况和进度有充分的了解,遇到异常情况需要进行交互协调时更增加了处理难度,严重影响整体切换RTO。灾备自动化平台通过流程电子化、可视化降低了灾备切换的组织、沟通和协调成本。
二、提高了操作执行效率
传统灾备切换,一方面是各系统管理员操作效率低,需手工登录,然后按照命令逐行进行操作,执行完之后对结果和日志进行查看确认,再做二次核对。另一方面是执行过程的一致性难以保证,具体执行操作依赖于少数个人的技术能力和对系统的熟悉程度,不同人员负责系统的切换,可能会使用不同的执行方式来达到预期效果,但不同执行方式是否会带来连带影响是个潜在隐患。灾备自动化平台通过流程电子化、执行自动化替代了人工操作,使灾备切换效率有大幅度提升。
三、提高了应急预案可靠性
通常应急预案文档采用word等文档编辑工具进行撰写,不同版本之间难以比对差异,大量文档之间的关联性难以管理,对整体预案文档的变更和调整审计难以跟踪,在需要真实使用时通常难以保障其可用性。灾备自动化平台通过预案电子化,使预案、灾备资源和人员有机结合增强了应急预案的可用性和可靠性。
四、增强了统一指挥透明度
从传统灾备切换过程来说,指挥层的管理人员难以实时的了解整体切换执行过程进度,只能被动等待前端执行人员通知,真正出现计划外事件时,现场人员又通常忙乱于解决问题,使得灾难恢复的决策指挥层不能及时了解执行层的切换过程和关键节点动态,延误决策时机。灾备自动化平台可以从多视角展示事件、任务、预案流程、资源等的状态和进度,为决策和指挥提供清晰、简洁的可视化数据。
五、减轻了双中心运维难度
灾备整体环境如果平时不能得到有效维护,在真实使用时就难以成功完成切换任务,但如何高效保证多个数据中心应用版本/配置的一致性,如何有效的监控当前灾备技术架构是否可用,切换的链路、数据复制同步状况是否如预期,出现故障的点是否会影响某些业务系统的切换,这些均需要能够随时了解以支撑切换决策。灾备自动化平台可以替代大部分人工运维任务,保障了灾备的可靠性和可用性,同时也减轻了双中心的运维压力。
六、提高了灾备演练效率
商业银行依据监管要求每年都要进行相关演练,通过模拟主生产中心相关灾难场景,将重要业务系统切换至灾备数据中心,进行真实业务交易后,进行回切,交易数据保留,是典型的真切换,真演练场景。通过灾备自动化平台进行切换过程的一致性检查和自动切换执行,提高了灾备切换效率,满足RTO的需求。通过平台的使用,RTO由手工切换的3个小时,提高到45分钟。
经验总结
灾备切换自动化管理平台项目在某银行领导大力支持和运维部门相关人员的配合下,借鉴行业灾备建设的专业技术经验和灾备运维管理理念。灾备切换自动化管理平台项目根据某银行的灾备建设策略、业务连续性管理需求、IT系统架构等要求,参考国家标准、国际标准进行需求分析和系统构建。通过预案流程电子化、功能定制开发、集成接口开发联调、系统测试等工作对平台进行客户化定制,快速、高效地构建高质量、高性能、易操作的灾备切换自动化管理平台,同时为平台推广奠定基础。
项目实施
西安瑞蓝创软件科技有限公司
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2020-03-30
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2020-03-30
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2020-03-30
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2020-03-30
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2020-03-30
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2020-03-30
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构