本文来源于:2020第四届农村中小金融机构科技创新优秀案例评选,作者:湖北农信
湖北农信:基于容灾系统资源及技术的准生产体系研究及实践
2020-11-06 关键词:农信/农商行
3624
一、项目背景及目标
湖北省农村信用社联合社自光谷灾备中心投产后,完成了两地三中心的整体架构建设。随着业务快速发展,应用系统的开发量和上版需求也随之迅猛增长,现有核心生产及验证环境面临困难包含三方面:一是开发测试环境资源长期不足,设备运行老旧,无法满足新一代核心生产环境的测试需求;二是集成验证环境配置与生产环境不一致,多采用简配版实现,无法真实模拟生产压力测试、性能测试;三是光谷中心的核心灾备环境资源长时间处于备用状态,使用率低,未实现资源利用大化目标。
为及时、有效的解决以上问题,适应两地三中心灾备建设的特色需要,湖北省农信社内部一致通过“基于容灾系统资源及技术的准生产体系研究及实践”的立项申请。项目通过一个“分时复用,集中运维”的方法论、一种资源集中管理、数据物理隔离的安全管理制度,设计并实现一套资源复用的准生产环境,不仅破解了集成验证环境资源不足、测试不全面的难题,又合理利用了灾备系统环境资源,节约了投资运维成本,同时更好地保障了数据和业务的安全性,其设计思路和实施方法均属国内领先。
二、创新点
1.资源复用策略上的贡献
本项目在基于弹性分配的资源管理策略上做了以下三个方面贡献:
(1)采用资源池化管理策略,在PowerVM、DLPAR的基础上对灾备环境CPU、内存、IO、存储等关键资源进行池化设计,同时引入动态资源管理、统一运维监控平台,实现灾备资源池的动态弹性分配和集中运维。
(2)按“闲时小化,用时大化”的分配标准,对灾备资源池进行分时复用。分时复用是指灾备环境资源会根据动态管理平台的调度进行灾备生产环境和准生产环境间的资源调节,使得灾备数据中心的系统资源得到了更合理有效的利用,避免了灾备环境在备用时段的长时间资源闲置。
(3)根据优先响应、快速切换的调节原则,资源管理平台在准生产环境的常规分配回收机制上,引入容灾切换DR调度,并设置高任务优先级,实现弹性资源的快速响应,保证RTO关键指标。
2.数据安全保护上的创新
结合双中心环形3DC链路,灾备端采用远程复制进行数据的同步备份,同时通过对存储资源池的按级分类和动态划分,以“物理隔离,逻辑统一”的方式实现生产环境、准生产验证数据保护机制,同时具备增量更新快速同步,备份快速恢复的能力。当主中心生产系统出现故障时,可以快速切换到灾备中心,保持数据高可用,故障恢复切回至主中心后,实现物理隔离,保证数据高安全。
3.流程建设上的突破
本项目在跨系统多用途的资源使用管理流程上实现了以下两方面突破:
(1)围绕准生产环境“资源评估标准报表”,实现流程的高效率。资源评估报表中包括关于资源申请类型、回收时间、规则条件和预先分类VM所属业务系统等功能,消除资源供需双方沟通障碍,消除资源供需双方信息不对称。在保证资源使用者的资源需求前提下,科学有效的进行资源回收,加快了资源需求方申请流程和资源释放回收流程。
(2)对分时复用的灾备环境,制定严谨科学的灾备切换流程。在同城双中心灾备切换演练的基础上,结合准生产环境的常态化使用特点,制定完备的准生产环境应急切换演练方案,并按照生产环境的标准,通过统一运维平台实现日常巡检管理。
三、技术实现特点
按照项目规划设计,对灾备资源池进行了规划分类,整合现有分散计算、存储资源,形成统一资源分区。项目整体架构设计如下所示,由IStorm DR灾备切换发起双中心主备切换指令,动态资源管理模块实现空闲时段准生产资源的常规分配和回收,灾备切换时资源的快速调整,保证灾备分区需求承载能力,同时对生产数据划分不同的物理资源池,满足数据安全隔离的要求。
(1)整合多元分区资源,集中弹性分配管理
系统采用全集中的资源申请和弹性分配,对VIOC、DLPAR等多种硬件资源分区进行整合,并通过动态资源模块进行管理,完成分区的创建、配置和删除等任务,实现了灾备资源的集中化管理,同时为满足快速切换的目的,设计低基线资源标准对灾备分区进行分配并激活。在数据安全方面,为生产数据划分了灾备POOL,独立分配给灾备分区,实现物理隔离,同时保持远端的异步复制链路,具备快速备份恢复能力。
(2)引入统一运维监控,实现自动巡检上报
针对现有分区资源多平台、分散化的现状,通过对原有运维方式的重新设计,引入北塔统一运维监控平台,增加分区CPU、磁盘空间、内存使用率、网络丢包等关键指标的监控告警,对灾备资源分区实现了统一管理运维。在巡检效率方面,在各分区平台上设计并部署自动化巡检任务,周期性采集资源使用数据,频度由原先每半月手动巡检提升至每周自动巡检,并自动产出巡检报告,大幅减少人力成本。
四、项目过程管理
2019年10月,项目任务书下达。
2019年11月,需求分析完成。
2020年1月,提交系统详细设计说明书及测试计划。
2020年6月,执行核心准生产环境的实施及测试。
2020年6月,执行容灾切换调度演练测试。
2020年7月,执行功能测试及性能测试验证。
2020年7月,项目投产试运行。
2020年9月,持续运行监控并反馈调整,项目验收。
五、运营情况
项目投产实施,取得了较好的应用效果。一是建立了集中灾备资源平台,以少投资获得大效益,设备资源使用率显著提升;二是实现了设备的集中运维和统一管理,提高了响应速度和效率;三是核心重要类生产测试覆盖率显著提升,业务的安全运行更有保障。
(1)优化灾备资源管理,使用率提升
灾备中心准生产环境资源管理平台建立了集中资源、按需分配的管理体制,对闲置的硬件资源进行优化,各业务系统的镜像测试搭建无需重复购买硬件资源,只需向灾备资源池申请,批准后即可部署自己的业务,该过程平均需要3个工作日,测试周期完成后及时回收。整体资源使用率达到75%,比原先(全量划分给灾备环境使用率20%)有显著提升,同时也节省了运维和部署的同质性工作量和人力资源投入。
(2)集中运维管理,响应快效率高
引入统一管理运维平台,通过对计算资源分区、存储池和网络资源的实时运行监控,建立统一的安全监管、故障报警和运维处理平台,解决了资源多用途、分散化带来的巡检难、效率低的问题。在架构上,集中运维可以更好地快速响应,敏捷定位问题,集中优势资源保障系统的安全性和业务的稳定性延续性,综合节约60%的运维成本,在原有基础上提升80%的运维响应速度,提高了灾备中心总体的运维和安全保障水平。
(3)业务测试全覆盖,降低版本上线风险
通过资源按需分配的准生产环境,实现了核心重要类业务系统镜像验证全覆盖,结合精简版测试环境,为应用的需求开发、版本修改提供了更加丰富的测试平台,同时为分层分级、精准覆盖的集成测试流程提供了基础。自项目上线后,有效补齐了业务系统的压力测试和性能测试覆盖,测试覆盖率提升了20%,缺陷流出率显著下降。
六、项目成效
项目自2019年10月开始启动,历经考察、规划、镜像资源需求调研、动态资源调度算法演绎、指标体系的建立、回收再利用程序的独创和测试验证投产、流程的创新及实践等重要阶段,到2020年9月为止,历经12个月的研究实践,灾备中心平均资源使用率从20%提高到75%,为湖北省农信社节省人力及设备成本CPU 191C、内存977G(约240万元)。具体体现为:
(1)准生产环境的常态化循环利用机制达到预期效果。
自投产4个月以来已完成8套核心重要类系统的镜像验证环境申请和使用,覆盖了关键的A+/A类系统,业务覆盖率达到57.1%。在长期视角下实现了IT资源的循环利用效益,体现为资源周转率的明显提升,再利用CPU 180C,再利用内存952G;其中CPU周转率1.88,内存周转率1.95(周转率为累计回收再利用资源量比期初期末流动资源平均量),这标志着湖北省农信社灾备中心IT资源实现了循环利用效果。
(2)灾备中心资源实现小投资、大利用目标。
光谷灾备中心准生产环境的设计及应用有效提升了资源的使用率,解决了闲置状态时资源浪费的问题。自项目实施以来,根据业务系统重要等级,已分批完成了关键系统的验证覆盖测试,有效减少了测试系统的硬件开销,真正实现了一次投资,多次利用的优化资源使用目标,同时通过实际灾备切换演练测试,系统整体RTO满足小于30min的容灾要求。
(3)版本上线机制得到进一步健全。
准生产测试资源的投入,不仅给核心重要类业务系统提供了标准的镜像测试平台,同时也为系统测试流程的严谨规范创造了基础。通过对版本上线机制的重新设计和完善,按照分层分级,精准覆盖的测试原则,形成了以“冒烟测试、功能测试、性能压力测试、绿灯测试”为主轴的四级防护网,同时增加版本变更多级评审流程,彻底解决了流程不规范、测试不充分的问题,为版本缺陷低流出率提供了制度保障,安全生产的长效机制得到进一步巩固健全。
七、经验总结
结合灾备硬件资源的特点,提出了一种分时复用、集中运维的资源设计方案,并设计实现核心重要类系统准生产环境,解决了灾备中心资源环境长时间闲置和核心重要类验证环境资源紧缺问题,有较好的应用及推广价值。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2020-11-06
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2020-11-06
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2020-11-06
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2020-11-06
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2020-11-06
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2020-11-06
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构