本文来源于:2020第四届农村中小金融机构科技创新优秀案例评选,作者:安徽农信
安徽农信:银行核心系统高可用实践
2020-11-04 关键词:农信/农商行
3461
一、项目背景及目标
银行核心系统作为银行业务正常运作的重要支撑平台,一旦出现故障,轻则引起业务中断,重则可能导致业务整体瘫痪。银行业务连续性既是监管的要求,也是银行全面风险管理的组成部分,反映了银行IT系统的建设能力和综合运营能力。在银行业务运营中断的各类事件中,由于信息系统故障引起的服务异常导致重要业务停运的情况较多。业务中断会对银行造成财务损失、声誉受损,严重的会产生金融风险。如何保证银行系统持续、稳定、高效的运行已经成了现阶段急需解决的问题,建立和完善信息系统的高可用方案已成为银行实现业务连续性目标的迫切需要。
目前,安徽省联社核心业务系统后台由一个主子系统和一个备用子系统对外提供服务,服务作业分为三大类:监听作业(负责监听服务请求)、服务作业(负责处理服务请求)、监控作业(负责监控、动态调整服务作业数量、监控交易日志数据队列使用情况、监控虚拟柜员流水号数据队列使用情况以及服务作业超时处理等)。为了提高核心系统的健壮性,需对现有核心业务系统进行改造升级,通过增强对核心主控的监控,纠错机制由手动排查、定期巡检向系统自动轮询监控、可视化分析、自动预警的方式转变,保证核心业务系统的高可用性。
二、创新点
(一)多维度可视化分析
通过不间断对核心联机系统运行数据的实时抓取,结合运维管理平台,可对服务作业、监控作业、超时作业、虚拟柜员流水号/交易日志号获取作业、共享内存使用状态、准实时TPS、消息外发服务等联机平台系统数据进行可视化分析及大屏展示。
(二)智能监控预警
通过对核心联机系统运行数据的挖掘、分析,可以总结归纳出覆盖各种风险事件和风险阈值指标的预警规则,系统定时根据核心联机系统运行状态数据扫描所有的预警规则,对风险事件进行智能识别,自动预警,保证核心业务系统的高可用性。
(三)一键式子系统自动切换
为了保证核心业务系统的持续、稳定的运行,尽量缩短极端情况下的服务中断时间,一键式子系统自动切换工具实现了2分钟内完成主备子系统的切换以及服务启停操作,提高了系统的恢复能力。
(四)批处理作业运行环境个性化配置
为尽量避免在日终批处理执行期间,批量服务对联机服务的影响,可对日终批处理作业运行环境进行个性化配置,灵活调整提交作业的并发数,以便尽快找到优的执行参数,保证联机服务高效、稳定的运行。
(五)智能日志分析
通过日志分析工具,系统每日对交易日志数据按照渠道、服务、执行时间、24小时分时数据等多个维度进行组合分析,再结合时间维度对分析结果进行历史比较,可以准确定位服务耗时异常、热点账户瓶颈等多种人工无法排查的疑难问题。
(六)日终批处理智能策略分析
通过对日终批处理作业执行日志的统计分析,结合时间维度进行历史比对,实现批处理作业耗时偏离度的自学习功能,对耗时异常的批处理作业进行自动预警。并针对异常问题对照策略模板,自动匹配适当策略,提高批处理效率。
三、技术实现特点
(一)跨平台实时监控数据采集
采用多种技术手段实现了对核心主机运行资源、核心应用平台运行信息及运行状态的数据采集。通过对采集数据的分析可实时监控系统运行状况,包括核心联机、联机批量、会计引擎、消息外发等子系统,帮助运维人员建立安全预警、分析和响应体系,提升故障的感知能力。
(二)监控数据动态分析
实时监控数据是保证运维监控高效、准确的基础,通过预设告警规则和阀值,可以发现处于异常状态的业务,并及时向运维监控人员发起告警,后通过可视化大屏将监控分析情况进行展示。
(三)监控态势感知平台
监控态势感知平台通过全量采集数据,结合大数据和人工智能技术,构建监控基线。业务平台态势感知可发现异常子系统、异常作业、文件增长过快、TPS激增等异常情况;主机态势感知可从端口、进程、CPU、内存等层面感知主机运行态势;网络态势感知可对网络中的四到七层协议进行精细化识别。
四、项目管理过程
(一)需求分析和概要设计阶段
此阶段时间段为2020年7月1日至2020年8月14日,其间主要完成了业务需求分析、软件需求分析以及系统功能点的概要设计和技术架构的高层设计,提交了项目估算表、项目计划书、WBS计划、人力资源计划、风险与机会计划、质量计划、质量保证计划、配置管理计划、需求分析以及概要设计等文档。
(二)详细设计阶段
此阶段起始时间为2020年8月17日至2020年9月14日,其间完成了系统详细设计工作,提交了核心系统高可用项目改造项目详细设计说明书。
(三)系统编码、测试和上线准备阶段
此阶段分为多次迭代,并行实施。其间完成了核心系统高可用改造项目的客户化开发的编码、测试以及上线准备工作。提交了单元测试结果、代码走查报告、安装部署手册、集成测试方案、集成测试案例、集成测试报告、项目发布方案、系统维护手册等文档。具体实施周期如下:
*****批次:子系统自动切换,起始时间为2020年7月20至2020年9月22日。
第二批次:批处理作业的个性化配置,起始时间为2020年8月3至2020年10月18日。
第三批次:联机平台监控,起始时间为2020年8月24至2020年10月20日。
后续工作:投产后持续开展监控工具升级及日终耗时偏离度分析。
(四)上线切换阶段
此阶段分为多次迭代,其间完成了系统切换工作,具体实施周期如下:
*****批次:2020年9月23日,子系统自动切换上线。
第二批次:2020年10月19日,批处理作业的个性化配置上线。
第三批次:2020年10月23日,联机平台监控上线。
后续工作:2020年10月28日,持续跟踪监控工具迁移及日终耗时偏离度分析结果。
五、运营情况
(一)一键切换提高了主备切换的效率
子系统一键切换功能是为了提高核心系统应对紧急事件的响应能力。子系统是核心系统对外提供服务的基础,目前,核心业务系统部署了主备两套子系统,以保障服务响应。改造前主备子系统切换、启停等工作时需要手工排查配置问题、执行切换命令等操作,整个过程耗时较长、并存在误操作的风险。
一键切换功能可以将零碎的命令脚本化,系统自动检查配置问题,避免了手工误操作的风险,子系统启停、配置检查可以在秒级内完成,整个主备子系统切换过程可以由原来的10分钟缩短到2分钟以内。
(二)日终批处理作业运行环境个性化配置
目前核心业务系统日终批处理一共12个批次,156个作业。日终批处理作业的并发数等运行参数只能按批次配置,一个批次下的若干作业共享一套运行环境参数。
银行核心系统高可用实践项目实现了批处理作业运行环境参数的作业级差异化配置,通过对批处理作业特点的分析,结合主机运行资源,合理定制批处理运行策略、作业并发数等参数,使日终批处理整体运行效率得到极大的提升。据运维数据统计,原日终批处理执行时间约60分钟,现日终批处理执行时间约40分钟,效率提升了近三分之一。
同时通过调节批处理特殊时间结点的运行参数,合理调整批处理与联机交易的资源使用情况,也极大的提高了联机交易的运行效率。季度结息、双十一等特殊时点,网联相关联机交易核心系统处理时间由800毫秒缩短至80毫秒左右,效率提升近10倍,保证了联机平台的稳定性。
(三)预警分析机制
七大维度全方位预警。对于预警阈值,从交易日志号、虚拟柜员流水号、服务配置共享内存、空闲作业队列、服务异常信息、联机平台网络状况、超时服务信息等七个维度进行联机服务的全方位预警,特别是上线以来曾发生过多成员文件到达预警阈值的问题。定位问题后,可以触发核心系统文件自动清理机制,针对到达阈值的多成员文件进行自动清理。
多渠道多服务分析机制。从现有的112个渠道和547个核心服务与已有的日志进行对比,对各渠道及服务的均值、大值、小值、中位数同比等进行分析,发现“热点账户”相关问题。针对需要处理的“热点账户”,核心系统可以根据问题调整不同渠道、不同服务的运行机制,由同步更新机制调整为异步更新机制,彻底解决“热点账户”等相关问题。
六、项目成效
(一)实现了核心联机运营数据的多维度、全方位数据分析和可视化管理
通过核心业务系统高可用改造,实现了对核心主机运行数据的实时采集,加强了对联机主控的监控能力,对采集数据进行了多维度的挖掘和统计分析,并以报表、图表的方式实现多种形式的数据展示和可视化管理。
采集的数据元素包括联机服务作业、联机监控作业、超时作业、虚拟柜员流水号使用、交易日志号使用、共享内存使用状态、消息外发服务、联机批量服务、会计引擎状态等信息,实现了核心联机系统全方位、无死角的数据收集。
(二)实现了系统运行故障的实时预警功能,全面提升系统运营安全保障
通过对采集数据的分析,结合采集数据元素的标准状态,对预警规则进行了归纳、总结,并且对预警规则、阈值进行了参数化定制,实现了预警规则的配置化管理,完成了对系统异常状态的自动化预警判断和预警处理。全方位提升了系统运营的安全保障。
(三)提高了系统的应急响应能力,增强了系统恢复机制
一键式子系统切换和启停功能,提高了系统在应对极端情况下的恢复速度。日终批量作业的个性化配置功能,提高了系统的应急响应能力,降低了联机服务在日终批处理执行期间的故障率,保障了联机系统的稳定运行。
七、经验总结
银行核心系统高可用实践项目通过对核心系统实时运行数据的全方位提取,多维度的可视化图形分析,风险的智能识别、实时预警,系统功能的自动化、参数化的全面优化提升,实现了对核心业务系统运行状况的实时监控,增强了核心业务系统的健壮性,提高了系统应对紧急事件的响应能力,保障了核心系统持续、稳定、高效的运行。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2020-11-04
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2020-11-04
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2020-11-04
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2020-11-04
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2020-11-04
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2020-11-04
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构