本文来源于:鑫智奖·2024第五届金融机构数智化转型优秀案例评选,作者:吉林银行
吉林银行:交易全链路监控项目
2024-05-22 关键词:运维管理,数字化转型,智能运维
3264
一、项目背景及目标
1.项目背景
新一代核心系统对IT支撑提出了更高要求,关键业务系统在数量上和复杂度上都在迅速提升,面对越来越复杂的业务系统架构,亟须提升科技运营的效能。传统的IT运维走向科技运营,目标不仅仅是快速定位解决系统故障,更要做到对系统运营状况的全面掌控。
吉林银行建设的统一监控平台系统交易监控覆盖了部分重要业务系统,但是随着两地三中心的项目的建设、新核心系统更新迭代及存量系统的改造,该监控系统已无法满足覆盖更多重要业务系统,以及覆盖交易全流程的需求,目前统一监控平台存在的问题:
①监控广度不够:当前未对所有重要应用系统进行业务监控,导致出现异常,难以及时、有效地发现。
②监控深度不足:目前现有应用集群监控也没有实现端到端整个业务链路节点的交易全链路监控。
③处置能力不强:由于上述业务交易监控深度和广度不够,当出现故障,只能判断系统出现故障,但是不能马上判断是哪个应用节点故障,故障定位效率低,处置时间长。
④缺乏业务可见性:当系统出现故障时,难以判断哪些业务系统会受到影响以及影响的程度,无法对业务应急措施给出建议。
一笔银行交易往往业务逻辑比较复杂,涉及多个信息系统,在其中一个信息系统出现故障时相关信息系统均会报警,这就需要运维人员花费一定时间逐一排查定位故障,个别复杂场景时间更长,对整体应急处置效率产生较大影响。

2.项目目标
针对吉林银行统一监控平台现状及科技运营发展要求,本项目的总体建设目标为建设新一代应用集群监控和交易全链路监控系统,该系统与现有交易监控系统并行,通过从广度、深度、精度、高度四个维度的技术升级,提升统一监控平台的整体能力,弥补现有交易监控系统的不足,并为未来技运营的发展打好基础。
基于此总体目标,本项目的建设目标包含以下几个方面:
①监控广度:对行内重要应用系统实现全覆盖的业务监控,保障整体业务连续性。
②监控深度:需要创新性的对重要交易系统的全部处理环节实时联动监控,即交易全链路实时监控,能够从具体业务的视角全链路实时监控、追踪每一笔业务。
③分析处置精度:在故障报警的同时通过大数据实时分析、自动准确定位引发交易异常的故障源头,提升应急处置的效率,并将应急处置措施控制在尽量小的范围,比如以往需要重启节点解决的问题,可能只对某一具体交易进行调整就可以解决,尽可能缩小错误的影响范围。
④监控分析高度:科技运营必须以业务为导向,因此监控系统需要始终围绕服务业务的目标,更多体现业务价值以及管理价值,当错误发生时,在快速故障定位的同时,能够提供业务影响度评估,对业务应急措施给出建议。
二、创新点
应用集群监控系统和交易全链路监控系统能够在“零侵入”的情况下实现数据采集和业务系统监控,采用全旁路方式捕获数据包,不向网络中发送任何数据包,不占用被监控系统主机资源,业务监控系统的接入不影响现有业务功能、现有服务器、网络设备和网络带宽等的性能。
以关键业务的执行过程为监控对象,采集和解析每个业务请求在各节点的执行数据,能够生成***的追踪ID,实现对于每一笔业务跨节点的、实时、主动地追踪,对单笔异常请求快速定位根源节点。能够查询每一笔业务请求在每个节点上执行的状态和详情,并通过单笔异常请求的追踪定位结果聚合收敛为业务链路节点级别的告警,以避免因一个节点出现故障经常导致相关联的系统都出现告警,不仅增加定位的复杂性,也拖延了问题定位和恢复的时间。
三、项目技术方案
构建可灵活扩展的银行应用集群监控系统和交易全链路监控系统,运用网络流量分析技术和实时计算等技术,利用交易报文、业务规则等信息,实现基于交易链路追踪进行故障根源节点自动定位。能够在故障报警的同时通过大数据实时分析、自动准确定位引发交易异常的故障源头,提升应急处置的效率。
四、项目过程管理
1.项目各阶段的实施周期,如下:
2024年4月末,*****阶段:
总体需求调研与分析
*****批次业务系统及链路调研(22套主要业务系统,4条手机银行6.0交易链路)
TAP流量梳理及报文分析验证
监控平台部署
*****批次业务系统及链路实施
2024年6月末,第二阶段:
第二批次业务系统及交易链路调研
*****批次业务系统及交易链路监控指标、报文分析调优
第二批次业务系统及交易链路实施
统一业务交易大屏、业务墙布局及指标调优
2024年9月末,第三阶段:
投产试运行
业务系统报文分析及交易链路监控指标调优
整理项目过程文档及技术移交文档
行方运维人员知识转移培训
2.项目实施环节关键事项
①梳理调研
细化监控范围
细化业务逻辑访问关系
获取报文接口规范
获取数据字典
获取异常返回码信息表
获取网络架构图
梳理及规划流量镜像点
②环境部署
交换机配置业务系统镜像流量
配置TAP过滤规则
TAP引出镜像流量
华为云流量引出
开通网络防火墙规则
上架服务器及加电
安装报文解码服务端
安装交易数据存储及展示服务端
③报文解码及校验
捕获样本数据包
业务通讯关系流量反向抓包验证
业务系统报文格式、协议反向验证
镜像流量质量反向抓包验证
报文解码
解码数据验证(字段、值、交易量准确性)
④功能配置
业务路径
流规则
仪表盘
告警规则
别名
交易追踪
监控场景设计
五、运营情况
现阶段已完成32套核心业务系统的实施工作,包括配置业务系统访问关系路径、交易成功率、交易响应率、交易量和交易处理时间。
完成6条业务全链路系统实施(手机银行,用户登录、行内转账、行外转账;超级网银,来帐代发、往帐代发;网联系统),可分析每笔交易的各个节点的状态,并在各个节点上进行各种异常状态笔数统计,异常状态包括交易失败、无响应、缓慢、请求缺失等。
六、项目成效
1.旁路镜像
通过对业务系统零影响的流量镜像方式进行数据获取,不需要业务系统变更,对业务系统无侵入性,可快速建立对应业务系统的数据监控。
2.逻辑关系
利用流量的方式梳理业务交易逻辑,直观的看到业务之间的访问关系和故障影响范围。
3.细颗粒度
针对个别交易码,个别终端等细粒度的监控,以及长期监控数据动态分析,还原业务交易场景,主动发现业务故障。
4.故障回溯
对历史故障数据的可回溯性,便于历史故障进行事后复盘。
①可用性
通过交易链路直观的观察到故障节点,提升故障处理时效,保障业务系统可用性。
②持续运营
一方面通过业务交易逻辑梳理,反向补足CMDB配置数据,另一方面通过长期业务交易性能数据积累,为智能运维体系提供优质数据,形成持续IT运营良性循环。
七、经验总结
1.实现业务系统全面监控
在已有监控范围内,横向扩展监控广度(40套业务系统),使得对整个业务系统更直观的定位故障节点,以及纵向扩展监控深度,展现业务字段和返回码字段的丰富性,对业务的重要信息进行多维度展示及故障告警。
2.为一五十战略服务
立足于精细化监控,以1分钟发现异常,5分钟定位故障,10分钟恢复业务为目标,实现运维价值大化。
3.重要交易链路专项监控
针对手机银行理财秒杀、超网代发、信用卡营销进件等重要业务交易链路专线监控,保障业务营销活动。
4.为业务提供决策价值
通过业务大屏展现业务运营态势实时、多维度直观呈现,运维工作成果直观地展示,变黑箱为白箱。

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
商业银行内控合规管理数字化转型路径探析
商业银行内控合规管理数字化转型可以有效提高商业银行全面风险管理水平。商业银行应基于现有风控系统,通过优化模型规则,提升数据质量,配套对接内部业务系统,充分发掘数据潜能,强化系统刚性管控等,加快构建更加全面、精准、开放、前瞻的数字化智能内控合规管理体系。
中国银行业杂志
刘振宇
2024-05-22
农业银行数据中心总经理佟梅:依云而生,农业银行构建提质增效IT新底座
云原生概念从2013年诞生到现在已经整整十年,其内涵技术和创新应用仍在不断迭代发展,并逐步成为IT基础设施领域的技术基石。农业银行数据中心积极推动基础设施云原生转型,构建了以分布式云平台为基础的云原生技术底座,助力全行系统向分布式架构演进,在保障****业务连续性的前提下,兼顾基础设施的敏捷和效能,实现了提质与增效的有机统一。
中国金融电脑
佟梅
2024-05-22
工商银行数据中心总经理刘方洲:数据中心数字化运维转型实践
近年来,工商银行加快推动全行经营模式和治理模式的数字化变革,以自主研发的“云+分布式”平台为核心,构建满足全行数字化转型需求的新型金融科技基础设施,扎实推进全球银行业大规模主机业务下移,打造了银行业科技高水平自立自强的样板工程。目前,工商银行金融云平台已实现17万节点和45万容器的超大规模自动化、集约化管理,成为工商银行数字化转型的重要驱动力。 工商银行数据中心作为支撑全行业务经营和数字化转型的关键信息基础设施,始终牢固树立底线思维,不断加大科技创新力度,持续探索生产运维管理新范式,为全行高质量发展和数字化转型奠定了新的发展优势。
中国金融电脑
刘方洲
2024-05-22
山东农信:集中运维监控平台项目
为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。
2018第二届农村中小金融机构科技创新优秀案例评选
山东农信
2024-05-22
福建农信:云平台“农信云”项目
随着福建省农村信用社联合社(下称 “福建农信”)规模不断扩大、业务不断增加,应用系统、设备、数据中心空间能耗都不断增加,IT运维各方面都面临种种挑战。
2017首届农村中小金融机构科技创新优秀案例评选
福建农信
2024-05-22
贵州农信:IT可视化运维管理体系建设方案
为切实满足业务连续性及监管部门要求,确保IT系统安全、高效、稳定运行,我社在观山湖数据中心建设过程中同步启动了IT可视化运维管理体系建设。
2019第三届农村中小金融机构科技创新优秀案例评选
贵州农信
2024-05-22
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构