本文来源于:鑫智奖·2026第七届金融机构数智化转型优秀案例评选,作者:广西农商联合银行
广西农商联合银行:业务性能监控系统
2026-03-24 关键词:数字化转型,金融科技,智能运维
2307
一、项目背景及目标
我行启动“核心系统群”建设,涵盖34个新建及52个配套改造的庞大体系,需要实现从技术架构到应用服务的全面革新。通过采用国产异构云平台与分布式数据库等核心技术,全面迈向以“人工智能+分布式+国产化”底座为基础的数智化高质量发展新征程。从传统环境到云环境,随着大量的分布式系统、规模化的微服务部署后,云上业务环境变得愈发复杂。基于系统整体运行情况分析的监控模式,无法获取具体应用节点的运行情况,更无法深入分析各项业务应用指标,云中监控成为黑盒。
在我行“核心系统群”建设中,基于对多种技术路线的使用和研究,我行科技人员发现业务交易级的监控和业务数据获取的手段依然缺失,包括:技术方案需要能云上云下一体化覆盖、基于交易类型的精细监控、基于用户流水的全链路追踪等,只有业务级的高层级监控,才能直观的评测新系统的用户体验,真正掌握运维的主动性。
在我行业务性能监控解决方案中,需要能够对IaaS、PaaS层的应用流量进行采集,按业务交易路径实时监控各业务组件的状态,真正做到端到端的业务交易性能监控分析,同时能针对每个应用下的交易类型、渠道、流水号等维度进行深度分析,能对单笔交易明细进行查询。当故障发生时,监控系统能够快速定位故障根源,提高故障处理速度,保障我行“核心系统群”相关业务系统的平稳上线,提高业务连续性。
我行基于网络流量解析技术,建设了业务性能监控系统。通过对云环境、传统环境流量的采集,自动发现与梳理应用组件间的逻辑访问关系;通过对各类应用层协议的定制化解析和分析,生成业务层性能监控指标,构建了我行业务性能监控体系。
二、创新点
我行业务性能监控系统具备多项技术创新,主要情况如下:
1.覆盖IaaS和PaaS层的流量采集
摒弃传统的IT架构,应用“迁移上云”,将应用的开发方式、架构、部署与维护全部建立在云上,可以最大程度发挥云计算弹性扩缩、动态调整、自动伸缩等技术价值,帮助企业最快地应对市场变化,拥有颠覆传统业务的能力。
传统环境的网络流量,均会通过物理交换机,所以在物理交换机上,通过流量镜像功能可以捕获到完整的网络流量。从传统环境到云环境,数据采集的难度大幅上升。过去,网络流量跑在物理网络、服务器等传统设备间,只需要通过物理交换机镜像的方式就能进行流量采集;现在,流量开始跑向云端,大量的横向流量(例如同一台宿主机的虚机之间),直接在虚拟交换机内部完成,流量不会流转到物理交换机设备,因此,云上主机、Kubernetes的流量采集,是需要解决的第一个问题。在云上业务的流量采集,采用微探针的方式进行IaaS层云主机流量采集,微探针不对应用本身的通信和代码参数任何侵入,并能快速适应云上业务的变化,能兼容信创云等国产化环境。云上微服务层面POD的流量采集,采用基于DaemonSet的采集器,对于K8S内POD的流量,进行采集,从而实现了对PaaS层业务的监控,包括对新核心Sidecar、微服务流量的采集。通过多种技术架构的适配,确保了“核心系统群”中各个应用系统流量的完整采集,从而打好了业务性能监控的源数据基座。

2.数据包深度解码,统一监控语言
在流量采集的过程中,采集器通常可以通过网络流量来粗略计算部分TCP流级别的网络统计指标。但在大部分场景下,流级别的网络统计指标并不能反映业务的健康状况,更不能发现应用性能的潜在问题。
当谈及网络性能与业务性能监控时,我们更需要“高层视角”的指引。从网络性能管理层面来看,需要会话级别的网络指标和原始数据包;从业务性能管理层面来看,需要对数据包的payload做解析、关联和统计。只有具备对“高层指标”的深度解析能力,才能够将全链路业务级监控落到实处。
应用层协议解码是进行应用与业务指标深度分析的关键。解码器需要对中间件、应用、银行核心等进行协议解码,通过提取所需业务字段、自动验证解码结果,并对应用或者业务架构进行有效梳理,从而能对业务层的交易量、交易类型、渠道、业务报错、账号、流水号、金额等等指标进行输出和分析。在本项目中,对我行关键业务系统的协议进行了定制化解析,不仅覆盖了http、xml、json等常见报文格式,也对新核心、网点面客等私有协议进行了解析,并全量输出业务字段,不仅满足了运维监控分析的需求,也为后续的业务数据分析提供了数据源。
3.全链路业务监控,构建业务监控第一感知源
保障业务稳定高效运行,是业务性能监控的核心目的之一。当深度解析高层指标后,需要通过一定的技术手段对业务全路径进行关联分析,基于业务级指标,做到实时的业务健康状态健康、故障告警、多维度的业务指标分析、单笔交易的查询等。
为了支持我行多数据中心、业务双活等场景,结合私有云区域,本次项目采用了分布式部署的方式。多台业务性能监控服务器部署在多个数据中心,时钟同步,各数据中心服务器单独解析和存储该数据中心的数据,关联处理双活交易数据,再由主节点进行统一的展示和告警。同时,主从节点仅进行统计指标数据的交互和查询,带宽占用底。
为此,采用了一套国内自研的非结构化数据存储系统,解决了银行多中心、数据结构多样性、数据安全性、数据分析实时性、金融自主可控等核心问题,未采用ES等开源解决方案。
基于业务路径,构建全链路服务路径监控视图,流处理引擎对路径每个环节的指标进行实时计算,生成交易量、响应时间、响应率、成功率、返回码、返回信息等核心业务性能指标,基于节点、IP、交易类型、渠道、接口等等维度进行精细化统计。从而建立了业务全路径的实时监控视图,实时展示业务路径每个环节的性能状态。当发现业务性能问题时,基于因果分析算法,快速告警并定位故障节点,大幅提高了我行业务性能问题感知和定位能力。

三、项目技术方案
通过此次业务性能监控系统项目,建立云上云下业务全链路的可观测性,基于服务水平、可用性、异常事件、紧急事件等类型的告警,做到智能故障定位。通过监控系统生成的可信数据,帮助应用系统容量规划及性能优化。通过该平台,保障业务连续性、保障业务上云。具体需求和目标如下:
①服务路径监控:对云上云下关键业务系统路径进行全链路监控,实时对交易量、响应时间、响应率、成功率等指标进行监控;
②全链路流量采集:云上云下流量的采集和管理,全流量的采集、过滤、转发;
③多维度业务层指标监控:针对交易类型、交易渠道、机构、返回码等多个维度进行指标分析,让指标数据更具价值;
④数据库旁路监控:通过旁路流量的方式,对我行重要数据进行实时监控,快递定位SQL级别的问题;
⑤实时告警定位:通过对指标的场景化告警和智能算法,1分钟发现问题,2分钟定位问题节点,并能自动化一键分析;
⑥交易追踪:根据流水号、账号等字段来查询单笔交易明细,基于流水号等字段来追踪单笔交易的全链路流转耗时,并支持交易明细报文的展示。
1.总体部署架构
由于网络流量可以贯穿业务系统交互的各个环节,所以,通过网络流量数据,可以进行统一时间戳、统一数据源的进行全链路业务性能监控。
本项目中,分为云内流量采集、传统环境流量采集、业务性能监控等三个层次。流量采集后,集中发送给业务性能监控系统集群,业务性能监控系统对各个环节的流量,进行实时捕获,统一时间戳,集中处理。

2.技术架构

数据采集引擎:对网络流量需要进行实时捕获、存储、解析,基于高性能网卡和驱动,对数据包统一打上纳秒级时间戳,并确保流量的完整性。
自动拓扑发现:基于网络流量的访问关系,梳理业务路径中各网络节点、应用节点的调用拓扑。
智能解码引擎:对通用协议、私有协议等进行实时解析,输出报文的所有字段。
分析引擎:指标的计算、告警的计算。
展示模块:业务性能指标的统一展示。
数据输出模块:性能数据、告警数据推送给第三方平台。
3.功能总体设计
业务性能监控系统能够支持我行长远建设目标,能够实现“分布部署、集中监控”,即采集设备分布部署、集中统一监控分析。
技术方案应包含完整的应用交易性能监控系统的功能,包括实时监控、指标趋势分析、指标统计分析、交易查询、端到端交易追踪、实时告警、故障自动定位等,同时具备可用性及易用性高的特点。
在指标层面,业务性能监控系统能够提供交易量、交易成功率、响应时间、响应率等业务层面的关键指标,并支持基于交易类型、渠道、IP、错误码等多个维度的统计分析,通过对网络数据报文的解码,帮助运维人员迅速了解系统故障对业务造成的实际影响。
4.核心功能场景实现
为了支持我行多数据中心、业务双活等场景,结合私有云区域,本次项目采用了分布式部署的方式。多台业务性能监控服务器部署在多个数据中心,时钟同步,各数据中心服务器单独解析和存储该数据中心的数据,关联处理双活交易数据,再由主节点进行统一的展示和告警。同时,主从节点仅进行统计指标数据的交互和查询,带宽占用底。
为此,采用了一套国内自研的非结构化数据存储系统,解决了银行多中心、数据结构多样性、数据安全性、数据分析实时性、金融自主可控等核心问题,未采用ElasticSearch等开源解决方案。
基于业务路径,构建全链路服务路径监控视图,流处理引擎对路径每个环节的指标进行实时计算,生成交易量、响应时间、响应率、成功率、返回码、返回信息等核心业务性能指标,所有的指标,需基于节点、IP、交易类型、渠道、接口等等维度进行精细化统计。从而建立了业务全路径的实时监控视图,实时展示业务路径每个环节的性能状态。
根据银行的运维特点,将告警方式分为6种:服务水平监测、可用性监测、异常监测、突发变化监测、紧急事件监测、故障定位,通过多场景告警的方式,来匹配不同的业务系统运维场景。通过交易量、交易响应时间、交易响应率、交易成功率等指标,多条件组合的方式,让告警更为人性化且准确。
同时,在告警的时候,快速对告警信息进行自动化分析,例如不同的IP、交易类型、渠道等受影响的层度,进行告警信息的归纳和关联,大幅提高了告警的分析效率,简单说,就是将人工分析的过程进展了智能化处理。
基于底层流量数据,构建覆盖云上渠道系统、云下外联系统、容器化网关和新核心系统的全局监控视图,结合场景化的告警,能快速的发现问题、定位问题。
四、项目过程管理

五、运营情况
在该项目建设完成后,对我行新核心、集中式网关、网点面客、二代支付、农信银、贷记卡、收单、信贷等等重要业务系统进行实时监控,在近半年的使用中,保障了我新系统的上线过程,发现业务系统问题月均10次以上,已经是我行业务系统稳定运行的关键保障类工具。当前,我行正在对该平台监控范围进行扩展、告警指标持续优化、持续进行培训交付中。
案例一:我行新核心上线前期压测中,多次发现性能问题,能定位到具体组件、微服务、交易类型、错误信息,结合平台的监控数据,开发人员针对性的对系统进行调优,从而确保了新核心能顺利投产。
案例二:单笔交易的追踪功能,在系统使用过程中,通过业务层全局流水号,追踪单笔交易在POD之间的流转过程,从而实现了基于业务字段的微服务间流转路径追踪功能,且能基于账号、交易类型等业务字段来进行过滤,完善了开源Tracing技术主要关注追踪span,无法还原全量交易细节的问题,我行通过该功能,多次定位了某特定交易类型,在某个微服务实例上处理延迟的问题。
六、项目成效
系统上线之后,我行形成了业务系统实时监控、定位、故障域分析、取证的四步走分析方法。


形成了业务总览、运维监控、专家分析等三个角度的业务全链路监控视角。

在新业务上线或上云过程中,通过业务性能监控系统,在不同交易量的情况下对比系统性能指标,通过对交易量、交易响应时间、交易响应率等指标进行监控。及时定位和分析问题,发现交易性能下降时,同时定位节点;分析受影响最大的交易类型,发现性能低下的SQL。持续优化和验证,持续验证、优化,确保万事俱备,从容应对。过程如下:
梳理服务架构,建立运行指标基准和SLO(服务水平目标);
基于实时与历史指标的监控与分析,并实时告警和故障定位,建立监控的神经网络;
基于监控数据对业务进行优化和加固,确保业务持续性和体验;
通过持续监控和报表对业务运行情况进行持续观察和评估。
通过全链路业务性能监控系统的采集和解码,除了满足业务性能监控需求,也能为外部系统提供全量、实时、准确的业务数据。针对智能运维监控、运营科技等场景进行快速对接,为我行后续金融科技创新提供了有力的数据源。
七、经验总结
通过本项目,基于保障“核心系统群”上线、保障重要业务系统连续性的核心目标,我们从技术路线选择、项目落地、项目运营等各个方面均积累的一定的经验。
1.技术路线选择
技术实现方式,必须具备可落地性和先进性,我行新系统大量采用分布式、微服务、国产化等技术,因此监控平台必须具备成熟的解决方案以及高效的部署的能力,能快速适配新技术的同时,还需具备良好的稳定性,因此该技术方案是否在大行具备成熟案例、是否具备技术前瞻性等都是项目路线选择的关键。
2.项目实施
项目启动前,需要做好监控体系建设的顶层设计,制定明确且可行的项目目标,充分了解运维痛点,明确项目边界。在项目实施过程中,需要与合作厂商、行方各部门做好充分的沟通,做好技术层面的适配。良好的沟通,能极大提高项目可落地性。
3.项目运营
深度的技术培训和技术转移,从平台的基本操作,到技术原理,必须充分了解,设置专职人员来对系统进行维护,让平台功能能顺利融入我行运维流程。平台功能上,需要充分考虑后期维护的便捷性,在使用过程中,需要对平台进行持续优化,应对业务运维的新场景和需求。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
金融科技如何支持普惠金融发展?40余项创新应用或给出答案
普惠金融,是“五篇大文章”之一。对于普惠金融所包含的服务对象来说,目前仍存在获取金融服务难等问题。做好“普惠金融”这篇文章,或需要金融科技的助力。前央行行长周小川早在2016年就指出,普惠金融强调运用新的信息技术实现普惠。那么,银行的普惠金融到底运用了哪些技术?或可通过银行申请的金融科技创新应用进行了解。
银行科技研究社
木子剑
2026-03-24
胡震:构建数字金融服务生态,探索数字化转型新路径
为贯彻落实《国务院关于全面推进乡村振兴加快农业农村现代化的意见》总体部署,全面推进乡村振兴,进一步加大支农惠农力度,有效支持当地畜牧业发展,切实解决畜牧经营主体融资难、融资贵及担保难问题。
金融电子化
胡震
2026-03-24
工商银行发布 | 《商业银行人工智能应用实践及趋势展望》
银行业人工智能应用路在何方?近日,工商银行金融科技研究院发布《商业银行人工智能应用实践及趋势展望》,从五大方面对人工智能应用进行了深度剖析。
轻金融
中国工商银行金融科技研究院
2026-03-24
中信建投证券:基于AI大模型的多智能体技术在投顾领域的应用案例
该案例以大语言模型为核心,融合 RAG、Agent技术,构建“主 Agent+子Agent”架构,覆盖投顾全场景,包含个股分析助手、策略分析助手、产品分析助手。亮点包括:技术上实现知识可溯源与复杂任务规划;业务上赋能B端投顾效率、C端个性化服务;实施上分阶段落地,配套三级评测与合规体系;商业模式探索C端增值服务与B端技术输出。重点打造可信可控的智能投顾平台,推动证券投顾AI智能化转型,该平台服务于总部投资顾问,为行业首批实现案例。
鑫智奖·2025第六届金融机构数智化转型优秀案例评选
中信建投证券
2026-03-24
商业银行内控合规管理数字化转型路径探析
商业银行内控合规管理数字化转型可以有效提高商业银行全面风险管理水平。商业银行应基于现有风控系统,通过优化模型规则,提升数据质量,配套对接内部业务系统,充分发掘数据潜能,强化系统刚性管控等,加快构建更加全面、精准、开放、前瞻的数字化智能内控合规管理体系。
中国银行业杂志
刘振宇
2026-03-24
北银金科:金融操作系统智能化软件测试体系建设
智能化软件测试基于金融操作系统"五个统一"原则的系统设计,深度整合测试资源,构建全链路测试流程与资产复用体系,在保障系统稳定性的同时显著降低测试成本,形成可插拔的智能测试组件生态。
鑫智奖·2025第七届金融数据智能优秀解决方案评选
北银金科
2026-03-24
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构