本文来源于:2025年度农村金融机构科技创新优秀案例评选,作者:常熟农商银行

常熟农商银行:基于可观测的一体化运维体系建设

2025-10-13 关键词:运维管理,数字化转型,金融科技3040

一、项目背景


随着业务的迅猛发展,信息系统建设持续深入,系统规模逐步扩张,其所依托的服务器数量不断增多。此外,微服务架构应用系统的占比日益增大,在使业务承载能力显著提高的同时,系统的高度复杂性也给系统运维工作带来了严峻挑战,传统的手工操作运维模式,已难以切实满足日常系统运维工作的实际需求。


微服务架构系统与传统架构系统相比,具有部署节点众多、组件/服务繁多、关联资源配置丰富、涉及的开源软件/中间件多样、各个组件/服务之间的依赖关系极为复杂、网络访问关系繁杂等特点。基于这些系统特性,一旦出现故障或性能问题,通常难以进行排查定位,同时也给微服务相关的日常运维工作造成极大困难,对运维团队的经验和技能要求极高,且难以实现高效运维。


在长期的科技运营进程中,为确保系统的稳定运行,各方面的监控及辅助工具建设已基本相对完善。然而,由于各工具平台存在异构化及烟囱式建设的客观情况,致使难以实现通过各工具的有效协作来提升运维工作效率的目标。


为提升运维效率,增强问题定位及故障预警能力,化解微服务架构系统运维过程中的痛点与难点,充分发挥现有各工具平台在科技运营中的有效协同作用刻不容缓。


二、创新点


1.构建可视化运维体系


通过图形化的形式,勾勒出应用与服务、服务与软件、软件与硬件、硬件与网络等各资源间的关系和依赖,并融合各类运维数据,以全局视角进行汇聚呈现,洞察系统整体运行状况,实时展示应用系统运行状态,为系统运维提供更完整的运维视图及更全面的运维数据。


结合应用日志及CMDB基础数据,实现完全以数据驱动的关系感知、架构感知、链路感知、交易追踪、事件汇聚、历史回溯、应用大屏等可视化运维场景。


2.打造一站式运维模式


应用系统日常运营过程中,涉及日志分析、交易监控、数据库监控、中间件监控、基础资源监控、网络监控、告警事件管理、系统变更、日常运维操作、定时自动作业等各种信息,并分散在不同的运维工具上,运维过程中很难快速全面的掌握这些信息,导致问题处理中需要大量的人员分别登陆不同工具进行排查,费时费力,且效率不高。


为解决运维效率低痛点,在各工具运维数据汇聚融合基础上,构建以应用系统为中心的一站式运维模式,将资源架构、调用关系、告警事件、监控指标、交易情况、变更记录、堡垒机记录、巡检情况、定时任务执行情况等,以应用系统为中心进行汇聚分类呈现,为运维人员提供一站式全方位运维信息,帮助快速进行问题分析定位。


3.挖掘应用日志运维价值


应用运行日志在日常运维工作中起着至关重要的作用,为事后追溯、问题排查分析提供重要数据依据,但繁杂多样的日志格式及内容,使得很难通过技术手段充分挖掘日志数据的巨大潜在运维价值。


通过对应用日志的规范化,再经过日志分析平台的加工、清洗,提取出各种维度的链路关系,为实现完全数据驱动的调用关系可视化提供数据支撑,也为日常日志数据的检索排查提供了极大便利。


4.多工具平台有效融合


构建运维数据中台,打通各种工具平台,实现基于依赖及内在关联的各类运维数据的有效汇聚融合。鉴于各工具平台运行架构及功能作用各不相同,其开放能力及数据标准也存在巨大差异,为保证各工具数据的融合汇聚,使得平台需具备强大的异构化适配、灵活的数据加工清洗及结构化的指标管理能力。


三、项目技术方案


常熟农商行于2022年4月完成了新一代微服务架构核心系统上线,考虑到微服务架构系统运维的高度复杂性,核心项目启动初期即通过各种技术专题对数据进行标准化规范化,特别是应用日志及全局流水号的规范化为实现完全数据驱动的调用链奠定坚实基础。


通过对应用日志的加工、清洗、组装,提取出系统间调用链路、服务间调用关系、接口间调用关系、交易路径、业务路径、具体交易在各服务器间的流转链路等信息。


通过agent或互信方式完成对服务器操作系统级别纳管,进行脚本标准化、运维操作标准化、软件安装标准化、巡检指标标准化等,通过批量调度、批量作业,完成标准运维操作、软件安装、基线检查、异常监测、自动化巡检等运维场景,提高基础运维工作效率、降低操作风险。


通过自动发现、自动采集、数据同步、手工录入等方式,进行软件、硬件、系统、服务、网络等资源及其配置信息的集中纳管,进行资源间关联关系自动构建。作为关系中枢,打通工具平台间内在联系。以应用系统为中心,进行全链路资源关联关系构建。


imageimage1_1760347778.0995483.png


通过构建运维数据中心、可视化中心、服务中心、场景拓展中心能力,进行工具平台及运维数据的有效融合,建设运维大中台,打造可视化运维体系。


imageimage2_1760347778.1396894.png


四、项目过程管理


需求分析阶段:2023.07.07-2023.08.15


设计阶段:2023.08.16-2023.09.17


开发阶段:2023.09.18-2024.01.22 测试阶段:2024.01.23-2024.03.09


系统投产上线:2024.3.10


五、运营情况


常熟农商行一体化运维体系,已打通现有10多个运维工具平台,并实现多种运维数据的汇聚融合;已通过应用日志抽取出80多套系统间的调用链关系,日均生成链路节点数据1.3亿条左右;已完成生产环境几乎全部服务器纳管(5000+台);并通过CMDB完成230+套应用系统全链路资源关联关系构建。


已推广并初步实现230多套应用系统运维可视化。


六、项目成效


1.全局级应用拓扑


以全局视角,进行全方位、多维度的状态汇聚,整体呈现系统运行状况、调用关系、健康状态、告警情况。



imageimage3_1760347778.1935184.png


2.一站式运维


以应用系统为中心,将散落在各工具平台上的资源架构、调用关系、告警事件、监控指标、交易情况、变更记录、堡垒机记录、巡检情况、定时任务执行情况等运维数据汇聚分类呈现,为运维人员提供一站式全方位的完整运维视图,帮助快速进行问题分析定位、随时完整掌握应用系统运行状况。


imageimage4_1760347778.5253167.png


3.关系感知


应用系统间关联关系、应用服务间关联关系、资源间关联关系等,进行可视化拓扑,并支持逐级下钻。


imageimage5_1760347778.554594.png

某应用系统关联外围系统关系拓扑


imageimage6_1760347778.5978248.png

某应用系统服务间调用关系拓扑


imageimage7_1760347778.6423426.png

某服务器与相关资源间关联关系拓扑


4.架构感知


自动发现并构建应用相关服务、证书、数据库、中间件、服务器、网络负载、硬件设备等资源间的关联关系,汇聚各工具平台监控指标数据及告警事件,进行多维度、不同视角拓扑呈现,无须分别登录多种运维工具即可查看各类数据即时及历史趋势情况。


imageimage8_1760347778.6767037.png

某应用系统全链路资源架构(概览)


imageimage9_1760347778.9704692.png

全链路资源架构(明细)


imageimage10_1760347779.038562.png

某应用服务关联资源架构


5.链路感知


通过应用日志,自动分析提取出应用调用链路及业务运行链路并进行拓扑展示,以可视化的方式帮助科技人员降低应用系统的掌握门槛,故障处理过程中帮助快速判断影响范围。


imageimage11_1760347779.1439068.png

手机银行发起的资产负债查询业务运行链路


6.历史回溯


回溯历史各时点下的整体运行状态及各种运维数据,保留现场,帮助复盘分析排查。


imageimage12_1760347779.2092934.png


7.事件汇聚


各种告警事件依据应用系统全链路资源关联关系分类汇聚,反映到应用健康状态,并进行大屏展示,全面直观呈现告警事件对系统运行的影响情况。


imageimage13_1760347779.4676144.png


imageimage14_1760347779.5039399.png


8.交易追踪


打通统一日志分析平台,根据关键信息搜索运行节点,直接调取完整业务日志详情,图形化调用链路,异常节点高亮,结合APM提取相关SQL/No SQL、运行堆栈、代码级运行链路等信息,无须分别登录多种运维工具,大幅节省跨系统分析排查时间,降低使用成本,大幅提高日常交易跟踪分析工作效率。


imageimage15_1760347780.1141136.png

根据流水进行交易追踪


imageimage16_1760347780.4297438.png

根据交易报文进行交易追踪


9.应用大屏


全行所有在线的300多个应用系统以应用墙的形式分类展现,综合系统相关各资源事件情况进行健康度计算,异常情况根据健康等级设置不同颜色高亮提醒,异常系统前置显示;展示应用调用关系及动态流向;展示资源拓扑及未关闭事件清单;


imageimage17_1760347780.4750078.png


imageimage18_1760347782.225086.png


七、经验总结


常熟农商行已基本形成了以可观测运维平台为中心、标准化运维平台、资源配置管理平台、统一日志分析平台为基座,其他各外围工具平台为基础的自动化运维体系。随着平台建设的不断深入及推广力度的不断加大,将可实现全系统级的运维可视化,运维标准化率大幅提升,届时各方面的价值将得到充分展现。


1.业务价值


提高业务响应效率。随着系统复杂度的不断提高,问题的排查处理难度也在逐渐加大,伴随而来的将是问题反馈效率的降低。平台帮助运维人员快速进行多系统间的问题排查分析,从而大幅提高问题处理效率。


保障业务连续性。通过帮助提升故障定位处理效率,缩短业务中断时间;通过加强重要资源、隐患、指标的监测,降低故障发生率。


2.组织价值


风险管控。通过对运维操作的标准化落地,及运维操作指令、范围的事前审批,实现操作风险管控;通过应用系统的运营可视化,降低入门门槛,在人员流动时,帮助实现无缝衔接,做到系统运行风险管控;同时,通过降低对特定人员的依赖,实现人员风险管控


决策支撑。通过运营可视化,全方位掌握系统整体运行状况、关联关系、影响范围。


提升人员价值。通过运维的不断标准化及运维场景的不断拓展,将人员从大量重复低效的运维工作中解放出来,以更多的时间和精力投入其他工作或进行自我价值提升。


助力人员转型。促进人员结构优化,助力实现运维操作、运维开发、运维分析、运维专家的阶梯型人员转型机制。


促进组织转型。促进传统操作运维模式向高效的研发运维模式转型,促进组织由被动支撑运维向主动技术运营转型。


促进工具平台一体化。打破工具平台烟囱式建设模式,充分挖掘发挥已有工具平台效能。


3.科技价值


提高基础运维效率。传统需要几个月甚至半年以上的时间处理的基础运维工作,通过自动化运维1个小时内即可完成,大幅提高效率的同时也节约了大量人力资源成本的投入,避免了各种人工操作风险的发生。


提高应用运维效率。通过运维可视化、全链路交易追踪分析快速进行多系统间排查定位,打通各外围工具平台,一站式全方位掌握各种重要运维数据,帮助快速进行判断决策。


降低运维操作风险。建立统一的运维操作标准,并将操作指令、操作范围纳入事前审批流程,大幅提高运维操作效率的同时,也极大限度的降低了操作风险。


提升运维能力。随着系统复杂度的不断提高,传统的运维方式已基本无法满足运维工作的实际需要,打破运营过程中各工具平台烟囱式工作模式,实现各种运维数据的汇聚融合,进行一站式可视化运维,并解决微服务架构系统运维的难点、痛点,结合智能分析、异常监测、趋势分析等,提高问题定位能力及故障预警能力。


赋能系统研发。随着业务的不断发展,系统的数量在不断增多,业务处理逻辑的复杂度也在不断提高,以及人员不断流动的客观因素存在,使得一个研发人员需要负责多个不同的系统,受限于个人的精力和经验,很难对所负责系统做到深入的了解和掌握。通过系统的运营可视化,帮助研发人员快速全面掌握所负责系统,随时全方位了解运行状况,降低系统入门门槛,同时,通过标准化降低研发人员系统运营相关需求的开发负担。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

金融科技如何支持普惠金融发展?40余项创新应用或给出答案

普惠金融,是“五篇大文章”之一。对于普惠金融所包含的服务对象来说,目前仍存在获取金融服务难等问题。做好“普惠金融”这篇文章,或需要金融科技的助力。前央行行长周小川早在2016年就指出,普惠金融强调运用新的信息技术实现普惠。那么,银行的普惠金融到底运用了哪些技术?或可通过银行申请的金融科技创新应用进行了解。

银行科技研究社 木子剑 2025-10-13

胡震:构建数字金融服务生态,探索数字化转型新路径

为贯彻落实《国务院关于全面推进乡村振兴加快农业农村现代化的意见》总体部署,全面推进乡村振兴,进一步加大支农惠农力度,有效支持当地畜牧业发展,切实解决畜牧经营主体融资难、融资贵及担保难问题。

金融电子化 胡震 2025-10-13

工商银行发布 | 《商业银行人工智能应用实践及趋势展望》

银行业人工智能应用路在何方?近日,工商银行金融科技研究院发布《商业银行人工智能应用实践及趋势展望》,从五大方面对人工智能应用进行了深度剖析。

轻金融 中国工商银行金融科技研究院 2025-10-13

中信建投证券:基于AI大模型的多智能体技术在投顾领域的应用案例

该案例以大语言模型为核心,融合 RAG、Agent技术,构建“主 Agent+子Agent”架构,覆盖投顾全场景,包含个股分析助手、策略分析助手、产品分析助手。亮点包括:技术上实现知识可溯源与复杂任务规划;业务上赋能B端投顾效率、C端个性化服务;实施上分阶段落地,配套三级评测与合规体系;商业模式探索C端增值服务与B端技术输出。重点打造可信可控的智能投顾平台,推动证券投顾AI智能化转型,该平台服务于总部投资顾问,为行业首批实现案例。

鑫智奖·2025第六届金融机构数智化转型优秀案例评选 中信建投证券 2025-10-13

商业银行内控合规管理数字化转型路径探析

商业银行内控合规管理数字化转型可以有效提高商业银行全面风险管理水平。商业银行应基于现有风控系统,通过优化模型规则,提升数据质量,配套对接内部业务系统,充分发掘数据潜能,强化系统刚性管控等,加快构建更加全面、精准、开放、前瞻的数字化智能内控合规管理体系。

中国银行业杂志 刘振宇 2025-10-13

北银金科:金融操作系统智能化软件测试体系建设

智能化软件测试基于金融操作系统"五个统一"原则的系统设计,深度整合测试资源,构建全链路测试流程与资产复用体系,在保障系统稳定性的同时显著降低测试成本,形成可插拔的智能测试组件生态。

鑫智奖·2025第七届金融数据智能优秀解决方案评选 北银金科 2025-10-13

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 数字化转型
  • 运维管理
  • 金融科技

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构