国泰海通证券：基于AI Agent的金融云平台全场景运维决策机制研究

本文来源于：鑫智奖·2025第六届金融机构数智化转型优秀案例评选，作者：国泰海通证券

2025-06-11 关键词：基础设施,数字化转型,金融服务5256

一、项目背景及目标

随着金融信创推进与云原生技术普及，国泰海通金融云资源规模与运维复杂度显著提升，微服务化架构下的云网流量、日志数据呈爆发式增长，传统人工运维模式面临多重挑战：海量数据中异常风险排查效率低下，云主机性能波动、网络链路故障等问题依赖人工经验逐层诊断，定界周期长；云服务配置、知识库查询等操作需专业知识，用户自助能力不足，加剧运维团队负荷。与此同时，金融行业对云平台稳定性、安全性的严苛要求，迫切需要智能化技术推动运维从 “被动响应” 向 “主动预防” 转型。

在此背景下，项目依托大模型Agent技术能力，立项开发 “基于AI Agent的金融云平台全场景运维决策机制”，旨在构建覆盖云资源智能巡检、云网流量风险分析、故障快速诊断及智能交互的全链路运维体系。目标通过大模型自动化分析能力，实现云资源核心指标智能巡检与异常流量过滤，缩短故障定位时间；集成自然语言交互与工具调用功能，降低操作门槛，形成 “监测 - 分析 - 处置” 闭环，提升运维响应效率 50% 以上，降低人工成本，同时为金融行业提供可复用的智能化运维范本，推动信创环境下云平台管理能力升级。

二、创新点

1.多模态监控数据融合的全链路运维分析架构

构建云基础资源视图、实时性能指标、流量日志的多维度数据融合体系，通过大模型算法挖掘云主机 CPU 利用率、Pod 异常数量、跨区域流量等数据间的隐性关联。例如，将集群状态、磁盘吞吐量与历史基线动态匹配，生成资源亚健康风险评分，实现对 Redis 集群主备复制异常、SmartX 资源池节点故障等隐蔽问题的预判。该架构突破传统单点阈值告警模式，形成 “全域数据采集 - 关联分析 - 风险建模” 的可观测性底座，为智能化运维提供统一数据支撑。

2.基于大模型 Agent 的工具协同决策机制

引入大模型 Agent 技术，通过 RAG（检索增强生成）整合云平台知识库与实时运维数据，结合工作流引擎构建 “自然语言意图解析 - 工具链动态调用 - 执行结果反馈” 闭环。当用户查询 “云主机性能异常” 时，Agent 自动触发 CPU / 内存指标分析、网络流量诊断等工具接口，实现多系统协同操作。该机制突破传统运维工具碎片化调用瓶颈，通过模型自主决策优化工具匹配策略，例如优先调用历史成功率高的诊断模块，将问题处理流程自动化覆盖率提升至 30% 以上。

3.自然语言驱动的运维故障定位范式

建立 “自然语言指令 - 多维度数据关联 - 故障快速定界” 的智能化路径，大模型通过语义解析将用户模糊需求（如 “某 IP 访问异常”）转化为拓扑链路追踪、协议层流量分析、防火墙策略校验等结构化操作。以云机异常流量异常场景为例，系统可基于自然语言指令自动关联云机资源情况、流量访问列表与数据，快速定位测试环境权限未回收、异常请求持续发送等风险点，可以将故障诊断时间从人工逐层排查压缩至分钟级别，实现从 “现象描述” 到 “根因定位” 的直接映射。

三、项目技术方案

1.技术架构

本项目建设主要围绕三个核心要素展开：数据处理组件、大模型应用组件以及工作流编排组件，三者协同支撑起整个智能运维体系的技术基础与能力闭环。

（1）数据处理组件

该组件以采集器 Agent 为核心，可灵活部署在 Pod、云服务器、虚拟化宿主机、中间件及数据库等多种运行环境中，全面采集各类应用进程的观测性数据。在此基础上，系统还实现了数据标签注入、写入及查询等功能，支撑大规模、多维度的可视化分析服务。经过清洗后的结构化数据，可作为知识推理和工具调用的数据基础，为后续智能分析提供可靠支撑。

（2）大模型应用组件

本组件聚焦于多类型大模型能力的对接，涵盖 LLM、Embedding、Rerank 等模型服务，具备完善的 tool call（工具调用）能力。通过集成多模型融合策略，系统能够灵活调用知识库、执行复杂任务推理，并辅助运维人员完成知识检索、策略生成与故障分析等操作，显著提升人机协同效率。

（3）工作流编排组件

为实现运维知识与经验的标准化表达与自动化落地，该组件支持将大模型节点与工具节点有机编排进统一的工作流中。基于自然语言输入驱动，系统可自动匹配适用的运维规则或流程节点，从而实现面向具体问题的策略下发与任务执行，构建出高度自动化、智能化的运维响应机制。

2.功能架构

该平台整体架构自底向上分为基础模型层、LLMOps 层、工作流引擎层、用户接入层与工具开发侧能力五大模块，通过插件式接口机制灵活接入主流大模型（如 deepseek-R1、deepseek-V3、qwen3 等）及各类工具服务，在 LLMOps 层封装提示词模板、RAG 检索增强与记忆存储能力，降低大模型使用门槛；工作流引擎作为核心枢纽支持模型调用、工具对接、多媒体能力和开放 API 接入，并通过场景编排能力构建如云机性能分析、智能巡检、NAS 端口分析等典型应用，实现运维逻辑的标准化与自动化；用户接入层则通过智能助手形式分别集成至科技服务云和内部 IM 系统，贴合用户使用场景；右侧工具开发区域进一步提供网盘对接、云网数据与指标分析等功能，结合底层数据采集组件提供的可观测性数据，共同构建了一个可扩展、易用、面向实际问题的智能运维Agent闭环。

imageimage1_1749608917.8172436.png

四、项目过程管理

项目各阶段的实施周期项目自上线以来，已完成五期建设。第一期聚焦于Agent应用开发平台的搭建，重点实现与公司内部大模型网关及系统工具的对接；第二期对组内各类运维文档进行系统梳理与上传，并通过清洗与向量化处理构建知识库检索工具，为用户提供结构化知识服务。第三期主要整合云平台各类监控数据指标，并完成在Agent平台的集成上线。第四期结合日常运维经验，开发了包括故障排查与云网络流量分析在内的典型应用场景。第五期完成了与科技服务云、公司IM等系统的集成，面向用户提供服务，同时采集使用日志，以持续优化Agent服务效果与用户体验。

每一期项目的规划流程包括以下阶段：

（1）明确责任人及任务分工，周期约为1周；

（2）开展需求分析与系统部署工作，涵盖架构设计、软件部署与调试，周期约为4周；

（3）进入系统测试阶段，包含功能测试、性能测试、稳定性测试及相关调优，周期约为3周；

（4）开展试运行，初步验收周期为180天。

每一期项目的实施内容包括：

（1）Agent服务的搭建与测试，涵盖数据接入、处理流程的完整性验证；

（2）平台正式上线并向用户开放使用，持续收集运行日志以支撑后续流程优化与迭代改进。

五、运营情况

目前，在云资源场景中的应用主要集中在故障分析、问题下钻与智能巡检等方面，构建了面向风险预警、故障诊断与运维提效的智能支撑体系。在运维风险分析方面，系统已实现基于云资源视图的智能巡检机制，借助大模型能力对重要指标进行自动巡查与总结分析，定期生成系统健康检查任务，及时识别潜在问题并输出建议。同时，结合云网流量数据，通过每小时超过75TB的数据采集与千万级日志处理能力，系统可从复杂流量中自动识别异常访问行为，如服务失联、跨区域异常通信等，显著降低人工排查成本并增强前置风险感知能力。

imageimage2_1749608917.8779123.png

巡检服务

imageimage3_1749608917.9483166.png

数据采集页面

在故障辅助诊断方面，系统实现了云主机与宿主机多维指标联动分析机制，自动判断云主机在计算、网络、存储等资源维度的运行状态，结合性能特征自动生成排查建议，用于加速问题定界；同时，系统具备云网访问链路分析能力，通过对访问路径中各环节的可用性与性能状态进行全面分析，结合大模型推理能力提供可执行的诊断建议，显著提升了故障识别与处理的效率与准确性。

云主机性能分析

imageimage5_1749608918.2525032.png

云网流量分析报告

在日常效率提升方面，已建设面向云用户的科技服务云智能助手，基于文档、知识库整理与结构化处理，结合大模型的语言理解与工具编排能力，辅助用户快速获取操作指引与服务支持；此外，通过对接云平台容量数据接口，系统已实现运维关键数据的自动采集与分析，为资源优化、容量评估及管理策略调整提供数据支撑，进一步提升了日常运维工作的自动化水平与决策效率。

imageimage6_1749608918.3268518.png imageimage7_1749608918.3749588.png

日常知识库运维辅助

imageimage8_1749608918.429116.png

云资源池数据统计问答服务

六、项目成效

该项目在经济效益方面体现出多维度的实际价值，显著提升了运维效率、资源利用率和服务保障能力，降低了企业运营成本。通过构建智能巡检、故障辅助诊断与资源分析机制，有效提升了运维支持的响应速度，能够实现分钟级故障识别与初步定界，较传统方式缩短故障排查时间超过50%，大幅降低因故障长时间未处理造成的业务中断风险。系统对闲置或低效云资源的识别能力，使资源回收更为精准，从而减少不必要的硬件投入与能耗开销，进一步优化云资源池运维结构，提升整体资源使用率。

此外，项目所构建的智能助手和知识驱动的服务支持体系，有效缓解了一线运维人力的服务压力，实现部分问题的自动响应和知识引导，预计可替代约30%的重复性人工支持工作，提升服务团队的工作效率与覆盖能力。同时，通过大模型辅助下的流量分析和访问行为异常检测机制，降低了安全事件发生的概率和应急处理的人力投入，提升了系统稳定性与企业数字基础设施的可持续运营能力。综合来看，该项目为公司实现智能化运维转型提供了坚实支撑，具备良好的经济投入产出比。

七、经验总结

本项目自启动以来，通过多阶段、有节奏的系统建设，在平台搭建、数据融合与智能运维场景应用等方面形成了较为完善的工程经验和方法论。围绕智能巡检、故障分析、访问链路诊断等典型场景，项目成功将大模型能力与监控数据深度融合，在实现数据价值挖掘的同时，显著提升了故障识别的准确性与排查响应速度。尤其是在知识沉淀与运维规则构建方面，通过持续收集运维过程中的高频问题、优化用户交互路径，逐步建立起了可迭代、可扩展的智能辅助体系。平台化、模块化的设计理念亦确保了系统具备良好的可迁移性和复用性，为后续在更广泛的云环境和技术服务体系中推广应用提供坚实支撑。

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。

推荐阅读

安徽农信：基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大，数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中，空调能耗又占到全部能耗的70%，本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中，为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选安徽农信 2025-06-11

胡震：构建数字金融服务生态，探索数字化转型新路径

为贯彻落实《国务院关于全面推进乡村振兴加快农业农村现代化的意见》总体部署，全面推进乡村振兴，进一步加大支农惠农力度，有效支持当地畜牧业发展，切实解决畜牧经营主体融资难、融资贵及担保难问题。

金融电子化胡震 2025-06-11

中信建投证券：基于AI大模型的多智能体技术在投顾领域的应用案例

该案例以大语言模型为核心，融合 RAG、Agent技术，构建“主 Agent+子Agent”架构，覆盖投顾全场景，包含个股分析助手、策略分析助手、产品分析助手。亮点包括：技术上实现知识可溯源与复杂任务规划；业务上赋能B端投顾效率、C端个性化服务；实施上分阶段落地，配套三级评测与合规体系；商业模式探索C端增值服务与B端技术输出。重点打造可信可控的智能投顾平台，推动证券投顾AI智能化转型，该平台服务于总部投资顾问，为行业首批实现案例。

鑫智奖·2025第六届金融机构数智化转型优秀案例评选中信建投证券 2025-06-11

贵阳银行：写好“数字金融”大文章，赋能高质量发展新活力——“超级APP”体系打造

在全国大力发展数字经济，中央对数字金融高质量发展提出新要求，银行业全力推动数字化转型的背景下，贵阳银行聚焦零售线上渠道服务能力的全面升级，围绕“方便、快捷、吸引、依赖、获得”五大核心要求，整合零售条线流量，构建统一获客、统一营销工具，着手打造“线上场景+客户权益+金融服务”的“超级APP”体系，为客户提供触手可及的智能化、一站式综合金融服务。 “超级APP”作为贵州省内首批实现鸿蒙原生应用上架的城市商业银行应用，用户无论在安卓、iOS还是鸿蒙版手机银行上，都能享受到规则一致、体验一致的金融服务。

2024年度城市金融服务优秀案例征集活动贵阳银行 2025-06-11

北银金科：金融操作系统智能化软件测试体系建设

智能化软件测试基于金融操作系统"五个统一"原则的系统设计，深度整合测试资源，构建全链路测试流程与资产复用体系，在保障系统稳定性的同时显著降低测试成本，形成可插拔的智能测试组件生态。

鑫智奖·2025第七届金融数据智能优秀解决方案评选北银金科 2025-06-11

广东农信：自动化测试平台建设项目

随着广东农信的业务快速增长，软件产品的广泛使用，使客户对软件产品质量的要求不断提高，作为软件质量的重要保证，软件测试越来越显示出它的巨大优势。

2019第三届农村中小金融机构科技创新优秀案例评选广东农信 2025-06-11

案例库