本文来源于:选型库,作者:云杉
云杉:DeepFlow 金融核心业务系统可观测性及运维智能体建设方案
2025-07-03 关键词:人工智能,数字化转型,大模型
5724
一、方案概述
随着金融数字化转型的深入推进,银行、证券、保险等金融机构的核心业务系统正面临前所未有的复杂性挑战。云原生改造、分布式架构迁移、信创适配等多种技术路线并存,导致传统运维手段已无法满足金融级稳定性要求。
DeepFlow 基于“可观-可控-全自动”一体化运维新范式,通过零侵扰的全栈可观测性技术和AI智能体,为金融核心业务系统提供从被动响应到主动保障的全方位解决方案。该方案已在人保集团、国泰君安等头部金融机构成功落地,实现了故障平均恢复时间(MTTR)降低70%、系统可用性提升0.42个百分点的显著成效。
二、金融行业的“完全可观测性”困境
1.为什么金融核心系统难以实现完全可观测?
根据《人工智能:现代方法(第四版)》,“完全可观测的环境很容易处理,因为智能体不需要维护任何内部状态来追踪世界。”然而,金融核心系统恰恰面临着可观测性的重大挑战:
灰盒化运维:应用拓扑复杂,组件多样,传统APM工具插桩困难,监控盲点与误报频发;
监控工具割裂:监控、日志、告警、追踪各自为阵,存在严重的数据孤岛问题;
运维经验传承难:依赖个人经验的“人海战术”模式难以标准化和规模化;
未知故障响应不足:常规SOP仅覆盖已知故障场景,对突发事件缺乏针对性策略。
2.金融监管与业务要求
监管合规:满足金融监管对系统可用性、数据安全、审计追溯的严格要求
业务连续性:核心交易系统要求99.99%以上可用性,故障恢复时间窗口极短
成本优化:在保障稳定性的前提下,优化IT资源利用率,降低运维成本
DeepFlow 破局之道:三大原创技术
1.零侵扰采集技术——让可观测性“零负担”
通过融合eBPF、cBPF、Wasm等前沿技术,实现对大规模分布式系统的零侵扰数据采集。这项发表于SIGCOMM 2023会议的技术,解决了传统监控需要修改应用代码的难题,让企业能够在不影响业务的情况下获得全栈可观测性。
技术优势:
无需修改应用代码,避免影响业务性能
支持热加载,无需重启服务即可部署
覆盖应用、系统、网络、存储全栈数据
应用场景:
云上云下全景覆盖,支持信创环境
自动发现服务依赖关系和API调用链路
实时采集性能指标、日志、事件等多维数据
2.思维链状态机技术——让AI推理“不出错”
通过思维链(Chain of Thought)指引,可以解决由大模型推理带来的幻觉问题。然而,随着业务和场景的不断变化,思维链的复杂性呈指数级上升。通过使用基于DFA + NFA的混合状态机技术,可以有效解决思维链复杂性带来的状态空间膨胀问题。
3.自适应感知技术——让资源消耗“最优化”
自适应感知技术实现了推理前感知和推理中感知的混合感知技术。推理前感知技术包括对数据的实时特征提取和分类,推理中感知技术则结合业务场景对数据进行按需的特定特征提取和分类。自适应感知技术使得用户可以在成本和性能之间进行不断优化,避免不可控的算力资源投入。
DeepFlow智能体:实现金融运维的“自主化”

图:DeepFlow 智能体架构图
1.智能体的三大关键要素
DeepFlow智能体通过三大关键要素实现金融运维自主化:
完全可观测的环境:基于零侵扰技术实现全栈数据采集,为智能决策提供完整的环境感知。
可靠的推理机制:采用思维链状态机技术,确保AI推理的准确性和可控性,避免幻觉问题。
量身定制的场景方案:针对金融行业特点深度优化,覆盖分钟级根因分析(1-5-10快速响应)、7×24不间断巡检(主动发现隐患)、一句话问数(自然语言交互)三大核心场景。
通过“感知-推理-学习”的闭环机制,DeepFlow将传统依赖人工经验的被动运维模式,转变为AI驱动的主动保障模式,真正实现了让机器像资深运维专家一样思考和决策,为金融核心业务提供智能化、自主化的运维能力。
2.核心应用场景:创造可量化的业务价值
①分钟级根因分析
基于多维数据实时关联和故障模式匹配,通过知识图谱建立症状、原因、解决方案的关联关系。当故障发生时,智能体自动执行:1分钟定位异常组件,5分钟溯源根因,10分钟提供修复方案。某银行核心支付系统故障案例中,快速识别SSL握手异常并追溯到安全组误删,避免了数千万元损失,将MTTR降低70%。
②不间断巡检
采用时序数据建模和预测性分析,对业务健康度进行全天候监控,主动发现性能退化趋势和潜在隐患。通过故障传播分析和资源依赖分析,实现风险早期预警。某跨境支付系统通过持续巡检,及时发现并跟踪了API超时从5次递增至271次的趋势,预防了900万美元交易的潜在损失,隐患发现效率提升10倍。
③一句话问数
基于多源数据实时整合和自然语言理解技术,通过智能化特征提取和复杂查询自动编写,实现秒级响应。消除技术门槛,支持“当前TPS余量”、“预测资源瓶颈”等自然语言查询。某券商在开盘前12分钟通过询问“系统容量预测”,8分钟内完成Redis扩容,确保了万亿成交量下零故障运行,决策效率提升90%。
五、建设实施路径
1.第一阶段:全栈可观测性建设
目标:解决“看不见”和“看不清”的问题
部署OneAgent采集器,覆盖核心业务系统
构建统一的可观测性数据平台
实现应用性能指标、分布式追踪、日志聚合
建立业务黄金指标体系和告警规则
2.第二阶段:混沌工程与稳态建模
目标:构建“已知问题快速处理”能力
基于混沌工程验证系统稳定性
建立核心场景故障模型库
生成标准化应急处置预案
构建自动化故障演练体系
3.第三阶段:智能体赋能
目标:实现“面向未知情况”的智能处理
部署DeepFlow智能体
定制金融场景推理模型
实现故障自动诊断和修复建议
建立持续学习和优化机制
六、成功案例:金融行业的最佳实践
1.国泰君安证券:基于大模型驱动的云网可观测智能体创新
案例概述
国泰君安证券在数字化转型过程中大规模部署AI大模型训练和推理业务,但面临GPU利用率不足50%、性能瓶颈定位困难、智能算力监控盲区等挑战。传统工具如NVIDIA Nsight无法提供CPU函数调用栈,PyTorch Profiler需要侵入式插桩且性能影响大。为解决这一难题,国泰君安与云杉联合开展金融科技创新研究,构建基于大模型驱动的云网可观测智能体。
应用成果
项目通过四大创新实现突破:一是利用eBPF技术实现零侵扰的GPU持续剖析,无需修改代码即可热加载部署;二是首创CPU+GPU全栈追踪能力,通过Frame Pointer、DWARF等机制获取完整调用栈;三是部署智能分析Agent,使用公司自有通义大模型进行故障智能分析;四是实现毫秒级性能瓶颈定位。
部署云网可观测智能体Agent,实现GPU资源池100%监控覆盖
利用eBPF技术实现零侵扰的GPU持续剖析能力
开发CPU+GPU全栈持续剖析能力,解决大模型训练中的性能瓶颈定位难题
基于自有通义大模型构建智能分析Agent总结
该项目开创了金融行业智能算力可观测性的先河,不仅解决了大模型应用的性能优化难题,更为金融科技创新提供了坚实的技术保障。通过原创的零侵扰剖析技术和AI驱动的智能分析,实现了从“看不见GPU瓶颈”到“精准优化每个函数”的跨越,为行业树立了GPU资源高效利用的标杆。
2.人保信息科技:构建集团级“可视-维稳-智能”一体化平台
案例概述
人保信息科技作为人保集团全资科技公司,承担着为集团及财险、寿险、健康险等多个子公司提供IT服务的重任。面对万量级容器云主机的复杂环境,各子公司因业务特点差异导致云原生改造、分布式架构、传统迁移等多种技术路线并存,原有监控工具各自为阵形成数据孤岛,跨团队协作效率低下。为破解这一困局,人保科技基于DeepFlow构建“可视-维稳-智能”三阶段运维体系。
应用成果
项目分三阶段推进:第一阶段通过eBPF零侵扰技术实现万量级节点全链路透视,将追踪覆盖度提升5倍,彻底解决“看不见”问题;第二阶段结合混沌工程构建近50类场景稳态模型,生成标准化应急预案,实现已知问题快速处理;第三阶段部署运维智能体,基于评测与反思的强化学习,实现7×24持续巡检和故障自动恢复。
故障恢复时间(MTTR)降低70%,实现1-5-10分钟快速恢复;
系统可用性提升0.42个百分点达99.95%;
告警噪声率减少60%;
链路追踪覆盖率从20%提升至100%;
年节省千万级基础设施投入,运维人效提升30%。
总结
该项目成功验证了“数据+算法+自动化”三位一体的新型IT生产力范式,为保险行业构筑了竞争新优势。通过AI驱动的全栈可观测性体系,人保科技不仅大幅提升了集团IT运维效率,更重要的是形成了可复制、可推广的智能运维标准,加速了保险业务的数字化、智能化进程。
七、总结
DeepFlow金融核心业务系统可观测性及运维智能体方案,通过将原创的零侵扰采集、思维链状态机、自适应感知等技术与可观测性场景融合,为金融机构提供了从“看得见”到“管得住”再到“自动化”的完整智能运维能力。该方案不仅解决了当前金融IT运维的痛点,更为未来智能化运维转型奠定了坚实基础。
选择DeepFlow,让金融核心业务在数字化转型的征途上行稳致远。
云杉简介
云杉成立于2011年12月,为企业提供自主研发的可观测性产品,消除IT系统运营的技术代差,保障客户核心业务的稳定与自主运行。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2025-07-03
胡震:构建数字金融服务生态,探索数字化转型新路径
为贯彻落实《国务院关于全面推进乡村振兴加快农业农村现代化的意见》总体部署,全面推进乡村振兴,进一步加大支农惠农力度,有效支持当地畜牧业发展,切实解决畜牧经营主体融资难、融资贵及担保难问题。
金融电子化
胡震
2025-07-03
腾讯云:天御金融风控大模型解决方案
天御金融风控大模型,融合了腾讯安全20多年黑灰产对抗过程中所积累的海量风控知识与多场景风控模型能力,吃百家饭,学百家艺,通过大量预训练与知识蒸馏方式,帮助金融机构根据自身信贷场景特点与产品客群特征,快速构建定制化的反欺诈风控模型。
2024年“鑫智奖”第六届金融数据智能优秀解决方案评选
腾讯安全
2025-07-03
中信建投证券:基于AI大模型的多智能体技术在投顾领域的应用案例
该案例以大语言模型为核心,融合 RAG、Agent技术,构建“主 Agent+子Agent”架构,覆盖投顾全场景,包含个股分析助手、策略分析助手、产品分析助手。亮点包括:技术上实现知识可溯源与复杂任务规划;业务上赋能B端投顾效率、C端个性化服务;实施上分阶段落地,配套三级评测与合规体系;商业模式探索C端增值服务与B端技术输出。重点打造可信可控的智能投顾平台,推动证券投顾AI智能化转型,该平台服务于总部投资顾问,为行业首批实现案例。
鑫智奖·2025第六届金融机构数智化转型优秀案例评选
中信建投证券
2025-07-03
北银金科:金融操作系统智能化软件测试体系建设
智能化软件测试基于金融操作系统"五个统一"原则的系统设计,深度整合测试资源,构建全链路测试流程与资产复用体系,在保障系统稳定性的同时显著降低测试成本,形成可插拔的智能测试组件生态。
鑫智奖·2025第七届金融数据智能优秀解决方案评选
北银金科
2025-07-03
南京银行:AI应用探索与创新实践
近年来,伴随AI技术的快速发展,智能化为推动银行业务变革与数字化转型提供了全新动力,尤其在优化业务流程、提高运营效率、提升客户体验、强化风险防控等方面发挥着重要作用。例如,基于智能化的算法设计、AI技术广泛应用于电话银行、网上银行、手机银行等渠道,甚至在某些特定场景中,智能客服机器人已基本可实现对答如流。顺应这一趋势,南京银行在全方位强化AI布局的基础上,深入开展了数字员工营业厅建设实践,并终取得了良好成效。
中国金融电脑+
张银川 王桂庆
2025-07-03
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构