本文来源于:鑫智奖·2024第五届金融机构数智化转型优秀案例评选,作者:国泰君安证券

国泰君安证券:面向一云多芯的智能云网全景可观测系统建设

2024-06-12 关键词:基础设施,证券,运维1237

一、项目背景及目标


随着深沪股市交易的持续活跃,市场成交金额的持续放大,证券市场快速发展和扩大对外开放,极大增加了公司的业务处理量,这些变化使公司的数据中心环境规模不断增大。同时,随着业务的快速发展,应用系统云化、容器化部署的脚步也在不断加快。如何在复杂的云基础设施及云原生环境下保障应用系统可靠稳定运行、减少故障修复时间成为运维中面临的难题。


为解决云网络的“黑盒”,需要在一云多芯环境建立云网络内的流量全景视图和运维、运营、安全管理机制;同时为降低可观测性平台的运维复杂度,需要在容器环境中建设面向云原生业务的高度自动化的可观测性平台,为云原生应用提供量身打造的全栈、全链路、高性能数据。为促进完善公司金融云的管理,为云上应用提供更优质的服务,对云网全景流量数据服务系统架构设计需实现以下目标:


(1) 以租户为核心:与公司一云多芯的异构云平台可以进行对接联动,调用不同异构云平台的数据接口,自动感知各环境内租户内的业务,实现以租户为核心的网络流量分析。同时设置各租户只能查看

自己权限内的资源,由管理侧下放租户视图授权,进行租户内网络性能指标分析。 


(2) 精细化的数据采集和控制:从流量引取、流量采集、数据存储等多个细分环节,实现由用户自主掌控的能力,并可以对云网内不同类型的流量进行精细化的采集和管理。


(3) 运维排障分析:针对精细化采集的数据流量,支持用户对其可以进行离线数据的回溯,对常见网络流量和应用特征类型进行提取,并可以进行直观的展示,完成从物理网络到虚拟网络的端到端全栈调用链追踪和诊断。


(4) 统一对外接口:针对企业内部的个性化需求,如一体化监控等,可以实现灵活的对接,按需将流量分发给不同的数据需求部门以及对应的分析工具,实现云网的统一监控。


(5) 数据可量化:针对数据,可以多维度、数据化、证据链、可视化展现网络中的不同指标,平台实现了对异常网络事件的量化功能;同时,结合历史数据,可对目前云平台中云主机、宿主机、容器等不同网络流量的视角,分析不同层次的运行情况。


(6) 数据PAAS平台:可作为云网环境大数据平台,经过全网流量的采集,通过标准数据API,企业可以自行对底层数据进行查询、业务逻辑处理、封装,自主开发数据应用。


(7) 采集器、数据节点组件灵活扩展:满足云数据中心流量规模日益增长的需求,分析器、采集器软件可灵活横向扩展,支撑云网全景流量数据服务系统稳定运行。


二、创新点


1. 采集数据统一的标签注入能力,解决数据孤岛的痛点:帮助解决各观测工具指标相互割裂、Tag不统一导致无法高效串联排查的问题,提高故障收敛速度。


2. 标准的数据输出能力,使多部门协同使用统一的观测数据:为所有观测数据提供统一的标准SQL查询能力,使得不同部门均可以在同一维度、低代价地消费不同观测工具中的数据,提高海量数据相互补齐、关联、协同的便捷性。


3. 零插桩的分布式调用链追踪:无需修改应用代码、无需注入 TraceID、SpanID 即可实现分布式追踪,支持任意语言的应用程序,并完整覆盖网关、服务网格、数据库、消息队列、DNS、网卡等各类基础设施,不留下任何追踪盲点。全栈,自动采集每个 Span 关联的网络性能指标和文件读写事件。


4. 业务资源池网络+应用一体化联动分析:实现从网络到应用的多角度快速联动剖析、全栈路径追踪对比分析和分布式调用链追踪;从应用调用到网络数据包时序图分析。


5. WASM Plugin插件式扩展能力:在证券行业中,核心交易系统中往往涉及私有协议(如恒生T2/T3、金证、顶点等),这些私有协议文档安全保密性强,无法对外提供数据字典,从外部实现证券行业私有协议的数据解析、可视化分析挑战极大。WASM Plugin方案,能够扩展DeepFlow Agent对于证券行业私有协议的解析能力,并实现特定字段(如功能号、error_no等)的提取与识别,以此刻画面向业务的服务质量、服务成功率等性能指标。


三、项目技术方案


1.技术架构


本项目建设云网全景流量数据服务系统包含三个核心组件,面向云原生环境,直接采用云环境进行部署扩展,已适配公司金融云一云多芯云平台底座、云原生中间件底座、多语言开发的应用服务等不同系统。


 国1.png

(1) 采集器Agent

采集器Agent以不同形态运行于 Serverless Pod、云服务器、虚拟化宿主机、中间件、数据库等环境中,采集这些环境中所有应用进程的观测数据。

基于零侵扰采集全网云原生应用的Metrics(指标)、Tracing(追踪)及Logging(日志)观测数据,以及函数粒度的持续性能剖析数据。

能够与OpenStack、VMware等各大主流虚拟化或信创云平台标准开放接口集成,实现云平台网络、资源和位置关系的关联映射。

支持VSS/VDS、Open vSwitch、Linux Bridge等各种虚拟交换设备,论用户环境是否有采用第三方SDN方案均能够实现平台对接和网络流量采集工作。

可收集主流开源 Agent、SDK 的观测数据,例如 Prometheus、OpenTelemetry、SkyWalking、Pyroscope 等。


(2) 数据节点

数据节点Server 运行在一个 K8s 集群中,提供数据标签注入、数据写入、数据查询等海量可观测性数据多维度可视化服务。

自动为所有观测数据注入统一的属性标签,包括云资源、K8s 容器资源、K8s Label/Annotation、CMDB 中的业务属性等。

通过将少量预先编码的元标签注入数据中,并将大部分标签与观测信号分开存储,大幅降低了存储成本。

通过自动的关联查询机制,提升了数据查询效率,让用户获得在大宽表(BigTable)上查询的体验。


(3) 控制器

统一管理多点多地的各类采集器和数据节点,主、备、从控制器按需部署为平台提供统一的控制接入点,集群规模可扩展至50个节点,全局可管理10万个采集器,实现了对平台管理平面的弹性扩展。•自动同步云平台信息,对平台动态资源跟踪学习。

能够基于平台资源对象按需配置采集、分发策略,具备虚拟机迁移感知保持采集分发流量不中断,最大程度保证网络监控分析数据的完整性。

管理各采集器状态并监控分析各资源对象间网络流量关系。


2.功能架构


平台在物理网络、虚拟网络、容器网络等云资源池的基础之上,基于流量管理的数据采集层,通过算力下沉,实现流量的过滤、去重、压缩、截短、标记等预处理能力,输出的数据类型包括:数据包、网络流以及统计数据;基于能力图谱,利用分布、关联、对比、回溯等分析展现方式,实现对云数据中心业务的网络性能全链路诊断、应用性能分析及业务性能全景图层面的监控指标分析及故障场景诊断。同时,平台还支持通过数据包分发或者API等形式,实现数据的共享与对接。

 国2.png


四、项目过程管理


项目从上线至今,共经历了5期建设,第一期建设聚焦在开发测试环境的流量采集,积累云网络流量分析应用的场景与经验;第二期将该服务在生产部分区域进行试点,提供生产环境的故障回溯等能力;第三期实现了该服务的自服务化,提供给云用户对于故障的自助分析能力;第四期继续扩大该服务的覆盖面,并推广至核心生产区域的云环境内;第五期关注在信创环境下的云网流量采集,点亮信创环境云网络的黑盒,加强了对信创环境的管控能力。


每一期项目的规划流程包含如下:


(1) 明确责任人及分工,用时约1周;


(2) 需求分析以及系统部署阶段,部署架构分析,扩容设备上架,软件部署调试,用时约2周;


(3) 整体测试阶段,包含功能测试、性能测试、稳定性测试及其他调试等,用时约3周;


(4) 试运行阶段,通过试运行,初验结束后180天。


每一期项目的实施内容包含如下:


(1)物理环境的上线规划,包含数据节点等物理服务器的网络、存储等规划;


(2)操作系统的初始化工作,包含初始化主机名、网络和时间等配置;


(3)云网全景流量数据服务系统的环境部署扩容;包含信创云环境、云数据库环境等部署;


(4)云网全景流量数据服务系统平台健康检查。


、运营情况


云网全景流量数据服务系统作为公司云平台重要的监控系统组件,为云网流量异常分析、流量监控等场景提供了大数据分析能力。自2019年部署至今,经过多年的持续建设,已扩容至主要数据中心内,覆盖了生产、测试等多个云环境,每小时平均监测数据流量超过70T字节。通过该服务系统建设,目前已实现如下几点的目标:


1. 点亮云资源池流量监控的“黑盒”,通过软件探针覆盖云资源池的全量流量采集,构建统一的云资源池虚拟网络流量采集抽象层


2. 云资源池网络流量可视化监控与性能分析,自动梳理业务系统之间的访问路径,更加便捷、透明地洞察业务调用关系及性能指标,并针对业务关键指标异常进行告警,及时发现业务潜在问题,保障业务稳定运行。


3. 云资源的回收分析,通过业务系统的流量,主动筛选较低使用的云主机,进行资源的有效回收,提升资源使用效率,更精细化的管理云资源,有效减少了额外的硬件投入。


4. 针对云资源环境,采用PCAP原始数据包的形式,进行特定系统的流量旁路采集,更合理的使用磁盘,并完整保存故障时间范围内的异常报文,用于回溯取证。

同时,该服务系统已在如下场景中进行落地:


1、 云资源精细化回收:随着测试区资源的快速扩张,有限的资源和无限的资源需求之间矛盾日益严重,因此,有效管理和回收闲置资源变得越来越重要。云网流量全景数据服务系统通过对云资源使用情况进行深入分析,可以较为精确识别出空闲或低效使用的资源,从而实现资源的精细化回收。这有助于提高资源利用率,降低企业的运营成本,同时确保云服务的稳定和高效运行。


2、 云资源池问题快速定位:在复杂的云环境中,问题定位和排查对于保障云服务的稳定性至关重要。云网流量全景数据服务系统能够实时监控云资源池的运行状态,快速发现并定位潜在问题。通过对云资源的运行数据进行深入挖掘,系统可以辅助管理员快速诊断和解决问题,大幅缩短了故障处理时间,提高了云服务的可靠性。


3、 云网络流量分析可视化服务:为了更好地管理和优化云网络,实时监控网络流量至关重要。云网流量全景数据服务系统提供了一套基于租户的网络流量可视化方案,通过云原生监控服务,系统管理员可以快速了解业务系统的网络状况,发现异常流量并采取相应措施。同时,通过对网络流量的细致分析,可视化监控有助于优化网络结构和配置,提升网络性能,保证云服务的高效稳定运行。

 国3.png


4、云网可观测数据的智能化分析:全栈可观测性涉及应用调用以及底层基础设施的各个环节,传统的人工解读方法往往需要耗费大量的时间和精力,而且容易出现遗漏或误解。并且由于全栈可观测性的数据来源广泛,涉及到多个技术栈和领域的知识,人工解读往往需要具备广泛的专业知识和经验。项目中通过借助自动化的工具和技术,基于大模型驱动的云网可观测智能体 Agent,有效的提高了数据分析效率,降低应用故障的处置时间。


六、项目成效


(1)从经济效益来看,通过云网全景流量数据服务系统每年平均回收约350台测试云主机,可以有效减少额外的硬件投入;同时,通过对异构数据的整合、以及大模型等智能化技术的应用,降低了运维人员的排查难度,提升排查速度,降低了人工投入的成本;


(2)从社会效益来看,快速有效的感知云网内的流量异常情况,优化了业务系统的健壮性,提升了用户体验;


七、经验总结


综上,通过面向一云多芯的云网全景可观测系统建设,国泰君安金融云点亮了云环境下的网络黑盒,提升了云网运维精细化管理能力,也进一步为全链路故障诊断、智能化运维等提供了数据支撑。在应用系统云化加速的背景下,有效的保障了业务系统的稳定运行,并为云资源池网络流量的采集分析、应用系统的可靠运行、故障问题的回溯诊断等运维中面临的挑战提供了解决方案。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2024-06-12

广东农信:自动化测试平台建设项目

随着广东农信的业务快速增长,软件产品的广泛使用,使客户对软件产品质量的要求不断提高,作为软件质量的重要保证,软件测试越来越显示出它的巨大优势。

2019第三届农村中小金融机构科技创新优秀案例评选 广东农信 2024-06-12

深圳农商行:智能柜台

为积极贯彻落实金融产品创新及普惠金融理念,给客户提供更加便捷高效的金融服务,全面提升客户体验,综合上述因素,我行在优化运营业务流程、深化网点转型的基础上,着手开发创新型智能柜台系统。

2024-06-12

中信证券:智能云平台以及智能应用

智能云平台是中国证券业内早一批针对人工智能应用建立的云平台。目前已经在我司智能投资、智能投顾、智能算法交易、智能客服、智能舆情、智能风控等领域发挥作用。

2024-06-12

中信银行:数据治理实践

大数据时代下,数据的大规模、多样化、快速实时、内外结合、混合架构等特征,对数据治理提出了更加复杂严峻的新挑战,同时在监管部门的驱动下,银行数据治理的广度和深度不断扩大。中信银行采取积极主动姿态,从战略层面高度重视数据治理工作,已经把数据治理明确写入新的三年战略规划,纳入了董事会年度报告。

2018第二届农村中小金融机构科技创新优秀案例评选 中信银行 2024-06-12

光大证券:数智化数据中心多云管理平台

数智化数据中心多云管理平台实现多云的统一管理,跨云资源调度和编排,统一监控和统一运维,统一的成本分析和优化,实现统一交付。

网络整理 光大证券 2024-06-12

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 证券
  • 运维
  • 基础设施

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构