本文来源于:2023第七届农村中小金融机构科技创新优秀案例评选,作者:常熟农商银行
常熟农商银行:“星图”智能运维平台
2023-10-08 关键词:农信/农商行,运维管理,智能运维
4234
一、项目背景
随着业务快速发展,信息系统建设不断深化,系统规模不断扩大,其所依赖的服务器数量持续增加。再者,微服务架构应用系统的占比比越来越重,在带来业务承载能力大幅提升的同时,高度的系统复杂性也给系统运维工作带来了巨大挑战,传统的手工操作运维模式,已很难有效满足日常系统运维工作的实际需要。
微服务架构系统相较于传统架构系统,部署节点多、组件/服务多、关联资源配置多、涉及到的开源软件/中间件多、各个组件/服务之间的依赖关系十分复杂、网络访问关系复杂等。基于以上系统特点,一旦发生故障或出现性能问题,一般都很难进行排查定位,同时也给微服务相关的日常运维工作带来很大困难,对运维团队的经验和技能要求非常高,且很难做到高效运维。
在长期的科技运营过程中,为保障系统的稳定运行,各方面的监控及辅助工具建设已基本相对完备,由于各工具平台异构化及烟囱式建设的客观因素存在,导致很难达到通过实现各工具的有效协作来提高运维工作效率的目标。
为提高运维效率,提升问题定位及故障预警能力,解决微服务架构系统运维过程中的痛点难点,充分发挥现有各工具平台在科技运营中的有效协同作用势在必行。
二、项目方案
常熟农商行于2022年4月完成了新一代微服务架构核心系统上线,考虑到微服务架构系统运维的高度复杂性,核心项目启动初期即通过各种技术专题对数据进行标准化规范化,特别是应用日志及全局流水号的规范化为实现完全数据驱动的调用链奠定坚实基础。
日志分析平台通过对应用日志的加工、清洗、组装,提取出系统间调用链路、服务间调用关系、接口间调用关系、交易路径、业务路径、具体交易在各服务器间的流转链路等信息。
标准化运维平台通过agent或互信方式完成对服务器操作系统级别纳管,进行脚本标准化、运维操作标准化、软件安装标准化、巡检指标标准化等,通过批量调度、批量作业,完成标准运维操作、软件安装、基线检查、异常监测、自动化巡检等运维场景,提高基础运维工作效率、降低操作风险。
CMDB通过自动发现、自动采集、数据同步、手工录入等方式,进行软件、硬件、系统、服务、网络等资源及其配置信息的集中纳管,进行资源间关联关系自动构建。作为关系中枢,打通工具平台间内在联系。已应用系统为中心,进行全链路资源关联关系构建。
建设运维大中台,通过构建运维数据中心、可视化中心、服务中心、场景拓展中心能力,进行工具平台及运维数据的有效融合,打造可视化运维体系。

三、创新点
1、构建可视化运维体系
通过图形化的形式,勾勒出应用与服务、服务与软件、软件与硬件、硬件与网络等各资源间的关系和依赖,并融合各类运维数据,以全局视角进行汇聚呈现,洞察系统整体运行状况,实时展示应用系统运行状态,为系统运维提供更完整的运维视图及更全面的运维数据。
结合应用日志及CMDB基础数据,实现完全以数据驱动的关系感知、架构感知、链路感知、交易追踪、事件汇聚、历史回溯、应用大屏等可视化运维场景。
2、打造一站式运维模式
应用系统日常运营过程中,涉及日志分析、交易监控、数据库监控、中间件监控、基础资源监控、网络监控、告警事件管理、系统变更、日常运维操作、定时自动作业等各种信息,并分散在不同的运维工具上,运维过程中很难快速全面的掌握这些信息,导致问题处理中需要大量的人员分别登陆不同工具进行排查,费时费力,且效率不高。
为解决运维效率低痛点,在各工具运维数据汇聚融合基础上,构建以应用系统为中心的一站式运维模式,将资源架构、调用关系、告警事件、监控指标、交易情况、变更记录、堡垒机记录、巡检情况、定时任务执行情况等,以应用系统为中心进行汇聚分类呈现,为运维人员提供一站式全方位运维信息,帮助快速进行问题分析定位。
3、挖掘应用日志运维价值
应用运行日志在日常运维工作中起着至关重要的作用,为事后追溯、问题排查分析提供重要数据依据,但繁杂多样的日志格式及内容,使得很难通过技术手段充分挖掘日志数据的巨大潜在运维价值。
通过对应用日志的规范化,再经过日志分析平台的加工、清洗,提取出各种维度的链路关系,为实现完全数据驱动的调用关系可视化提供数据支撑,也为日常日志数据的检索排查提供了极大便利。
4、多工具平台有效融合
构建运维数据中台,打通各种工具平台,实现基于依赖及内在关联的各类运维数据的有效汇聚融合。鉴于各工具平台运行架构及功能作用各不相同,其开放能力及数据标准也存在巨大差异,为保证各工具数据的融合汇聚,使得平台需具备强大的异构化适配、灵活的数据加工清洗及结构化的指标管理能力。
四、技术实现特点及优势
1、后端技术
代码框架:Springboot
存储:ArangoDB,clickhouse,msyql,redis
中间件:kafka,nacos,xxljob,gateway
1)Clickhouse优点
为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理
处理单查询高吞吐量每台服务器每秒多数十亿行,查询速度极快。
数据压缩空间大,具有良好的数据压缩比。
索引非B树结构,采用稀疏索引。不需要满足左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快
写入速度非常快,50-200M/s,对于大量的数据非常适用
我们针对ck在时序数据库做了针对性的优化,增加低基数(LowCardinality)、跳数索引(Data Skipping Indexes)、编码类型(DoubleDelta、Gorilla)、JSON函数(visitParamExtractString)等方面的优化
2)ArangoDb优点
多模型数据库:可以灵活的使用键值对、文档、图及其组合构建数据模型
分布式:支持水平扩展,Sharding,多副本
AQL查询语言:AQL同时支持Key-Value、Document、Graph的查询
可通过JavaScript进行扩展:无语言范围的限制,可以从前端到后端都使用同一种语言。
Foxx -构建自己的API:用JavaScript和ArangoDB构建应用,Foxx运行在DB内部,可快速访问数据。
空间利用率高:跟其它文档型数据库相比,ArangoDB占用的存储空间更少,因为ArangoDB是模式自由的元数据模式。
2、前端主要技术
React (hooks + class) --JS库
Mobx--状态管理工具
React 和 MobX 是一对强力组合。React 通过提供机制把应用状态转换为可渲染组件树并对其进行渲染。而MobX提供机制来存储和更新应用状态供 React 使用。对于应用开发中的常见问题,React 和 MobX 都提供了优和独特的解决方案。React 提供了优化UI渲染的机制, 这种机制就是通过使用虚拟DOM来减少昂贵的DOM变化的数量。MobX 提供了优化应用状态与 React 组件同步的机制,这种机制就是使用响应式虚拟依赖状态图表,它只有在真正需要的时候才更新并且永远保持是新的。
React-Router--路由管理工具
Webpack--打包工具
Echarts5 -- 图表库
Antv/G6 -- 流程图
Antv/X6 -- 拓扑图
Antv/X6 是 AntV 旗下的图编辑引擎,提供了一系列开箱即用的交互组件和简单易用的节点定制能力,方便我们快速搭建流程图、DAG 图、ER 图等图应用。
五、项目过程管理
常熟农商银行于2022年7月启动“星图”智能运维平台项目,12月完成系统编码、测试和上线准备,于2023年2月开始进行正式投产运行。
六、运营情况
常熟农商行“星图”智能运维平台上线运行以来,已打通12个外围工具平台,并完成200多个重要监控指标数据的汇聚融合。


已推广并初步实现70多套应用系统运维可视化,基本涵盖绝大部分重要业务系统。
七、项目成效
1.全局级应用拓扑
以全局视角,进行全方位、多维度的状态汇聚,整体呈现系统运行状况、调用关系、健康状态、告警情况。

2.一站式运维
以应用系统为中心,将散落在各工具平台上的资源架构、调用关系、告警事件、监控指标、交易情况、变更记录、堡垒机记录、巡检情况、定时任务执行情况等运维数据汇聚分类呈现,为运维人员提供一站式全方位的完整运维视图,帮助快速进行问题分析定位、随时完整掌握应用系统运行状况。

3.关系感知
应用系统间关联关系、应用服务间关联关系、资源间关联关系等,进行可视化拓扑,并支持逐级下钻。

某应用系统一级关联系统关系拓扑

某应用系统服务间调用关系拓扑

某服务器与相关资源间关联关系拓扑
4.架构感知
自动发现并构建应用相关服务、证书、数据库、中间件、服务器、网络负载、硬件设备等资源间的关联关系,汇聚各工具平台监控指标数据及告警事件,进行多维度、不同视角拓扑呈现,无须分别登录多种运维工具即可查看各类数据即时及历史趋势情况。

某应用系统全链路资源架构(概览)

全链路资源架构(明细)

某应用服务关联资源架构
5.链路感知
通过应用日志,自动分析提取出应用调用链路及业务运行链路并进行拓扑展示,以可视化的方式帮助科技人员降低应用系统的掌握门槛,故障处理过程中帮助快速判断影响范围。

手机银行发起的跨行转账业务运行链路
6.历史回溯
回溯历史各时点下的整体运行状态及各种运维数据,保留现场,帮助复盘分析排查。

7.事件汇聚
各种告警事件依据应用系统全链路资源关联关系分类汇聚,反映到应用健康状态,并进行大屏展示,全面直观呈现告警事件对系统运行的影响情况。


8.交易追踪
打通统一日志分析平台,根据关键信息搜索运行节点,直接调取完整业务日志详情,图形化调用链路,异常节点高亮,结合APM提取相关SQL/No SQL、运行堆栈、代码级运行链路等信息,无须分别登录多种运维工具,大幅节省跨系统分析排查时间,降低使用成本,大幅提高日常交易跟踪分析工作效率。

根据流水进行交易追踪

根据交易报文进行交易追踪
9.应用大屏
全行所有在线的300多个应用系统以应用墙的形式分类展现,综合系统相关各资源事件情况进行健康度计算,异常情况根据健康等级设置不同颜色高亮提醒,异常系统前置显示;展示应用调用关系及动态流向;展示资源拓扑及未关闭事件清单。


八、经验总结
常熟农商行已基本形成了以“星图”智能运维平台为中心、标准化运维平台、资源配置管理平台、统一日志分析平台为基座,其他各外围工具平台为基础的自动化运维体系。随着平台建设的不断深入及推广力度的不断加大,将可实现全系统级的运维可视化,运维标准化率大幅提升,届时各方面的价值将得到充分展现。
1.业务价值
提高业务响应效率。随着系统复杂度的不断提高,问题的排查处理难度也在逐渐加大,伴随而来的将是问题反馈效率的降低。平台帮助运维人员快速进行多系统间的问题排查分析,从而大幅提高问题处理效率。
保障业务连续性。通过帮助提升故障定位处理效率,缩短业务中断时间;通过加强重要资源、隐患、指标的监测,降低故障发生率。
2.组织价值
风险管控。通过对运维操作的标准化落地,及运维操作指令、范围的事前审批,实现操作风险管控;通过应用系统的运营可视化,降低入门门槛,在人员流动时,帮助实现无缝衔接,做到系统运行风险管控;同时,通过降低对特定人员的依赖,实现人员风险管控。
决策支撑。通过运营可视化,全方位掌握系统整体运行状况、关联关系、影响范围。
提升人员价值。通过运维的不断标准化及运维场景的不断拓展,将人员从大量重复低效的运维工作中解放出来,以更多的时间和精力投入其他工作或进行自我价值提升。
助力人员转型。促进人员结构优化,助力实现运维操作、运维开发、运维分析、运维专家的阶梯型人员转型机制。
促进组织转型。促进传统操作运维模式向高效的研发运维模式转型,促进组织由被动支撑运维向主动技术运营转型。
促进工具平台一体化。打破工具平台烟囱式建设模式,充分挖掘发挥已有工具平台效能。
3.科技价值
提高基础运维效率。传统需要几个月甚至半年以上的时间处理的基础运维工作,通过自动化运维1个小时内即可完成,大幅提高效率的同时也节约了大量人力资源成本的投入,避免了各种人工操作风险的发生。
提高应用运维效率。通过运维可视化、全链路交易追踪分析快速进行多系统间排查定位,打通各外围工具平台,一站式全方位掌握各种重要运维数据,帮助快速进行判断决策。
降低运维操作风险。建立统一的运维操作标准,并将操作指令、操作范围纳入事前审批流程,大幅提高运维操作效率的同时,也极大限度的降低了操作风险。
提升运维能力。随着系统复杂度的不断提高,传统的运维方式已基本无法满足运维工作的实际需要,打破运营过程中各工具平台烟囱式工作模式,实现各种运维数据的汇聚融合,进行一站式可视化运维,并解决微
服务架构系统运维的难点、痛点,结合智能分析、异常监测、趋势分析等,提高问题定位能力及故障预警能力。
赋能系统研发。随着业务的不断发展,系统的数量在不断增多,业务处理逻辑的复杂度也在不断提高,以及人员不断流动的客观因素存在,使得一个研发人员需要负责多个不同的系统,受限于个人的精力和经验,很难对所负责系统做到深入的了解和掌握。通过系统的运营可视化,帮助研发人员快速全面掌握所负责系统,随时全方位了解运行状况,降低系统入门门槛,同时,通过标准化降低研发人员系统运营相关需求的开发负担。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2023-10-08
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2023-10-08
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2023-10-08
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2023-10-08
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2023-10-08
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2023-10-08
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构