湖北农信：基于智能算法的统一运维监控管理平台

本文来源于：2024年度全国农村金融机构科技创新优秀案例评选，作者：湖北农信

2024-10-10 关键词：农信/农商行,运维管理2975

一、项目背景

在当今数字化高速发展的时代，湖北农信面临着越来越复杂的业务环境和技术挑战。随着银行业务的不断扩展和创新，信息技术系统的规模和复杂性也在迅速增长。银行的核心业务系统、渠道系统和风险管理系统等关键应用需要保持稳定运行，以确保客户能够随时进行金融交易。

湖北农信的网络架构越来越庞大，涵盖多个数据中心、分支机构和外部机构的连接，且部分业务实现了云化部署，大大增加了监控和管理的难度。传统的运维监控方式已经无法满足现代银行的需求。人工监控效率低下，容易出现疏漏和误判。面对大量的监控数据，依靠人力进行分析和处理几乎是不可能的任务。随着金融科技的迅速发展，银行需要更智能化的手段来预测和防范潜在的风险，提前发现系统性能瓶颈，以便及时优化和调整。

为了解决这些挑战，建设基于智能算法的统一运维监控管理平台成为必然选择。这个平台将整合银行各类监控资源，实现对云上云下硬件设备、软件系统和网络环境的全面监控。通过智能算法，能够自动分析监控数据，快速准确地识别故障和异常情况，并提供预警和解决方案建议。这将显著提高银行的运维效率和服务质量，降低运营风险，为银行的可持续发展提供有力的技术支持。

二、项目方案

2.1 项目架构设计

针对本项目中基于智能算法的统一运维监控管理平台功能架构图设计如下:

图片23.png

2.2 项目业务设计

建立统一的数据采集与存储、统一的日志管理分析、立体化的监控、精准的告警、规范的告警事件处置、便捷的管理集丰富的可视化展示于一体的统一运维监控管理平台。系统充分融合高性能大数据引擎和智能分析算法，依托指标数据、日志数据、告警数据、配置数据、工单数据等，打造以业务为中心的运维体系，实现运维数据的深度洞察，进而帮助管理人员全面掌控数字化运营状态，直观触达业务运营与IT运维中的关键信息，实现业务运营与IT运维的有效管理与决策，持续提升监控管理的效能。同时，结合了我行现有监控工具，消除数据孤岛，通过对多数据源的统一汇聚、分析、展示，能够实现故障实时预警，故障实时分析，故障及时处置，有效提高运维效率。

2.3 项目技术设计

通过建设基于智能算法的统一运维监控管理平台，进一步完善运维管理体系，实现运维服务“面向业务与数据”的转型，保障业务安全、稳定、可靠运行，大幅提升运维服务水平。具体技术模块设计如下：

（1）建设统一采集与数据处理模块

提供一站式各类采集任务的配置与自动化部署功能，支持针对各类日志、指标、告警、配置等多种类型数据源进行统一采集、清洗、转换、发送、监控和告警等操作，同时提供对采集任务及行为进行统一规范的调度和管控，快速接入行内各类生产数据。

（2）建设日志管理与分析模块

实现对全行日志（业务系统、云资源、服务器、网络设备、安全设备、数据库、中间件等日志）进行统一采集、处理、存储与查询分析，包括日志检索、日志监控与告警、日志模式识别与异常检测、日志脱敏、日志关联分析、全链路追踪、日志可视化分析等，支持按照不同用户权限进行日志的查看和告警。

（3）建设基础监控模块

实现对行内重要业务系统的操作系统、数据库、中间件、硬件网络设备等资源的全面和深入监控，保证网络和IT业务系统的持续、稳定运行。

（4）建设立体化监控模块

实现对行内已有监控工具（基础监控、NPM、BPC、云平台监控等）的集成，构建统一监控能力，提供系统健康度评估和展示。通过指标、告警事件、日志、业务调用关系、资源依赖关系等进行多维度监控分析，丰富监控和故障分析路径，保障业务持续稳定运行，提升运维效率。

（5）建设统一事件管理模块

实现对来自各种监控系统的告警消息与数据指标进行统一的接入与处理，对告警事件进行过滤、通知、响应、处置、定级、跟踪以及多维分析，并利用多种算法实现告警事件的收敛、降噪、异常检测和根因分析，实现问题事件全生命周期的全局管控，从而让运维人员从海量重复的告警中释放出来，有更多的精力保障和处理生产事件。

（6）建设运维流程管理模块

构建合理的事件处理规范，从告警/事件管理、值班管理等方面明确流程走向，为运维工作提供全面的、闭环的服务模式。

（7）建设智能算法管理模块

基于主流的TensorFlow框架和人工智能算法，提供算法的统一管理、场景化的算法配置等功能，支持智能算法的统一接入，智能化的数据分析、模型实验训练与调优，支持算法泛型的发布与应用，具备高可用、高并发的性能，为上层业务以及产品提供强大的算法能力。

（8）建设报告报表管理模块

基于不同的业务场景，提供多种分析模型，满足用户不同分析目标，能够按各种条件生成各类报表，以满足应用系统管理、告警统计、业务统计及科技风险审计评估等多种需求。

（9）建设可视化展示模块

适应管理特点，提供多层次展示，以不同人员关注视角，将IT与业务应用相关数据进行整合关联分析，构建可视化分析指挥中心，提升数据应用与数据决策能力。

2.4 项目实施设计

项目启动阶段：成立项目组，制定项目计划和需求规格说明书。

需求分析与设计阶段：对银行的业务需求和技术架构进行深入分析，设计基于智能算法的统一运维监控管理平台的架构和功能。

开发与测试阶段：根据设计方案进行开发和测试，确保系统的质量和稳定性。

上线部署阶段：将系统部署到生产环境，并进行试运行和优化。

项目验收阶段：对项目进行验收，确保系统达到预期目标。

三、创新点

随着金融行业的数字化转型，银行面临着IT基础设施日益复杂化和多样化的业务需求。银行业的竞争日趋激烈，服务的稳定性和连续性成为银行吸引和留住客户的关键。传统的运维管理方式已经无法适应现代银行的复杂运维场景，存在着较高的故障率和较长的故障恢复时间，这直接影响到银行的业务连续性和客户体验。在新一代IT架构下充分利用可观测性以达到业务高可用、满足SLA等要求，亟需一套统一的运维监控管理平台。

3.1全面的数据整合与分析

基于智能算法的统一运维监控管理平台整合了不同系统、应用、网络、基础设施、云平台的监控数据，实现跨系统、跨平台的全面可视化，提供统一的视角来审视整个IT环境和业务流程。

图片24.png

3.2实时动态监测

通过实时监测和动态可视化，平台能够快速识别性能问题和故障，减少检测和修复时间，提高银行服务的可用性和响应速度。

图片25.png

3.3个性化仪表板和报告

提供高度可定制化的仪表板和报告功能，让不同的用户角色（如IT运营团队、管理层）可以根据自身需求查看相关数据，优化决策过程。

微信图片_20241010140640.png

3.4实现指标异常检测

异常检测在很多场景下都具有应用，最直接的是基于异常检测结果的智能告警，有别于传统的固定阈值告警方法，智能告警不需要用户再设置阈值及各种条件，从而减少了对人员经验及人工的依赖，大幅提升了问题发现效率。

图片27.png

平台支持利用机器学习算法，实现性能数据、监控数据等的单指标异常检测。采用模型方法基本的原理是，基于历史数据学习历史数据基线，并且进一步基于模型的预测算法预测未来数据基线，基本原理如下图所示：

图片28.png

（1）数据预处理

采用分段的方法进行统计异常点的去除，通常情况下历史数据的异常点对于模型的拟合是有很大影响的。它们会是计算的模型基线偏向异常点而导致模型可用性大大下降，最好的办法就是找到这些异常值并剔除掉。

传统的异常点去除方法通常是，将整体数据内统计上的离群点找到并去除。但实际数据因为被预测的数据具有周期性波动和整体的趋势性特点，经常有一些局部统计为异常的点，但在全局统计不是异常，所以整体的异常点去除方法不可取。本方案采用了分段的方法进行异常点的去除，这种方法可以很好地去除分段内的离群点。

（2）模型建立

模型的构成如下： y(t)=g(t)+s(t)+h(t)+ϵ

其中，g(t)是趋势(trend)函数，用来分析时间序列中非周期性的变化。s(t)代表周期性的变化，例如一周或一年的周期性。h(t)代表节假日等偶然一天或几天造成的影响。ϵ是误差项，代表本模型没有考虑到的误差的影响。

（3）数据拟合与预测

基线预测时使用了基于先验的方法，由于历史数据发生异常时，经常会有一些以上统计方法无法检测出的异常（这也是本专利改进算法的主要检测目标），这些异常点在预处理阶段无法去除。

若使用传统的方法，当历史数据中的无法用统计方法去除的异常点很多时（实际数据中常见场景），模型拟合的基线鲁棒性会受到很大的影响，导致预测出来的基线不稳、不准，不能符合预期效果。

因此在求解基线的最优解时，本平台采用了新型的方法，该方法的优点是极大减少了异常点对于基线预测的影响，增强了模型学习对异常点的鲁棒性。

综上所述，以上内容为本平台智能算法的实现原理和优势，具体的异常检测模块是平台中智能分析分类下的子模块，该模块基于上述算法来实现对时序周期性数据的异常检测分析。

能够实现通过对业务性能黄金指标数据，如交易量、响应率、响应时间、成功率等具备时间间隔固定、有时序规律或周期性特点，并且可反应业务系统健康度的指标数据，进行异常检测，识别业务指标趋势的反常变化，及早发现问题风险，缩短故障发现与恢复时间。

为了降低数据分析工作的开销，提高分析效率和准确率，通过机器学习的方法，导入一定时间周期的数据训练出自学习模型；

通过模型，识别实时各项业务性能KPI时序曲线上的异常行为。及早发现风险，防止其发展为故障；及时发现故障，进行诊断和修复。

（4）异常检测算法设计

通过依托采集的数据，在抽象出具体指标后，利用机器学习算法实现性能数据、监控数据等数据的单指标异常检测。同时，根据不同的业务场景，在选取对应的指标数据后，利用机器学习算法进行多指标关联分析，实现应用系统集群、各类业务场景的多指标异常检测。对于周期性数据，平台能够实现单指标曲线动态阈值的自动设定，帮助运维人员提高运维效率。

图片29.png

本平台异常检测流程如下：

数据需求：

采集历史时间段的相关数据，涵盖数据周期性规律的多指标时间序列数据作为训练模型，通过大数据平台接入数据。

数据预处理：

在建模前，通过数据清洗、数据集成、数据变换、数据规约等方式检测和去除数据集中的噪声数据和无关数据。包括处理漏洞数据、去除空白数据，从而提高数据的质量，提高机器学习过程的精度和性能。

数据模式识别：

不同的数据类型（周期性数据），采用的算法模型不同，因此平台支持对不同的数据类型采用不同的算法模型。首先利用模式识别对数据类型进行有效的诊断，再利用时间序列聚类的模型，对不同的时间序列模型进行分析，再进一步对不同类别的时间序列模型进行分类。

针对不同的数据进行异常检测：

基于上述模式识别算法，针对不同的数据模式，对周期性数据采用时序分解，对二值性数据进行周期性统计检验算法。

单指标异常检测算法，通过机器学习基于距离、密度、频率等数据特点，归纳出时间序列数据的周期性、稳定性等变化规律。同时在基于3σ法则确保算法鲁棒性的前提下，构建历史数据训练模型，再将检测数据放入训练模型做对比检验，从而确定异常点。再结合平台智能告警模块，进行单指标曲线动态阈值的自动设定。

3.5实现指标智能预测

系统资源管理及测试评估过程，包括收集历史数据、进行资源容量预测和执行系统容量评测及优化等子过程，同时也是各子过程不断迭代，循环执行，持续演进的过程。

本平台利用机器学习算法，根据不同策略，进行指标智能预测。结合客户实际业务，基于算法中心的资源容量分析和预测，提前识别潜在的业务故障风险，保证资源配置合理，平衡资源与成本，利用动态缩扩容技术，快速满足突发业务需求。利用智能运维中的解决方案，通过分析业务量、业务性能以及资源的占用情况的历史数据，并结合业务量预测数据来建立容量规划模型，从而在保证业务性能最优的同时帮助用户节省运营成本。

图片30.png

（1）智能预测原理

如图所示，通过持续的收集历史数据，包括历史业务数据、历史系统评测数据和系统架构信息。用于建立评估模型，包括业务模型和预测算法模型，并通过机器学习预测，结合专家会诊分析，预测出业务和系统容易增长预期。

图片31.png

再使用系统测试和监控工具，在实时监控系统数据的同时，对系统进行压力测试或不同策略的评测。系统根据测评结果，能够自动发现物理机的负载问题，并给出负载优化的方案。

基于智能算法的预测过程，可分为如下几个阶段：

a、整理历史数据：

历史数据包含多个层次，多个维度，整理过程也是对于历史数据在时间和空间维度上进行分类整合的过程；

b、建立业务模型：

根据对历史数据的人工分析，梳理出完整的业务流程和数据流程，建立出业务预测模型；

c、实现预测算法，机器学习：

根据业务预测模型，选择合适的预测分析算法，导入历史数据执行机器学习算法。

d、专家分析评估：

针对机器学习算法执行结果，结合非系统性数据，如业务规划、政策变化等信息，人工修正业务预测结果。完成业务和系统容量预测报告。

（2）评测回归过程

在系统评测及优化完成阶段目标后，需持续收集数据，后续定期修正业务和系统容量预测结果，按需执行系统容量评测回归。整个过程展开如下图所示：

图片32.png

数据采集过程是一个持续不断累积的过程，积累的数据量越大，周期越长，纬度越多，越有利于提高预测精度。

相应的业务量和系统容量预测，随着数据采集的持续进行，也需要持续或定期执行，不断修正业务量增长预测和系统容量需求增长预测。

根据系统容量预测结果，制定和执行系统压测和监控方案。

机器学习结合专家会诊，对系统压测和监控数据进行分析，完成系统扩容和优化建议方案。

结合业务发展情况和成本估算等因素，制定并执行系统扩容优化方案。

系统扩容优化完成后，执行系统压测完成回归验证。

系统优化目标达到后，建立持续的系统监控和数据采集机制，用于后续过程迭代优化。

（3）评测输入数据

其中业务量和系统容量预测过程，主要是通过对采集到的各类数据进行整合分析，预测出将来业务增长和系统容量需求增长，可展开如下图。

图片33.png

历史数据主要包括业务数据、性能评测数据、系统架构信息和系统监控数据。

a、业务数据主要指业务运行相关的统计和明细数据。

如总体交易量、并发交易量、交易明细等，主要是含时间信息的与系统运行复杂度相关的业务数据。同时业务发展规划数据对于校正预测模型也有关键性的影响。

b、性能评测数据主要是对系统曾经执行过的性能和监控结果数据。

如最大业务能力（TPS）、系统响应时间、最大并发能力、高水位用户体验、异常及错误情况等。系统架构信息，包括系统架构、网络拓扑等。

c、系统监控数据包括网络资源利用率、服务器负载监控、第三方服务监控等相关数据。

重点是对资源池的容量（主要包括：计算资源，存储资源，容器数）进行监控统计，并在统计指标基础上进行趋势分析。对应用及业务系统的容量进行监控、统计，并在统计指标基础上进行趋势分析。

（4）智能算法应用

以上历史数据需要有相对准确的时间标记，如需要系统架构变更和监控数据的时间信息，以便结合性能评测数据得出更准确的分析结论。

采用自研的预测算法，实现针对业务和系统资源管理的支撑，包括单指标预测和多指标关联预测方法。

a、单指标预测：

根据单指标历史数据，预测未来一段时间指标变化情况，如预测磁盘整体空间占用30天内到80%，则进行扩容，30天内小于10%，则进行回收。

图片34.png

智能资源管理算法模型，能够在较少的历史数据和受异常点影响大的情况下，实现更加准确的基线预测。

资源管理优化主要包含内容如下：

业务量增长模型为由算法、参数和图形曲线构成的业务预测模型；

根据业务预测阶梯性周期需求，应用业务量增长模型，得出阶段性的业务量增长预测；

系统容量增长模型，与业务量增长模型相关，体现业务量增长与系统资源增长的对应关系；

根据业务预测阶梯性周期需求，应用业务量增长模型，得出系统资源增长阶段性预测；

3.6实现日志异常检测

智能日志分析主要涉及日志解析算法、日志异常检测算法、基于日志的根因分析。日志分析流程如下图所示，首先对原始日志文本进行采集；利用日志解析算法对原始日志进行解析，将半结构化的文本转换为结构化信息；然后进行后续的日志异常检测、根因分析。

图片35.png

图片9.png

（1）日志分析方法

机器学习

采用机器学习算法对日志进行分析，主要分为分类和聚类两种方法。

分类算法基于两个假设：（1）数据具有标签；（2）正常和异常实例在特征空间中是可分的。在日志分析中，决策树和SVM为使用较多的分类算法。从日志中提取特征后，对日志进行分类，训练模型参数，之后用于检测系统中的异常日志。分类算法的准确性对标签质量有很强的依赖。

由于在实际情况下，绝大多数日志数据是没有标签的，因此分类方法较为局限，而聚类方法则没有此限制，应用也就更为广泛。聚类方法首先需要计算两两日志文本之间的距离，然后将相似日志文本聚合，得到若干类，属于同一类的日志视为同一模式，从而识别出海量日志文本中的模式，同时可以检测出与各类都距离较远的异常日志。通过聚类算法，自动实现日志的模式发现，将大量的日志原文转化为少量的日志模式，大大减少了人工筛选时间。

机器学习可以自动学习系统行为，辅助诊断故障，且可解释性较强。

深度学习

日志除了具有文本属性，还具有序列属性。利用日志的序列属性，结合深度学习模型，可以挖掘出日志序列中的上下文信息，反馈系统执行的异常，更易从系统行为的角度理解故障发生的原因，为故障恢复提供帮助。

此外，有研究采用生成式对抗网络对日志进行分析，该网络主要包含两部分：生成器和辨别器。生成器尝试捕获真实训练数据集的数据分布并合成合理的实例（即正常和异常数据），而辨别器的目的是从使用真实数据和合成数据构建的数据集中区分出合成数据。最后，经过全面训练的生成器将根据最新事件来检测即将到来的日志是正常还是异常，从而生成异常警报并有效地帮助管理员诊断工作流。通过生成的异常数据还可以缓解正常实例与异常实例之间的不平衡问题。

自然语音处理技术

日志是一种特殊的半结构化文本，拥有自然语言的部分属性，因此可以采用自然语言处理（NLP）技术对日志进行分析，将日志转化为语义向量，挖掘日志中的语义信息，结合深度学习模型检测日志序列异常。日志存在文本相似，但语义截然不同的现象，如果利用传统的文本相似度计算方法，很容易误分为一类，但利用词向量技术可以解决这个问题，从而提升检测准确率。

（2）日志解析算法

日志解析是几乎所有后续日志分析技术的重要基础。日志数量繁多，不易分析，而日志解析技术可以从源码或日志信息中提取出日志文本的固有模式。在此基础上进行异常检测、根因分析能够减少数据处理压力，提高分析准确率。

日志文本由常量部分和参数部分组成，日志解析算法可以提取出日志中的常量部分即为日志的模式，例如：日志’Received block blk_-562725280853087685 of size 67108864 from /10.251.91.84’，其中常量部分为

’Received’, ’block’, ’of’, ’size’, ’from’，

参数部分为

’blk_-562725280853087685’, ’67108864’, ’/10.251.91.84’，因此该日志的模式为’Received block * of size * from *’，其中’*’代表参数部分的位置。

目前，现有的日志解析算法主要分为两大类：基于源码的日志解析技术和基于数据挖掘的日志解析技术。

基于源码的日志解析：日志事件与源代码中的日志语句唯一关联，因此，先前的研究提出了自动日志解析方法，该方法依赖于源码中打印日志的相关语句。首先使用静态程序分析来提取源码中的日志模板，然后基于日志模板自动生成正则表达式，以匹配相应日志消息。这种方法准确率高，但通常此技术很难应用于实际场景中，例如，当日志消息是由闭源软件或第三方库生成时；或日志由不同的编程语言生成时。

基于数据挖掘的日志解析技术主要可以划分为三大类：聚类算法、启发式算法、频繁模式挖掘算法。聚类算法通过计算日志之间的相似度将日志分为不同的类；启发式算法根据先验知识，利用token位置、日志长度等对日志进行划分；频繁模式挖掘算法统计日志中的高频词或高频词对，从而得到日志模式。

由于日志的半结构化数据特点，因此日志解析需要考虑日志的结构化和非结构化（文本）的性质。对于结构化的部分，可以采用上述类似的算法进行处理，在实际的日志处理中，由于单一算法的偏好性，因此我们采用多个算法模型集合的模式进行优化；对于非结构化的日志结构，我们利用自然语言处理技术，对非结构化进行词向量的构建，进一步增强日志解析的能力。

（3）日志异常检测算法

异常检测，旨在即时发现系统异常行为，在大型系统的故障管理中具有非常重要的地位。即时的异常检测使运维人员能够迅速定位故障，提高问题解决效率，减少宕机时间。基于日志的异常检测，能够提供较为丰富的系统运行或业务信息，辅助运维人员进行分析。

日志异常模式检测

在机器出现异常登录、系统存在故障等情况下，系统会生成异常日志，这些异常日志常常淹没在大量日志中，若不能被即时检测出来，将严重影响系统稳定性。

日志异常模式检测可以检测出历史日志和线上流式日志中不同于正常模式的日志。正常日志总是极其相似的，而异常日志却是各有各的不同，依据这个原则，可以筛选出历史日志中隐藏于海量日志中的异常模式日志。对于线上日志，通过与历史正常模式进行匹配，判断是否为异常模式日志。

图片10.png

日志统计异常检测

在不同输入和工作负载下始终保持在系统日志中的数量关系被视为程序不变性。这些线性关系可以捕获正常的程序执行行为。如果新的日志打破了某些不变性，我们可以说是在系统执行过程中发生了异常。

日志统计异常检测算法用于检测日志模式之间的数量关系异常，针对有工作流的日志，检测其中的执行异常。具有工作流的日志，流程中每个执行节点产生的日志数量之间具有恒定的数量关系，即程序不变量。程序不变量是线性关系，即使在不同的输入和不同的工作负载下，在系统运行过程中也始终保持这种关系。例如，系统正常执行情况下，’Open file’ 日志数量等于 ’Close file’。当这个数量关系被破坏，说明文件操作发生异常。

日志顺序异常检测

业务流程通常存在逻辑顺序，因此日志是按照一定顺序打印出来的，当出现流程异常时，会生成大量乱序日志，打破正常的执行路径。

日志除了具有文本属性，还具有序列属性。利用日志的序列属性，结合深度学习模型，进行日志顺序的异常检测。该算法将日志顺序异常检测问题转化为一个多分类问题，输出概率分布，通过预测实现异常检测，识别程序逻辑流中的执行异常。

（4）基于日志的根因分析

进行异常检测是日志分析流程的一部分，异常发生后运维人员需要了解是什么原因导致系统出现故障，因此需要进一步进行根因（因果关系）分析。

因果关系是不同于相关性的偏序关系（相关性通常用相关系数来量化），两个事件正相关不一定存在因果关系，将相关性用作因果关系会产生大量误报。检查两个事件的时间戳有助于判定因果关系，但由于NTP时间同步错误、抖动和网络故障等原因，系统日志的时间戳对于确定因果关系并不完全可靠。因此，需要确定没有时间戳的事件之间的因果关系。首先，根据预处理方法从日志中提取出时间序列数据，然后利用因果关系算法输出有向无环图，图中的网络可以反应出事件之间的因果关系，进而辅助分析故障的根因。此外，将系统资源使用数据与error日志相结合，能够准确的检测大型分布式系统中的故障。

为了更加精确的分析故障根因，还需要结合不同来源的日志和指标数据，将这些信息关联在一起进行根因分析，多方位定位故障根源。

图片11.png

3.7实现告警降噪聚类

平台的告警压缩抑制模块，能够对默认的合并规则以及运维人员自定义的合并规则进行统一的展示与管理，采用频繁项集挖掘、智能告警等算法进行压缩，支持在一定条件下压缩相同类型的告警，归并为一条告警信息，减少告警数据呈现数量。该模块支持自定义合并规则的添加、编辑、启用/暂停、删除以及查看，支持默认合并规则的查看、编辑、启用/暂停操作。

当相同的告警不断重复发生时，会不断的将同样的告警反复发送给实时事件库。当事件库收到这些重复告警时，需要对这些告警进行判断，相同的告警压缩为1条，只更新重复发生次数、最后发生时间和告警描述，在存储时也作为1条告警存储。

告警抑制机制说明

统一告警模块的告警抑制机制分为两步，告警压缩和告警合并，如下图所示：

图片12.png

告警压缩规则为后台的规则，统一告警模块将根据告警源类型来匹配压缩规则，并将告警消息压缩成符合压缩规则的警报。统一告警模块按照合并规则将警报合并成告警事件。

一方面，告警压缩环节可压缩的条件如业务系统、主机IP、告警级别、告警关键字、压制周期和事件次数等。另一方面，告警合并环节的规则分为默认合并规则和自定义合并规则。成功接入告警源后，统一告警模块将自动为每个告警源创建默认合并规则。而自定义合并规则需要运维人员在告警合并模块中自定义。

四、技术实现特点及优势

4.1 系统架构

图片13.png

系统的总体架构融合了智能算法中心、事件中心、智能监控中心、报表中心、可视化中心等全栈的运维产品模块，是一款面向业务价值与IT运维规划的全链路可观测的追踪分析和智能故障排查平台，以业务场景、业务系统、应用服务、基础设施为主要观测切入口，以算法为赋能，依托于指标、日志、调用链，为数字化转型提供强有力的解决方案。

4.2 技术实现特点

（1）数据采集

整个数据流转经过数据采集，数据处理，数据存储，全链路数据应用。支持针对多种运维监控数据采集，可进行实时数据采集和定时任务数据采集。采集的整体技术方案架构如下：

图片14.png

系统内置丰富的脚本，用于深度发现属性采集和指标采集。深度发现任务在安装好采集插件后，会自动探测目标节点上所具有的服务，之后自动执行深度发现脚本，深度采集设备或服务属性相关指标信息。

（2）数据清洗

支持针对运维数据进行上层的数据加工管理，实现对采集的数据进行数据处理解析，实现数据的消费服务，并实现内外部运维平台进行交互。同时，实现数据指标的重要程度定义、健康度配置等。

图片15.png

（3）数据分析及应用

对全资源提供综合、立体、可视化的实时监控分析，面向企业业务价值与IT运维的顶层规划，以关系串联指标、日志、告警、属性、变更、trace等数据，结合算法，对业务、应用、服务、基础设施进行全资源统一监控、统一分析，统一智能故障分析定位，帮助快速发现、分析并定位故障。

图片16.png

图片17.png

图片18.png

（4）智能化

支持通过算法及专家经验实现根因的推荐，根因定位过程可视化，具备可解释性；算法定位功能包括但不限于调用链故障定位算法、指标异常定位方法及多维异常定位。可观测产品-告警中心提供具有强大算力的MeTow、MeREx和Noran算法，基于配置中心维护的关系，提取关联的指标序列，从时间的维度对指标相关性进行计算分析，以计算出可能的根因，同时算法可对用户的反馈进行方向学习，以保证下次计算的结果的可靠性。在左侧导航栏单击事件处置，进入事件处置页面。在页面中的事件列表单击目标事件名称，进入事件详情页，默认显示警报列表页签。单击智能根因，进入智能根因页签。

图片19.png

页签展示根据算法得出的故障原因，展示信息包括可信度、模型、根因资源、根因指标、维度、根因指标趋势和关联事件数量。单击目标根因资源，可跳转至资源监控查看资源详情。单击根因指标趋势，弹出指标详情对话框。在对话框中可对指标序列和相应的日志进行分析。

（5）可视化

系统提供报表、仪表盘、可视化大屏等功能，通过全面数据可视化工具，展示系统各项关键指标的实时动态，包含交易量、响应时间、错误率等信息。帮助管理层和运维人员更直观地了解系统运行状态。

微信图片_20241010114844.png

图片22.png

五、项目过程管理

湖北农信于2024年3月启动基于智能算法的统一运维监控管理平台项目，7月完成系统编码、测试和上线准备，目前正在试运行中。

六、运营情况

自基于智能算法的统一运维监控管理平台在湖北农信试运营以来，取得了显著成效。

在系统稳定性方面，该系统表现出色，有效保障了银行业务的连续运行。通过实时监控各项关键指标，能够及时发现并解决潜在问题，大大降低了系统故障的发生率。在效率提升方面，运维可观测及流程化管理，缩短了故障处理时间。同时，统一的管理平台使得运维人员能够更加便捷地掌握系统整体情况，提高了工作效率。

客户体验也得到了进一步提升。系统的稳定运行确保了业务办理的顺畅，减少了客户等待时间和因系统问题导致的业务中断情况。

七、项目成效

通过基于智能算法的统一运维监控管理平台实施及智能算法场景的建设，取得了显著的成果。平台结合大数据分析及人工智能等功能，监控范围覆盖网络设备、服务器、应用系统、虚拟化、存储、动力环境、安全设备等，通过收集业务日志、监测指标以及业务链路关系等相关数据进行融合，构建业务拓扑链路。快速对故障进行分析、定位、快速恢复业务，保障业务的稳定性、安全性。项目通过全方位的系统监控和智能分析，优化了银行运维流程，提高了故障处理效率，降低了运营成本，并增强了客户服务质量。

具体体现为：

实现业务系统全链路可观测，全栈监控统一的监控平台，实现从基础设施、网络性能、应用性能、用户体验体验监控全覆盖，实现对资产运行状态可知；

终端用户体验明显提升，被动运维变为主动运维，降本增效，体现运维价值；

构建统一的运维集中事件处理平台，整合各个监控工具的告警事件，进行集中化的管理与处理，提高运维处理问题的效率，以及系统工具间的关联影响分析等场景功能；

基于数据的运维，构建统一监控中心，将采集的性能数据、配置数据、告警数据与业务关系数据进行互联互通，依托数据指标为基础，打造业务的运维体系。能够对故障实时预警，故障实时分析，故障及时处置。

以下是项目实施成效：

（1）故障检测与处理效率：

故障检测缩短至1分钟以内，处理耗时减少至15分钟以内。

（2）监控覆盖率：

覆盖云上云下资源，覆盖率提升至95%以上。

（3）告警准确率：

告警准确率提升至95%以上，有效降低误报率。

八、经验总结

基于智能算法的统一运维监控管理平台，是采用数据驱动的运维模式，最终促使银行不断提升自身的技术水平和管理能力，以适应快速变化的金融市场环境。

首先它通过打通“竖井式”的数据壁垒，建立运维数据统一标准，集中数据采集、数据清洗、特征加工、规则模型、顶层场景的设计，把云上云下的运维对象所涉及的监控、日志、性能、配置、流程、应用运维等数据系统化、层级化关联，构建业务数字化“地图”的能力。

然后通过运维数据的深入挖掘及智能分析，不仅可以实时监测系统的运行状态，提前发现潜在的风险因素，实现高效的风险预警与故障排除，还可以结合数据分析报告，管理层全面了解到运维工作的成效和系统运行的健康状况，有助于优化银行的资源分配并推动持续的性能改进。

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。