陕西农信：面向AIOps场景建设的智能运维数据分析平台

本文来源于：2023第七届农村中小金融机构科技创新优秀案例评选，作者：陕西农信

2023-10-08 关键词：农信/农商行,运维管理,智能运维1978

一、项目背景及目标

随着陕西农信信息系统建设步伐持续加快，数字化转型战略全面推进，我社科技运维管理工作也正在从基于人工经验的被动模式向数据智能化驱动的主动模式蜕变。从运维数据中挖掘潜在价值，充分使用大数据分析、人工智能等新技术为运维管理工作赋能是高效、精准、合规的实施系统运维工作。

经过调研和讨论，并结合我社的运行管理工作的实际情况，我们决定通过智能运维数据分析平台建设来推进运维工作转型，通过运维数据价值的挖掘，进一步夯实信息系统安全稳定运行的基础。

二、项目方案

经过调研和讨论，并结合我社的运行维护工作的实际情况，我们对智能运维数据分析平台进行了整体设计。

图1 智能运维数据分析平台整体架构

我社智能运维数据分析平台按照中台化理念进行设计，旨在通过“运维数据+智能运维算法+场景N”的体系建设实现运维数据智能分析的场景应用和落地。智能运维数据分析平台由三部分组成，分别为运维数据仓库、运维数据分析系统和运维数据服务接口。运维数据仓库参照我社海量数据平台基础框架进行复用，并根据运维数据特征进行了流批一体实时数据加工的拓展功能开发;运维数据分析系统在引入业界AIOps头部厂商算法方案的基础上，对算法集和数据应用场景进行了自主扩展。运维数据服务接口则遵照我社企业服务总线、分布式技术平台微服务规范对数据分析成果进行集中化封装，以便外围系统充分利用运维数据分析成果。

（1）运维数据仓库

运维数据仓库作为我社运维数据抽取、存储、治理、加工、服务的统一集中管理中心，纳管了我社所有运行管理类工具系统的各类具有分析价值的源数据，涵盖综合监控平台、配置信息管理系统、IT运维服务流程系统、自动化运维平台、数据库执行平台、堡垒机系统等源数据系统，是整个智能运维数据分析平台的数据基座。区别于传统的数据仓库类系统，其在批量静态数据处理的情况下，还负责源数据系统的实施流式数据透传，真正的实现了“一仓双工”。在运维数据仓库中，我们针对现有各类运维工具的实时、非实时，单笔、批量等多模数据的接入，平台进行了差异化数据接入方案设计。

图2运维数据仓库整体架构图

单笔、实时数据方面，对于关系型数据，运维数据仓库利用信创CDC（实时数据采集）工具DSG从源系统将目标数据推送到Kafka消息队列，充分的发挥了CDC工具在数据采集及同步工作中高效性、灵活性、可靠性的特点，实时地将数据变更同步到运维数据仓库，并对数据源系统无侵入改造。对于非关系型数据的实施数据处理，运维数据仓库从数据源系统直接对接Kafka，再通过Flink按需求进行加工处理并把结果推送到目标Kafka。对需要进行持久化的关系型数据，数据平台会根据预设的持久化方案，将数据存储至HDFS。

非实时、批量数据方面，平台通过我社ETL工具（数据交换平台）将运维数据抽取加载至运维数据仓库Hive存取区（HDFS），经过标准化加工后将数据存放至通用数据层，根据不同运维分析场景（集市）及主题进行模型加工处理，后将成果数据存放至应用数据层作为运维数据分析系统等上层应用使用。

图3 运维数据仓库数据流向

（2）运维数据分析系统

运维数据分析系统是整个智能运维数据分析平台的大脑，我们在引入业内AIOps头部厂商先进算法方案下，在自主设计的可扩展算法框架下，充分挖掘运维数据仓库中各类多模数据的价值，拓展了以下运维场景的

智能数据分析应用：

容量趋势预测场景

通过以运维数据仓库为数据基座，借助长短期记忆算法（LSTM）的应用和扩展，对我社主机文件系统、数据库表空间等容量指标的智能预测功能，达到提高扩缩容工作精准度，优化资源投入的目的。

图4 文件系统容量预测

基于智能动态基线的指标异常监测场景

通过机器学习算法，对交易量、响应时间等对运维数据仓库接入的实时应用交易监控数据进行智能化分析，生成监控指标的动态边界阈值，形成动态智能基线，实时分析系统运行状态并及时推送告警信息。

图5 指标异常监测

应用系统负载均衡综合指数应用场景

作为陕西信合自主拓展的算法应用场景。我们通过基于统计学变异系数(CV)算法以及衍生指标的正向化处理，对于CPU、硬盘等性能指标数据进行分析，能够准确识别出应用系统负载均衡使用偏差情况。综合指数越高表示主机交易量负载均衡良好。较低的综合指数则可能意味着某些主机负载较重，可能导致响应延迟增加，影响系统的性能和稳定性。通过负载均衡综合指数的应用，为解决“负载失衡”这一在应用运维工作中常见的难疾提供了新的处理思路。

图6 负载均衡综合指数建模流程图

196(1).png

图7 负载均衡综合指数页面及异常点识别图

运维操作行为风险特征分析

平台借助数据算法力量，对基于现有的运维操作入口管控工具（如：堡垒机、数据库执行平台等）操作日志信息进行了初步处理，包括生成词云图和字符特征匹配，系统据此创建特征风险命令词库。运维管理者可以通过特征分析，能够提前识别操作相关的潜在风险，进一步增强了生产环境运行安全监控和风险识别的能力。

（3）运维数据服务接口

为提高运维数据分析结果的输出效用，满足用户具体场景需要，针对差异化的运维数据服务需要，平台开发了通用数据服务接口，能够对外提供实时数据和历史数据的服务功能。此外通过运维数据服务的技术管理规范的制定，向各运管工具系统提供运维数据服务的统一管理功能。

三、创新点

智能运维数据分析平台是我社采用现有资源通过自研+采购+开源的方式建设的数据管理分析系统，通过内部各子系统单元模块化的链接将运维数据进行了“采”、“转”、“析”、“用”全生命周期的管理，其自身拥有较好的批量数据处理、实时数据处理、基于优秀算法的智能分析能力与统一运维数据服务能力，提供了一体化的运维数据管理和运维数据分析的集中解决方案。其创新点有如下几方面：

（1）实时数据交换方式解耦

运维数据仓库的数据来自我社在用各类监控系统、配置管理系统、运维服务流程系统、日终批处理平台、自动化运维平台等，涉及系统众多，数据内容丰富，规格不一。为减少对源端系统影响，在本案例中，运维数据仓库在进行数据汇集和转换加工时，主要采用以文件交换，消费队列(Kafka)交换等无调用响应方式实现，对被采集系统无压力，有效防止因数据交换而导致的原系统性能下降。同时在向周边系统数据供应时，也采用了文件或是Kafka消息队列，避免了系统间通过请求调用，达到了数据的交换过程的解耦。同时在实时数据处理方面，本平台采用了基于Flink的流批一体式数据处理框架，通过低代码组件的方式对30多种常用的数据处理算子进行了封装，可供数据分析及维护人员自由拖拽使用，前后连接形成数据处理流水线，极大的提高了数据处理和接入效率

（2）基于无监督学习的指标异常智能检测框架

区别于有监督学习异常检测算法需要人工经验对机器学习模型进行参数配置，智能运维数据分析平台中的运维数据分析单元采用了分自编码器VAE、指数滑动平均算法（ EMA）、自回归差分移动平均模型（ARIMA）、极值理论、周期型中值检测等无监督学习算法，可以根据每一条指标实例的历史曲线特性进行特征分析，自动选择合适的算法并微调参数，无需标注，无需人工干预，让大规模进行异常检测成为可能。平台可自动选择和调整算法模型参数，封装复杂参数简化为算法敏感度，无需任何复杂配置和人工数据标注平台目前已实现周期性数据的异常检测，自动识别无规律性指标，并给出极限阈值；自适应指标波动特征周期偏移的情况，自动适配变更导致的指标剧变（如版本上线、配置修改）；检测合理范围内的突变异常；检测规律行为缺失；自适应整体趋势性变化；不受少部分数据缺失、中断影响；不受历史数据中异常点的干扰。

（3）基于可扩展框架的智能算法融合与拓展应用

为适应各类特征条件下指标数据的检测要求，本平台在算法框架内集成了VAE、GBRT、EMA、ARIMA、极值理论、周期型中值检测、周期型尖峰消失检测等多种异常检测算法。除目前常见的容量预测、性能基带等常见智能数据运维场景，根据我社现实运维管理需要，我们在统一算法框架下创新性的拓展出了应用系统负载均衡综合指数算法应用场景。并充分利用当前指标异常监测算法，对自主设计的负载均衡综合指数进行动态阈值测算，实现指标异常波动时的实时告警。此外，项目组采用基于Transformer大模型技术进行风险特征标签识别标注进行高危运维操作识别，有效扩展了当前算法应用框架。

四、技术实现特点及优势

（1）既有数据仓库框架的复用和通用组件选型

我社数据支撑体系经过多年建设，各配套工具及管理系统均已投产运行，相比运维软件厂商的大数据平台，整体架构更加完备，系统功能也更加齐全。因此，基于我社海量数据处理平台技术架构的整体优势，并考虑到节约项目建设成本及复用我社信息科技资产的策略，此次运维数据仓库的建设工作将依托我社海量数据处理平台的技术架构及产品实现。

在数据处理，尤其是实时数据数据处理方面，我们选用大数据领域通用、成熟、开源的分布式组件进行封装，包括Kafka、、Flink、ElasticSearch等组件，这样我们可以直接复用我社既有的大数据平台相关组件资源，避免重复建设，实现项目的快速落地。

（2）运维数据主题化设计

为了便于运维数据仓库的数据管理工作，将运维数据整体分为6大类型进行模块化存储管理。

图8 运维数据模型关系图

流程类数据、性能类数据、事件类数据、资产类数据、公共信息类数据、组织结构类数据：存放并处理各应用或服务系统运维人员、岗位、科室等信息。模块化的数据设计模式，有效的降低了数据转换、数据加工成本，有效的支撑了数据联合应用场景。

（3）领先的智能运维算法解决方案

本项目组在容量预测、智能基线监测等场景的算法方案应用方面，在传统的机器学习算法的基础上，采用了AIOps行业头部厂商的智能运维算法方案。算法方案具备普适性强、简单易用、高可用、高性能、可扩展的特点。可以自动适配生产环境下大量不同类型指标，准确检测多种形式的异常。

（4）通用集成的数据服务接口

为对外部系统提供标准化的数据服务，我们在运维数据分析系统中开发了集成式数据服务接口，根据终端系统的不同需求，分别提供实时数据Kafaka推送接口、实时数据ElasticSearch查询接口和规模化历史数据查询接口。并根据我社企业服务总线服务规范和分布式技术平台微服务标准，这上述三种接口进行了标准化封装。可根据用户具体场景需要，提供差异化的数据服务，为后续运维数据使用场景的开发应用奠定了技术底座。

五、项目过程管理

（1）项目启动

本项目于2022年3月中旬启动。在完成项目建设方案拟定、工作说明书编制、项目组组建后，按照方案陆续启动运维数据仓库、运维数据分析系统、运维数据服务接口等子系统（模块）的建设。

（2）平台设计、开发、测试

2022年6月运维数据仓库完成了批量数据接入、流式数据采集处理、标准化加工处理、主题加工处理、集市业务模型加工处理等基本数据处理功能的开发。

2022年10月正式启动运维数据分析系统本地化开发。

2022年11至2023年1月陆续完成了运维数据仓库接口开发、国产化适配、智能化运维特定场景的实施设计等功能。

2023年1月至2023年2月，完成系统集成测试、接收测试、非功能测试、系统安全审查等工作。

（3）上线及试运行阶段

运维数据分析系统及运维数据服务接口于2023年2月28日上线，2023年2月下旬至2023年6月上旬，开展试运行工作。

六、运营情况

智能运维数据分析平台自2023年2月28日正式上线（运维分析系统投产日期）试运行以来，日均处理实时监控数据条目2.12亿条，已接入各类运维工具系统源表380张，数据批处理作业设置860余个。

容量预测场景应用方面，平台已接入15套业务应用系统的数据库表空间和文件系统的指标数据，共计10486条容量指标。其中符合趋势预测要求的指标为8778条，预测结果准确率达到80%以上的指标为8121条，占可预测容量指标的93%。

智能动态基线及指标异常检测场景应用方面，已接入全行25个应用系统（含二级子系统）已形成3522支交易的动态性能基带。

负载均衡综合指数应用方面，目前接入行内15个应用系统，400多个主机应用集群节点,10多个性能指标数据，通过实时监控负载均衡系统。

运维数据服务接口定制近10个，已向可视化运维数据平台、统一运维数据平台等外部系统提供数据服务。

七、项目成效

陕西农信运维数据分析系统以现有运维数据为基础，通过构建容量趋势预测和业务指标智能监控智能化分析场景，及时发现系统潜在的容量风险以提前采取措施，提升告警准确率和扩大监控覆盖范围，充分挖掘数据间蕴含的巨大价值，更好的保障业务稳定运行。其项目成效包括：

（1）实现了统一运维数据供应体系

运维数据仓库集成化的接入了综合监控平台、自动化运维平台、IT运维服务流程系统、CMDB等各类运管工具系统源数据，并对以上数据进行标准化处理，主题模型加工处理，业务场景加工处理，按照数据平台数据加工治理规范进行批量数据加工处理和实时数据供应处理，有效解决了数据定义不清晰，存在多种口径；数据分散，无法集中分析等问题。集中为周边系统提供统一、标准、高质量的的运维数据供应，无需从各数据源头进行“直连式”的数据接入或采集处理，避免蛛网式数据消费链的形成。

（2）实现了运维监测智能化赋能

以我社已投产的业务指标异常检测为例，目前该场景已从交易量、响应率、成功率和平均响应时间4种指标维度实现对主要业务应用类系统的全面运行状态监控。并通过对监控时序数据进行无监督机器学习，生成监测指标动态基线，结合专家经验进行告警策略设定，较好的解决了传统静态阈值赋值方式僵化、机械、误报率高的问题。初步完成了从系统级粗放式监控转向交易级精细化监控的转型。

而基于LTSM算法的容量预测功能可以根据指标历史数据的变化特征较为准确的预测出该指标在未来一个月内的发展趋势和可能的容量预警，提醒管理员及时消除资源容量隐患，协助管理员统筹安排容量管理工作避免导致生产事故，同时优化了运维团队资源配置能力。

负载均衡综合算法的应用可以动态的监测应用集群节点“失衡”状态，并对负载均衡提出有效建议，在降低系统运行风险的同时，避免资源的闲置和浪费，提高资源利用率，从而降低硬件投资成本。

完成场景自助开发架构，为后续自助分析提供了可靠平台。在业务调用深度、调用广度分析工作中，为业务设计人员提供可视化、免维护的数据分析支撑，并通过与性能指标的融合，快速分析业务处理效率较低、存在异常的服务节点，为提高业务处理效率提供准确、可靠的分析数据。

八、经验总结

智能运维数据份分析平台建设作为我社数字化转型的一部分，在进行数据仓库引擎优化、先进算法引入的同时，持续进行数据治理工作也是项目成功的基础，高质量的运维数据、先进的算法、融合的应用场景是运维数据分析类系统成功的关键。同时运维人员转变思想，充分尊重数据价值，也是逐渐从基于经验的运行维护工作向数据驱动的运行维护工作转型的基础。未来，我们还会在故障定界能力、根因分析、告警压缩方面基于已建成平台展开更深入的探索。

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。