本文来源于:2023第七届农村中小金融机构科技创新优秀案例评选,作者:昆山农商银行
昆山农商银行:基于AIOps的智能运维中台项目建设
2023-09-28 关键词:农信/农商行,运维管理,数字化转型
2259
一、项目背景、目标及相关规划
1.项目背景
近几年来,大数据、人工智能等IT技术的高速发展,DevOps、AIOps等新文化、新理念的冲击,几乎所有企业的技术部门都在谋求变革,不仅仅是为了跟上技术潮流,更是为了能适应随着业务而一起发展的IT系统的运维复杂度和体量,部分比较靠前的同业甚至完成了从支撑业务到引领业务、技术输出的转型。在这场IT运维的变革中,运维中台的建设将是IT运维实现数字化转型的关键一步。
按照我行应用系统应急响应能力提升、业务连续性保障的基本要求,结合全行数字化转型的内在需求,我部提出了运维中台建设的总体目标,拟在2-3年时间内,依据中台建设思路,通过弥补短板、统一规范、整合优化三大步骤对运维监控、管理、分析完成数字化、智能化、轻型化的转型目标。
2.项目目标
本次智能运维中台建设作为我行数字化转型的起点和根基,遵照“统筹规划、循序渐进、重点突破、稳步实施”的主方向,建立了一个可持续推进我行数字化转型、运维流程优化并推进架构和业务优化的智能运维中台。总体目标围绕以下三点:
1)实现运维数据的统一管理和运用,建立统一的运维数据的规范标准,通过模型分析实现运维能力的数字化展现。一是将基础监控工具告警数据进行统一收集和分析,并进行统一告警,解决目前存在的重复告警风暴、告警工具失效等问题;二是预制多种告警分析模型,预判容量增长速度,甄别轻微和重度风险,帮助运维人员提前介入解决潜在的生产事件风险;三是落实部分自动化运维与智能运维场景,将基线扫描、自动化巡检、应用系统故障自动定位等加入训练场景,逐步对我行的人工运维管理方式进行替代。
2)降低运维变更和操作风险。一是通过流程动态数据与配置管理静态数据进行比对,识别和发现未经授权或审批的系统变更,便于事后进行回溯和定位;二是通过监控分析数据与事件处置数据进行比对,分析运维事件的发生时间、处理效率、影响范围等是否与运维人员分析汇报结果一致;三是收集和分析运维人员的操作过程中的行为数据,发现和识别运维人员潜在的操作风险问题。终实现降低运维变更和操作风险,达到杜绝“灯下黑”的运维管理目标。
3)优化应用系统客户服务能力。一是运用运维数据中台成熟模型,对应用系统服务的有效性、响应时间和返回结果进行分析,并对各指标的变化趋势进行预估,从而推动应用架构优化和性能优化,对生产问题和性能瓶颈风险进行前置化处理;二是通过交易路径分析,发现业务交易中的逻辑或安全风险问题,并对交易失败、数据差错等问题进行集中分析,反推业务部门对应用系统进行需求优化改造。
3.建设规划
1)总体思路:
本次项目建设的总体思路是利用人工智能、数据仓库、机器学习等方法,解决传统运维模式下的数据孤岛以及监控盲区问题,创造出智能化运维的新成果。通过集成各种智能技术,包括AI技术、数据仓库技术、机器学习技术等,实现对运维数据的实时监控和分析,提高故障诊断和维护的效率,实现对运维过程的全面监控、分析和优化,提高运维效率和故障诊断准确率。此外,智能运维中台还集成各种机器学习模型,实现对运维数据的分析和预测,提高故障诊断和维护的效率,实现对运维过程的持续优化。
2)技术原理:
数据采集:通过各种应用或设备采集运维数据,如CPU、内存、磁盘、交易量、交易耗时、成功率、响应率、日志等指标。
数据存储:将采集到的运维数据存储到本地Beaver库,以便后续分析和处理。
数据处理:对采集到的运维数据进行清洗、格式转换、去重、归并化等处理,以便后续的数据分析和展示。
数据展示:通过可视化工具将采集到的运维数据进行可视化呈现,如仪表盘、数据报表、图表等,以便运维人员实时了解系统状态和性能。
数据分析:通过数据分析工具对采集到的运维数据进行深入挖掘和分析,以便发现系统中的问题和优化点。
应用集成:将智能运维中台与企业内部的业务系统、数据库等进行集成,以便实现数据的共享和互通。
安全控制:通过各种安全策略和技术手段,保障运维数据的安全性和隐私性。
3)技术架构:
底层数据源:包括各个基础监控工具,如Tivoli基础环境监控、Vrops虚拟化监控、BPC应用监控、NPM流量监控、数据库监控、硬件监控、日志分析平台等。
中台数据治理及分析层:包括大数据平台基础能力中的数据集成、数据开发、数据管理、数据服务等。
管理工具层:统一运维监控,包括全局监控、日志分析、告警管理、智能运维;ITIL流程管理,包括事件管理、问题管理、变更管理、SLA管理;
应用场景层:包括告警抑制、去重,容量预警,自动化巡检,故障定位,根因分析,自动化流程等。

系统架构图

系统拓扑图

数据架构图
二、创新点
本次项目通过集成智能AI算法,实现了对运维过程的全面监控、分析和优化。以下是本次智能运维中台的关键技术内容:
1.多模式统一采集质量标准:平台采用跨平台、跨语言栈、高兼容性的多模式统一采集质量标准,兼容多种运行环境,支持一致的维度关联属性,使得数据采集更加高效、准确、稳定。
2.数据汇聚、存储与建模:平台支持数据的汇聚、存储与建模,提供元数据限制更为宽松的数据写入和获取途径、简易的数据清洗任务创建与管理、灵活的数据访问控制和使用行为审计等功能,为数据的后续处理和应用提供支持。
3.高性能的数据处理和存储:平台采用高性能的数据处理和存储技术,支持大规模数据的处理和存储,保证数据的高效处理和存储。
4.易于扩展和集成:平台具备易于扩展和集成的特性,可以与其他系统进行集成,实现数据的共享和互通。
5.数据分析与挖掘:平台基于大数据平台多个技术组件如flink、spark、kafka等进行数据分析和挖掘,挖掘出数据背后的价值信息,为业务运营提供决策支持。
6.智能预测与决策:平台通过机器学习、人工智能等技术,对系统运行状态、故障原因等进行分析和预测,提前制定应对策略,避免故障的发生,提高系统的可靠性和稳定性。
7.自动化运维与监控:平台通过构建自动化脚本或程序,实现对系统运行的自动化管理和监控,包括任务调度、资源调配、故障处理等,提高系统的运维效率和稳定性。
三、项目过程管理
1.项目调研及选型阶段
2021年08月至2022年03月,主要完成了项目调研、项目可行性分析,形成了项目可行性分析报告、项目风险分析报告、项目建设纲要以及POC选型。
2.需求分析和概要设计阶段
2022年04月至2022年05月,主要完成了需求梳理、方案设计、进度规划等工作,形成了需求说明书、进度计划、项目建设方案、实施计划等文档。
3.系统详细交付阶段
2022年05月至2022年10月,主要完成了数据采集、数据清洗、方案实施、智能运维、根因分析、自动化巡检等工作,形成了需求记录手册、问题登记册、实施报告、系统设计报告、测试报告等文档。
4.系统编码、测试和上线准备阶段
2022年8月至2022年10月,主要完成了系统测试、上线设计工作,形成了测试报告、上线方案、应急手册等文档。
5.试点上线阶段
2022年10月至2022年11月,主要完成了系统上线、系统试运行工作,形成了系统试运行报告文档。
6.推广应用阶段
2022年11月,主要完成了系统推广、系统文档整理工作,形成了系统使用手册、系统维护手册文档。
四、运营情况
1.日志分析平台:纳管了全行所有应用系统日志数据以满足人行及银监应用系统日志存储要求,同时包括各应用监控能力,涉及865个监控策略,提高了监控的覆盖率及准确率。
2.统一运维监控平台:集成多个基础监控工具,通过企业微信统一集中发送监控告警,进行去重、压缩、归并,避免传统运维模式的“误报、漏报、烂报”;同时配合AI算法实现容量预警、指标边界检测、交叉验证、系统健康度画像、自动化巡检等智能运维场景提高场景丰富度。
3.数据库监控平台:纳管了全行多套数据库实例,覆盖全行所有系统的ORACLE、MySQL、DB2及Redis数据库,涉及多个数据库监控模板、173个数据库监控指标。
4.CMDB配置管理数据库:纳管了全行所有IT资源,部分资源如虚拟机、操作系统、硬件资源状态等已实现自动同步、更新,同时涉及多个应用消费场景,实现了部分场景下的流程闭环。全流程闭环逐步推进中。
5.Tivoli系统环境监控:纳管了全行所有操作系统资源监控,包括CPU、内存、磁盘、IO、进程等指标监控。
6.NPM网络流量监控:纳管了部分线路流量、业务流量指标监控,包括所有外联线路,业务区南北向流量等。
7.BPC应用监控:通过旁路流量无侵入式纳管了全行多套应用系统交易指标监控,涉及216个监控策略。
8.硬件监控平台:通过服务器BMC带外口实现了全行硬件设备的运行状态监控,包括电源、风扇、内存、CPU、硬盘等指标。
五、项目成效
经济效益主要体现如下:
1.初步解决“漏报、滥报、误报”问题,显著提升告警精确度并缩短问题定位时间,告警覆盖度提升至95%以上,问题解决效率提升75%以上;
2.防患于未然,有效增强主动运维能力,运维中台针对告警数据、日志、文件等实现事前、事中的全面告警以及事后分析机制,运维团队对于生产问题处置效率不断提升,避免了轻微生产事件影响的扩大化,将生产问题由客户或业务部门通知我部解决的情况逐步转变为我部通过告警发现问题及时处理,部分场景业务部门电话通知时相关问题已经得到解决,显著提升了我部对于生产问题的主动运维能力。
3.实现自动化巡检,降低人工巡检成本,运维中台利用CMDB与统一监控平台数据采集与比对功能替代人工巡检并进行告警,完成了研发各组及质量架构组重要系统自动化巡检上线,通过企业微信将巡检报表定时自动推送至部门群并报送巡检结果,节省了人工巡检成本30人天/月。
4.企业微信统一告警代替短信,有效节约短信费用,运维中台已实现告警压缩去重,并通过企业微信机器人在部门群、各监控群进行推送,目前已下线所有运维短信告警,可节省短信费用约25万/年。
社会效益主要体现如下:
1.助推我行数字化转型,通过智能化的运维手段,替代传统运维方式,全方位优化我行客户体验,提升我行的系统运营能力和风险防控能力,进而不断提升我行的数字化运营能力。
2.积极响应监管要求,推进相关技术自主可控,借助智能运维中台建设机会,实现监控层面系统去IOE、国产化的目标,积极响应国家在关键技术领域自主可控的战略要求,推动去IOE、国产化进程。
六、经验总结
1.元数据准确性:元数据的准确与否关系到整个智能运维中台的建设成效,项目建设过程中,首先需要保证元数据的准确性,以此作为数据基座才能够保证后续应用和场景输出的可信任程度。
2.多方沟通协调:智能运维中台涉及条线以及应用场景较多,包括业务条线、研发条线、运维条线、架构设计条线以及多个三方厂商,项目建设实施前应制定相应的项目计划以及沟通协调机制,确保项目能够顺利实施。
3.明确目标:当前智能运维中台可实现场景及应用百花齐放,项目建设前,需结合自身运营特性以及现状痛点,明确亟需完成的目标,贪多嚼不烂,应按照“统筹规划、循序渐进、重点突破、稳步实施”的主方向,建立一个可持续推进数字化转型与运维流程优化的智能运维中台。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2023-09-28
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2023-09-28
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2023-09-28
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2023-09-28
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2023-09-28
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2023-09-28
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构