本文来源于:2022年第六届农村中小金融机构科技创新优秀案例评选,作者:吉林农信
吉林农信:北极星智能运维中台
2022-09-23 关键词:农信/农商行,运维管理,中台
3738
一、项目背景、目标及相关规划
1.项目背景
在云计算、大数据和人工智能等技术浪潮的推动下,IT技术对业务的支撑达到了空前的高度,企业IT运维管理的难度也与日俱增。如何提升IT运维管理效率,更优质的服务于客户、服务于业务,是吉林农信运行维护工作的*****要务。
在当下,吉林农信在数字化转型过程中,IT架构越来越复杂,海量的IT、业务数据无法快速分析、处理,运行维护工作面临着监控工具相对分散、数据无法互通互享,缺乏统一的数据管理能力的问题,海量运维数据缺乏数据加工能力,对各种运维数据价值挖掘不足,缺乏智能算法分析能力,数据无法直观展示,无法有效对运维人员起到指导作用,运维整体状态缺乏全局可视化掌控,无法从管理者视角直观审视业务运营与IT运维中的有效信息,缺少立体可视化方式为提升管理效率做出有效决策。
为解决“发现问题难,根因定位难,故障预测难,数据治理难、容量管理难、数据展现难”等运维工作在吉林农信数字化转型过程中遇到的痛点,吉林农信以“统一化、个性化、智能化”为建设目标,以“OneDate,OneService”为建设方法论,以“数据驱动运维”为建设理念,用数据说话,用数据决策,拟打造一个符合吉林农信数字化转型所需的运维智能化中台,建设过程分为三个阶段,*****阶段是“摸家底,建地基”,基于吉林农信现有运维工具体系建设情况,先摸排清楚运维数据资产,夯实基础,基于要实现的运维数字化、智能化场景,梳理运维数据分析所涉及的监控、日志、性能、配置、流程、应用运维6类数据存储在哪里,工具或平台架构、数据结构、数据实时性、数据完整性、数据正确性、数据标准化程度等方案,初步打通“竖井式”建设的数据壁垒,初步完成数据“统一化”;第二阶段是“建标准,强管控”,结合*****阶段的成果,建立数据管控的流程、机制、标准、安全体系能力,建立一站式的运维数据平台,从运维数据应用场景角度建立运维数据标准,以运维指标体系场景驱动落地数据资产,以场景化运维驱动CMDB配置数据标准化,以数据资产标准化驱动数据展现“个性化”;第三阶段是“深洞察,促智能”,结合上述两个阶段的交付成果,利用成熟的大数据、智能算法、智能决策分析、机器学习等技术,挖掘运维数据的价值,建立数据与业务间的双向“连接”关系,发现业务价值,为运行工作提供决策信息,为吉林农信的数字化转型赋能,实现“智能化”。本项目建设计划初步完成*****阶段的目标,并初步尝试探索第二、三阶段的实现方案。
2.建设内容
项目基于大数据、智能算法、智能决策分析、机器学习等前沿技术构建监控中心大屏可视化平台,解决运维工具分散、数据无法互通互享、海量数据无统一处理、数据种类多、数据价值挖掘不足、缺少智能分析能力、数据无直观展示、缺少全局可视化监控展示等运维数据管理问题。项目从统一集中采集,统一运维数据中台,统一监控可视化三方面着手,实现了实时智能监测,立体化展示业务系统整体运行情况的目标。
本项目主要实现了以下内容:一是建设集中采控中心,为运维人员内置常用指标采集模板、日志采集模板、容器模板,无需过多配置,直接使用,同时也对采集任务和采集行为进行统一规范的调度和管控,避免不规范操作导致宕机异常;二是建设统一运维数据加工中心,实现数据统一加工管理,满足对数据的应用开发需求,集成流式数据处理、流式计算处理,根据不同的数据支持使用不同的存储引擎,提高运维数据处理效率;三是建设智能算法中心,对算法管理与配置、智能化数据分析、模型训练与调优、算法泛型发布与应用等全流程集成管控,提升对运维数据价值挖掘;四是建设统一运维监控可视化中心,基于CMDB,构建涵盖主机、网络、数据库、中间件等监控资源的层级化指标管理体系、健康度体系和告警体系,通过智能算法进行异常检测和趋势预测,形成全方位、立体化监控。运维人员可根据所负责的资源进行自定义监控配置展示,出现问题无需跨多个工具进行排查,提高排障时间,管理者通过可视化大屏直观触达吉林农信运行维护工作的系统整体运行态势。
3.系统架构
3.1 系统应用架构

图1应用架构图
北极星智能运维中台的应用架构如图1 所示,主要分为展示层、业务层、数据层、采集层四部分,具体说明如下:
展现层
展现层体现了北极星智能运维中台的运维监控数据输出能力,满足了实时OLAP分析、实时业务监控、实时指标监控、系统健康度等运维场景的数据监控指标分析诉求。
业务层
业务层体现了北极星智能运维中台的逻辑处理能力,通过事件中心进行监控报警,保证系统稳定运行,监控内容包括业务监控、数据监控、基础服务监控。通过日志分析中心对应用日志进行分析、业务逻辑处理支撑,展现层提供数据逻辑。用户中心对用户权限、菜单权限进行管理、日志审计、操作统计等支持。
数据层
数据层体现了北极星智能运维中台的数据处理能力、数据加工能力、数据指标治理能力、配置管理构建数据之间依赖关系、大数据运维数据库进行高性能数据处理、数据检索、数据压缩能力,智能算法引擎通过算法的智能化计算与分析生成相应的决策建议,并根据实际结果与趋势判断采用的处理策略,减少人工判别可能导致的误判与人工决策的耗时。对于业务与性能的关联性分析,也可采用同样的策略,依据技术指标体系与系统性能实时数据,快速发现业务与系统性能之间的量化关系,分析系统性能对业务开展的影响程度。
采集层
采集层体现了北极星智能运维中台数据采集能力,作为数据中台的数据统一入口,对接行内数据源以及第三方数据源,提供了主流数据接入模板,实现快速接入,系统内部设置熔断机制,在采集数据同时保障对接系统稳定性。
3.2 系统技术架构

图2 技术架构图
北极星智能运维中台的组件配置信息存储在 Nacos 配置管理平台、实时计算数据库 ClickHouse 的分布式元信息维护在 Zookeeper 分布式应用一致性平台、该平台接入的数据流任务维护在 Kafka 流式数据处理平台、数据接入流的任务调度管理维护在 Yarn 资源管理及作业调度平台、该平台的可视化分析能力使用了 Grafana 度量分析和可视化工具。
3.3 系统数据架构

图3 数据架构图
北极星智能运维中台通过采控中心统一采集、接入所有监控系统数据源,其中数据存储技术选型为支持在线横向扩展的实时计算数据库 ClickHouse、配置管理数据库技术选型为分布式图数据库ArrangoDB、分布式全文搜索引擎选型为 Elasticsearch;Clickhouse 存储原始数据及预处理后数据,Elasticsearch 存储被索引聚合使用成部分维度和指标,既保证了运维数据的实时计算能力也保障了高并发、高吞量的性能。
3.4 系统部署架构

图4 数据架构图
北极星智能运维中台采用分布式系统架构进行设计,主要使用分布式应用节点和分布式数据存储。各应用模块多节点分布部署,实现实时注册服务、统一调度和管理,并且支持应用节点动态扩容,并具有高可用性、高并发性、高可扩展性。
二、创新点
1.平台化数据采集设计,打破监控工具分散局限性
北极星智能运维中台的数据采集中心,采用平台化设计思想,旨在打破运维工具多样化,监控工具相对分散、数据无法互通互享,缺乏统一数据采集能力的局限性。平台采用分布式架构技术,高并发、高吞吐量数据采集,支持采集任务自动熔断机制,避免数据采集任务影响业务运行,支持源设备自动发现能力,不依赖监控设备,纳管不同种类数据源,内置几十个开箱即用的采集模板,兼容Linux、Windows、AIX、国产麒麟等多种不同类型、不同版本的操作系统,集成多种行业常用的数据库模板、中间件模板、服务器指标模板、主流开源基础监控服务模板,从嵌入式设备、网页、服务器、应用程序等均能快速接入。
2.大数据平台设计理念,突破数据孤岛,体现数据价值
北极星智能运维中台的数据加工中心,采用分布式架构技术、大数据流程引擎技术,根据现有监控数据多样化、海量结构化数据、半结构化数据进行开发、存储与管理,数据存储基于分布式架构方式存储及高性能数据压缩计算,提高存储能力、提升数据处理效率;数据开发基于流式作业、流处理引擎的两种流作业开发模式,支持拓扑任务、程序开发任务、 SQL任务三类开发任务,支持内置40+数据处理组件以及数据处理模版,开箱即用,方便对多样化数据的处理,运维人员可对数据进行数据关联、数据地图等关系查询,满足更多更复杂运维业务场景。
3.集成式智能算法技术,保障数据隐私及算法有效性
北极星智能运维中台的数据算法中心,以现有运维历史指标数据、实时采集的指标数据及监控工具提供的告警数据作为数据建模支撑,通过多源异构数据的整合与清洗进行智能算法分析和洞察,同时结合数据加密技术,以日志敏感数据不暴露为原则,在保证数据隐私安全及合规的基础上,进行指标异常检测、指标预测、日志模式识别、日志异常检测、根因分析与推荐、多指标分析、告警降噪。通过算法分析,提前预测了系统故障,降低了IT运维人员的排障门槛,提升运维效率。
4.平台化监控中心设计,灵活配置可视化,直观运行态势
北极星智能运维中台的数据可视化监控中心,为解决当前庞大的运维数据分散存储、海量的日志无法及时识别和处理,无法依靠人工分析判断,并且没有统一集中监控展示,运维数据无法关联整合等问题。数据可视化监控中心从底层基础硬件到上层业务进行全资源运行监控,整合业务数据、应用性能数据、软硬件运行指标数据,提供统一监控能力,从健康度、运行指标信息、告警信息、日志、整体应用拓扑关系等立体化展示,联动算法平台进行多维度指标数据监控与异常分析能力,解决运维跨团队、跨工具协作能力,提高运维效率,为管理者提供决策支撑。
三、项目过程管理
北极星智能运维中台项目由吉林省农村信用社联合社信息科技中心负责牵头及实施,采用试点实施和推广的分阶段方式,主要经历了以下几个阶段:
1. 需求分析和概要设计阶段
此阶段时间段为2021年10月至2021年11月,其间主要完成了需求调研分析、业务需求分析、业务功能和技术构架设计。提交了需求分析说明书、非功能需求说明书、各功能模块的概要设计、技术构架设计和接口设设计等文档。
2.系统详细设计阶段
此阶段起始时间为2021年12月至2022年01月,其间主要完成了系统详细设计工作,提交了系统详细设计说明书、硬件部署架构规划方案、信息系统安全设计报告等文档。
3.系统编码、测试和上线准备阶段
此阶段起始时间为2022年02月至2022年05月,其间完成了系统开发的编码、测试以及试点行上线准备工作,提交了源码、系统测试报告、上线方案、上线操作手册、回退方案等文档。
4. 试点上线阶段
此阶段起始时间为2022年05月至2022年06月,其间完成了5套重保系统日志上线,运维中心各处室日常运维工作看板监控配置上线,并根据试点行上线运行的情况,为推广实施提出了优化需求。
5. 推广实施阶段
此阶段起始时间为2022年07月至2022年09月,对除试点系统外的贷记卡前置、金融IC卡前置、电子渠道综合前置、加密平台、网上跨行支付清算分批推广上线,并对全行重保系统配置交易监控可视化展示,项目实施严格按照总行项目管理相关制度,从计划、质量、财务等多方面进行规范化管理,项目终如期完成。
四、运营情况
北极星智能运维中台系统,系统上线前,出现问题需要跨部门、多个工具进行问题定位,排障投入资源多、排障时间长。系统上线后,运维人员统一登陆系统监控中心运维工作台总览,快速通过图形化展示定位故障,直观展示问题是发生在网络、服务器、应用、数据库、中间件,定位问题后直接跳转到问题系统中处理。经过系统运行一段时间对比,排障时间从平均半小时级,提升至分钟级。
系统上线前故障定位准确率较低,数据无法互通互享,跨多个监控工具报错问题无法通过关联分析进行总体定位,系统上线后对所有监控工具数据进行整合加工,通过告警与指标的趋势分析,日志分析,出现故障时立体可视化展示,系统故障定位准确率提高70%。
五、项目成效
1.提升运维质效,保障农信体系的市场竞争力
北极星智能运维中台通过算法的智能化计算与分析生成相应的决策建议,并根据实际结果与趋势判断采用的处理策略,减少人工判别可能导致的误判与人工决策的耗时。对于业务与性能的关联性分析,也可采用同样的策略,依据技术指标体系与系统性能实时数据,快速发现业务与系统性能之间的量化关系,分析系统性能对业务开展的影响程度。极大地降低了各业务场景全链路态势监控的时延,监控指标数据流平均处理时长毫秒级,指标准确率99.17%,针对异常指标的排障平均用时5分钟左右,极大的提升运维效率。
2.强化态势感知粒度,确保金融业务的安全可控
该平台丰富的智能业务引擎与规则引擎,通过指标体系监控能力大幅精细化核心业务场景监控指标的粒度与准度,打破原有运维流程存在难以克服的内生弊端,是推进智能运维落地攻战的一次突破。
3.降低运维成本,彰显吉林农信 IT 建设的优越性
该平台极大的简化了运维团队的工作流程,同时也释放了更多运维岗位的人力资源,赋能其他缺少人力资源的团队,一释放一赋能之间,又进一步体现了本社优秀 IT 建设能力。
六、经验总结
基于北极星智能数据中台项目的建设,打通“竖井式”的数据壁垒,统一运维数据标准,把运维数据所涉及的监控、日志、性能、配置、流程、应用运维等数据指标化存储,通过集中数据采集、数据清洗、特征加工、规则模型、顶层场景的设计,从而形成运维场景各层级应用系统的调用关联,做到端到端覆盖,以数据资产标准化驱动数据展现“个性化”,利用智能算法平台,形成业务场景健康度、多维分析IT指标、IT调用链、业务层级拓扑的立体化监控。通过平台的技术支撑和数据驱动运维的理念相结合,实现吉林农信智能运维的一次变革,在数字化转型开展的同时,数据中心除了发挥固有的IT支撑作用之外,也满足了通过业务系统数据洞察来帮助和指导企业的数字化业务创新,从而提高IT运维管理效率,提升客户服务质量、提升企业市场竞争力。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2022-09-23
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2022-09-23
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2022-09-23
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2022-09-23
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2022-09-23
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2022-09-23
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构