本文来源于:2024年度全国农村金融机构科技创新优秀案例评选,作者:广东农信

广东农信:数字化运维工作台

2024-10-08 关键词:农信/农商行,运维管理,数据平台 1670

一、项目背景


我联社在数字化转型与“十四五”IT规划的牵引下,已完成覆盖数据中心服务管理、运行指标、配置信息、性能分析等领域的系统建设运行,构建了数据采集、流程管理、监控管理、应用分析等运维场景,但实践中,运维体系各环节还存在着数据标准程度不一、汇聚性不够、整合利用效率不高等短板,运维场景多样化与管理精细化的动能还未充分释放。


为进一步提升运维数据的应用价值,我联社启动数字化运维工作台系统的建设,更好的整合数据中心跨专业领域的流程、资源、性能、容量等运维数据,强化基于运维数据的服务供给、分析、优化、应用的输出能力,提升运维数据获取、利用、价值变现的多样化与便捷性。


二、项目方案


本项目采用“数据平台底座+数据驱动运维”的模式同步开展场景落地及平台建设工作,重点实现以下业务功能:


一是实施开展运维数据平台底座能力建设,实现数据中心的配置数据、流程数据、服务数据、性能数据和监控数据等多源化数据的聚合和统管,形成统一的运维数据服务标准与运维数据基础底座。


二是开展运维数据主题服务建设。在完成运维数据平台底座能力构建的基础上,实现资产对象、事件与风险、运维活动、运行指标分析等维度的运维数据服务集市。


三是以运维数据平台为底座,利用运维数据驱动运维业务,辅助运维管理模式的转变,由被动运维转化为主动运维模式,支撑多个场景化运维场景的建设,展现运维管理成效。包括:运行风险识别、数据服务报表、运维知识沉淀等。

图片 1.png


三、创新点


3.1 改变运维数据管理模式,从烟囱式模式,向共享模式演进


以往的运维数据管理与运维工具系统建设绑定,多采用烟囱式建设模式,运维数据能力难以共享。一是运维数据产生源头泛多,数据汇聚整合度不够,缺乏统一的汇聚利用;二是运维数据存放分散,服务整合输出不足,数据消费场景单一;三是运维数据缺乏平台底座支撑,导致在数据分析与拓展应用等方面存在不足,运维工作数据化、精细化计量不够。


因此,本项目遵循“共享复用”的原则,建设了运维数据平台,强化基于运维数据的服务供给、分析、优化、应用的输出能力,提升运维数据获取、利用、价值变现的多样化与便捷性。


3.2 被动式运维转化为主动式运维


与传统运维事件触发的被动式运维不同,通过本项目建设,数据中心更加关注运维对象的数据趋势分析,注重事前预警、事中分析、事后复盘,通过预防性维护的方式避免事件出现,将被动式运维转化为主动式运维。


3.3 经验判断转换为数据分析


在以往,运维工作的决策依赖运维人员的个人经验判断,这种经验判断模式容易受到主观认知、记忆偏差等因素的影响,导致决策的不准确或者片面,且运维人员的相关经验无法快速分享和便捷沉淀。通过本项目建设,集成对大量客观数据的整合接入和分析计算,有效挖掘出隐藏在数据背后的规律和趋势,通过数据的波动变化趋势反映数据中心的运行规律、工作效率等,辅助提高决策的科学性和准确性,实现更高效、更精准的决策和管理。


四、技术实现特点及优势


4.1 海量数据处理和存储能力


本项目的数据离线分析是基于云平台上的大数据处理服务建设的,主要提供结构化数据的存储和计算,采用抽象的作业处理框架为数据处理任务提供统一的编程接口和界面。支持访问及处理非结构化数据,采用分布式架构,规模可以根据需要平行扩展。具备自动存储容错机制,保障数据高可靠性。同时所有计算在沙箱中运行,保障数据高安全性。支持高并发、高吞吐量的数据上传下载,并支持与ElasticSearch 和Spark集成对接。


在数据存储层面,采用Apache Druid组件进行列式存储模式处理,在查询过程中,此种方式使得系统只需加载与查询相关的列,而无需查询加载整行数据,极大程度地提高数据的检索查询效率,尤其是在处理大规模数据集时,能够显著减少数据加载和处理的开销。在本项目中,还针对特定数据类型进行优化存储,从而支持快速的扫描和聚合操作,这种优化不仅提高了查询性能,还减少了存储空间的占用。


目前本项目能够每日处理数据量达到13亿条以上,数据类型覆盖数据中心中的配置、工单、服务、性能、监控、告警和操作维护等类型,数据存储周期超过1年多,总存储的数据记录达到千亿条以上,能够满足数据中心日常的运作管理和数据分析使用。


4.2 实时计算能力


本项目的实时计算处理能力基于云平台能力上的实时计算平台建设,实时计算平台的底层引擎是基于Flink开发的,继承了Flink的优点并改进了Table API,使其更完整,因此可以使用相同Flink SQL进行批处理和流式处理。关键性能指标超越开源Flink的3到4倍,数据计算延迟优化到秒级乃至亚秒级,单个作业吞吐量可做到百万(记录/秒)级别,单集群规模在数千台。深度整合各类云数据存储,包括Kafka、Elasticsearch、MaxCompute、DataHub、Log Service、RDS、TableStore、 MySQL等各类数据存储系统,无需额外的数据集成工作。


4.3 构建统一运维数据服务,增强运维数据价值


本项目构建了运维数据服务对外的统一窗口,提供开放、共享的运维数据服务。一是构建运维数据报表服务,形成应用变更数据报表、维护数据报表、事件报表、问题报表等报表服务。二是构建主题分析服务,形成应用性能分析、资源状态分析、容量趋势分析等主题服务。三是在运维数据主题服务基础上,开展智能场景分析,实现生产运行安全隐患的提前识别与事务跟进。四是满足用户自由对接消费事件、变更、告警、日志等数据,通过定制、组装、自定义等方式,制作形成差异化诸如关键报表、监控图谱、运行拓扑等技术知识,并提供给运维团队、及外部服务团队进行共享,促进运维技术知识的传递和沉淀。


五、项目过程管理


广东农信于2022年6月启动数字化运维工作台项目,2023年3月完成系统正式投产上线,目前正常运行中。


六、运营情况


系统投产运行至今,整体运行平稳,每日接入和加工处理的数据量达13亿以上,接入的运维数据类型覆盖配置、工单、服务、性能、监控、告警和操作维护等七大类运维数据,形成了运维资产对象、运维活动、运行风险和运行状态等四大类运维数据主题和超300个数据指标,基于运维数据平台构建了数据中心资产管理、监控运营分析报告、投产变更管控、资源使用分析等10多个数据应用场景和50个可视化图表应用。


七、项目成效


项目成效1:打通运维数据“采存算管用”一体化链路


本项目通过构建运维数据平台,完成“采集、存储、计算、管理、应用”的链路打通,实现运维数据的全生命周期的管理。通过脚本、流量、日志、API、爬虫等方式,采集汇聚运维各领域业务数据,实现5万QPS的采集能力。根据不同主题的运维业务数据,采取分层分类模式进行存储,并根据不同主题的数据的使用场景的差异性,设计冷、温、热模式机制进行数据的压缩存储和检索加速处理,目前数据存储周期超过1年多,总存储的数据记录达到千亿条以上。在完成运维业务数据统一存储的基础上,进行开展对运维数据的格式化、标准化,开展运维数据建模、运维指标分析,目前已实现建模超500个数据模型,结合应用场景共实现超300个数据指标。


运维数据能够实现统一管理,有利于发现价值较高的运维数据域,便于开展相对应的运维数据治理。基于统一的运维数据平台和构建的数据模型,使运维人员,可以更加专注于已规整的运维数据的应用。


项目成效2:建设运维数据平台实现共享,消除运维数据孤岛


通过聚合运维各领域系统之间的数据,能够灵活接入不同源数据,形成运维数据平台,解决了运维数据孤岛的问题,高数据处理性能亦充分发挥了我联社海量数据和丰富应用场景的优势,基于运维数据平台,深入开展针对运维数据的建模和计算处理,形成统一的运维数据标准和服务,为我联社的数据中心可视化等系统提供高效的数据支撑。


项目成效3:利用运维数据提升数据中心的精细化管理能力


基于运维数据平台,结合场景化应用需求,建设形成量化的图表形式展示运维团队和个人承载工作、服务承载情况,以管理者视角的视图看板展示数据中心的运作情况,为团队分工、人员效能、资产管理和服务质量的建设从传统的定性、粗放式的管理改变为量化、精细的管理模式。


图片 2.png

图:数据中心资产管理


图片 3.png

图:运维工作任务管理


八、经验总结


对数字化运维工作台项目建设的探索和实践,让广东农信进一步整合了运维数据的分析和服务能力,通过对运维数据统一采集、集中分析、运维场景深入挖掘和应用,实现对数据中心的精细化管理,显著提升了广东农信数据中心的运营管理工作效率。接下来,我们将持续推进广东农信数字化运维工作台的建设,一是持续完善运维数据接入的广度和深度,丰富运维数据的服务能力;二是结合数据中心的运作管理,以数据驱动运维业务模式,开展更多针对业务连续性安全保障、服务质量、交付效率、成本管理等场景功能的建设。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2024-10-08

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2024-10-08

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2024-10-08

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2024-10-08

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2024-10-08

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2024-10-08

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行
  • 数据平台
  • 运维管理

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构