本文来源于:鑫智奖·2024第五届金融机构数智化转型优秀案例评选,作者:中国工商银行山东省分行
中国工商银行山东省分行:山东工行智能安全运维平台
2024-06-12 关键词:运维管理,开发运维,智能运维
1463
一、项目背景及目标
随着云计算的持续发展,金融科技发展迈入云原生时代,需要通过业务创新加速推进、研发模式灵活改进、技术架构持续迭代以顺应不断变化的客户需求。传统集中式架构下运维模式存在与业务研发脱节、安全防护难以贯穿应用全生命周期等问题,已经无法满足实际工作需求,需要通过聚焦云效、管理云效、提升云效以顺应不断提升的智能安全运维要求。山东工行积极拥抱全栈自主可控分布式云时代,将运维条线的工作模式从传统的软硬件资源维护转型到分行云效能的挖掘和提升,深化智能安全运维数智化转型,围绕智慧运营、自主可控、安全运维三个方面建立健全自主可控数智化生态创新工作机制,打造高水平自主可控的云计算生态。
二、创新点
在设施运维智能化方面,以智能安全运维平台为底座上线基础设施和应用的自动化操作和自定义任务灵活调度功能,为开发和运维人员提供开放式的即时配置能力。使用服务网格将技术能力以Sidecar模式无侵入的供给应用,提供一站式接入手段,降低技术应用门槛,进而提供强大的服务调用和控制能力,助力研发效能提升。
在提升业务和应用运营水平方面,智能安全运维平台在以日志中心为数据源的基础上,发布应用全息监控能力。通过自定义监控、统计任务和开放式的灵活调度,实现应用请求和处理、业务受理和办理、应用上下游关系等数据的智能化统计并汇总,以丰富完善的数据层为应用画像刻画提供数据基础。基于数据层建设预警和诊断两个中心,预警中心可对应用进行可视化监控,并为应用提供自定义监控配置、报警配置、弹性伸缩等自维护能力,实时配置上线;诊断中心可提供积累的历史数据以及相应的模型,抽离和汇算相关指标后,为后评价、低效应用退出等提供数据支撑。诊断中心还可提供并发数量、会话统计、网络开销、上下游调用关系等模型供运维和开发人员识别、分析和定位问题。
在持续集成和持续交付方面,智能安全运维平台落地DevSecOps,屏蔽了应用部署过程中针对不同环境需要的环境配置、安装步骤等复杂过程。还从技术手段上保证资源管理方式和科技治理理念贯彻落实,最终为科技条线集成化提供源代码管理、质量检测、漏洞扫描、源码及镜像构建、模板发布部署等一系列连贯动作,实现从源码到容器部署的流水线工作。通过持续集成,在源头保障质量;通过集成安全防护能力,运用动态、静态分析工具强化预期行为,保证应用程序的安全性,确保安全防护融入应用全生命周期管理;通过持续交付,将部署与发布解耦,同时将合规性集成到变更批准的流程中。
三、项目技术方案
山东工行智能安全运维平台技术设计如下图所示,

山东工行智能安全运维平台从两方面着手应用和业务连续性探测和分析:
一是数据层面,在以日志中心为数据源的基础上,发布山东工行智能安全运维平台应用全息监控能力。通过自定义监控、统计任务和开放式的灵活调度,实现应用请求和处理、业务受理和办理、应用上下游关系等数据的智能化统计并汇总。以丰富完善的数据层为应用画像刻画提供数据基础;
二是模型层面,基于数据层进行可视化监控和应用智能运营,建设预警和诊断两个中心。其中,预警中心可按照应用-模板-Pod等维度对应用进行可视化监控,并为应用提供自定义监控配置、报警配置、弹性伸缩等自维护能力,实时配置实时上线;诊断中心可提供积累的历史数据以及相应的模型,抽离和汇算相关指标后,为后评价、低效应用退出等提供数据支撑。诊断中心还可提供并发数量、会话统计、网络开销、上下游调用关系等模型供运维和开发人员识别、分析和定位问题。
基于此,山东工行智能安全运维平台建设了能发现并解决问题的遥测系统,将信息安全集成入生产环境遥测中,接入AGI能力,别潜在的问题,运用异常检测和分析技术,自动处理异常状态和告警并指导问题解决。
同时,为主动应对严峻的外部形势,充分掌握应用运行时依赖的开源组件和版本信息,山东工行智能安全运维平台通过字节码技术实现应用无侵入的运行时环境检测能力。以字节码增强的手段,实现应用运行时环境信息、开源组件信息以及应用运行状态信息的收集和上报,为开源组件的使用、开源组件版本可能存在的漏洞、应用可能存在的薄弱点等信息进行统计和汇总,为应用后续迭代升级或整改提供数据支撑,在应用安全水平方面提供及时发现、准确通知的感知能力。
四、项目过程管理
根据项目建设目标和要求,项目采用增量型开发方法。在通过立项后,项目经理组织项目重要干系人参与需求会议和需求访谈,充分收集并定义需求,形成需求跟踪矩阵和范围基准。
基于工作分解结构,项目团体梳理项目活动,制定了项目进度计划,确定了分三个里程碑阶段逐步上线。
第一阶段持续2个月,主要实现了山东工行智能安全运维平台的调度核心、用户管理、操作鉴权、持续集成等核心功能;
第二阶段持续3个月,主要实现了各类收集器和自动化任务,实现了遥测能力、数据汇集和持续交付;
第三阶段持续1个月,主要实现了AIOps相关能力,完成了基于流数据的异常告警、预警、通知、方案自学习和推荐。
五、运营情况
山东工行智能安全运维平台通过可视化、配置化的手段,将应用画像予以展示和灵活操作,让业务和应用运营能力更全面、更智能,同时按日、周、月的频率,自动监测、归集资源运行数据,并生成性能容量报告,高效的监测和管理云平台资源。山东工行智能安全运维平台自上线以来,通过全面的数据收集和分析,实现了对平台、应用和业务运行状态的实时监测,有助于识别风险、对风险进行定量分析和定性分析,有效地监测了应用的全生命周期,保障了山东分行信息系统的安全稳定运行。
六、项目成效
山东工行智能安全运维平台成效体现在以下几点:
(1)提升运维效率。通过自动化操作、遥测、巡检和自定义任务灵活调度能力,山东工行智能安全运维平台能够为开发和运维人员提供开放式的即时配置能力,从而大大提升运维效率,减少人力成本。
(2)优化资源利用:山东工行智能安全运维平台能够实现对基础设施和应用的智能化管理,从而优化资源利用,减少资源浪费。
(3)提高业务连续性:通过实时监测和分析,山东工行智能安全运维平台能够及时发现并解决业务中的问题,提高业务的连续性和稳定性。
(4)提升业务响应速度:山东工行智能安全运维平台能够快速响应业务需求,提供即时的服务,从而提升业务的响应速度。
(5)增强数据安全:通过将山东工行智能安全运维平台接入总行AI能力,建设AIOps增强云效,能够有效发现并填补应用、中间件、设施的遥测盲区,提高数据安全性。
(6)促进创新:山东工行智能安全运维平台能够提供丰富完善的数据层,为应用画像刻画提供数据基础,从而促进业务创新。
(7)提升交付效率:依托DevSecOps,打造灵动的交付模式,实现核心业务流程数智化,代码变化加快30倍,变更部署前置时间缩短200倍,变更成功率提高60倍。
综上所述,山东工行智能安全运维平台项目能够提升运维效率,优化资源利用,提高业务连续性和响应速度,增强数据安全,促进业务创新,有效地保障了山东分行信息系统安全稳定运行。
七、经验总结
山东工行积极开展云管理能力建设工作,依托自主可控云生态为应用提供更低成本、更高效的接入基础云服务,同时将技术能力以简单高效的服务网格形式供给研发,降低技术应用门槛,提供强大的服务调用和控制能力,提升研发效能,实现高水平自主可控的云计算生态建设。通过山东工行智能安全运维平台建设,在智能运维方面,落实DevSecOps理念,不仅将质量保证融入到过程管理和交付成果中,还为开发和运维人员提供开放式的即时配置能力,助力提升研发运维一体化;在业务运营方面,根据不同的业务场景需求定制监测指标,利用AI技术进行实时异常检测,提前预警,减少业务故障发生,确保业务响应速度和迭代敏捷度,最终助力业务的可持续运行。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
广东农信:自动化测试平台建设项目
随着广东农信的业务快速增长,软件产品的广泛使用,使客户对软件产品质量的要求不断提高,作为软件质量的重要保证,软件测试越来越显示出它的巨大优势。
2019第三届农村中小金融机构科技创新优秀案例评选
广东农信
2024-06-12
工商银行数据中心总经理刘方洲:数据中心数字化运维转型实践
近年来,工商银行加快推动全行经营模式和治理模式的数字化变革,以自主研发的“云+分布式”平台为核心,构建满足全行数字化转型需求的新型金融科技基础设施,扎实推进全球银行业大规模主机业务下移,打造了银行业科技高水平自立自强的样板工程。目前,工商银行金融云平台已实现17万节点和45万容器的超大规模自动化、集约化管理,成为工商银行数字化转型的重要驱动力。 工商银行数据中心作为支撑全行业务经营和数字化转型的关键信息基础设施,始终牢固树立底线思维,不断加大科技创新力度,持续探索生产运维管理新范式,为全行高质量发展和数字化转型奠定了新的发展优势。
中国金融电脑
刘方洲
2024-06-12
山东农信:集中运维监控平台项目
为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。
2018第二届农村中小金融机构科技创新优秀案例评选
山东农信
2024-06-12
福建农信:云平台“农信云”项目
随着福建省农村信用社联合社(下称 “福建农信”)规模不断扩大、业务不断增加,应用系统、设备、数据中心空间能耗都不断增加,IT运维各方面都面临种种挑战。
2017首届农村中小金融机构科技创新优秀案例评选
福建农信
2024-06-12
贵州农信:IT可视化运维管理体系建设方案
为切实满足业务连续性及监管部门要求,确保IT系统安全、高效、稳定运行,我社在观山湖数据中心建设过程中同步启动了IT可视化运维管理体系建设。
2019第三届农村中小金融机构科技创新优秀案例评选
贵州农信
2024-06-12
浙江农信:运维一体化管理平台
一体化运维平台的总体构架包括资产管理、自动化运维模块、任务管理、系统管理、单点登录等核心模块
2017首届农村中小金融机构科技创新优秀案例评选
浙江农信
2024-06-12
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构