本文来源于:2024年度全国农村金融机构科技创新优秀案例评选,作者:陕西农信
陕西农信:运维操作风险管控中心
2024-10-09 关键词:农信/农商行,运维管理,智能运维
3023
一、项目背景及目标
随着数字化转型工作的持续推进,陕西农信信息科技架构不断向专业化,数字化,标准化的方向发展。同时,伴随着分布式、微服务、云平台等新兴技术架构和基础设施平台的深入应用,运维工作也面临着诸多挑战。为匹配数字化转型的运维能力需要,陕西农信依据智能一体化运维体系建设规划近年来建设了以自动化运维平台、智能数据分析系统等一批自动化、智能化的运维工具系统,旨在提高运维操作的标准化水平,降低运维操作风险。目前在陕西农信自动化运维平台上,封装并纳管了大量基于处置预案、发布流程制定的标准化、自动化运维作业,已基本实现了对标准运维操作的自动化管控,有效的降低了运维操作风险。
但在运维操作实务中,由于事件处置、系统排障的客观需要,自动化运维无法完全取代人工运维操作,非标准化的运维操作仍然需要由运维人员进行人工操作。与大多数同业机构一样,我社配置了具有操作管控和运维审计的功能的堡垒机系统,作为生产环境运维操作的防火闸。此外,陕西农信自主研发了数据库执行平台,对数据库运维操作进行了深度专项管控。上述两个系统通过高细粒度的权限控制能力以及行为审计能力实现了对运维人员操作行为的基本入口管控。
目前以堡垒机为代表的传统运维操作防控手段,主要以事前防控为主,存在授权方式不灵活、阻截操作范围僵化、外部运维数据联动不足、人工审计成本高的问题。但随着近年来金融机构对业务连续性、安全运维需求的不断提升,传统的操作行为管控能力已无法满足运维操作风险防控的精细化管理要求。
为提高运维操作风险防控的水平,建立针对“运维行为、运维人员、运维环境”多要素的全面操作风险管理机制,我社根据客观运维工作需要,建立了一个以数智化为特点运维操作风险管控系统,实现了运维操作“事前管、事中控、事后析”的全生命周期风险管理,实现对陕西农信运维操作的风险管控能力提升。
二、项目方案
根据我社运维能力工具建设规划,我们按照“高内聚低耦合”模块化的建设思路,在陕西农信统一运维操作平台上建设了运维操作风险管控中心(以下简称:本系统)。该系统接入统一运维操作平台的平台参数管理、权限管理、系统资源、授权管理等基础能力,以我社分布式技术平台标准组件为技术底座,采用微服务架构构建了运维操作风险管控中心操作入口风控、操作人员风控、操作环境风控等相关业务功能。

(1)技术架构
在技术架构设计方面,本系统按照我社自主可控能力建设工作以及信创相关工作要求,对系统进行了技术架构设计:

展现层主要通过VUE、HTML5等主流前端技术框架,向WEB端用户、ECC大屏以及移动端提供前端展现、用户交互能力。通过HTTP、WebSocket等技术实现与服务端的通讯。
服务层中基础服务复用统一运维操作平台,使用F5实现负载均衡、高可用能力,同时借助运维门户中心、基础管理中心实现通用标准功能。通过接入我社分布式技术平台服务注册中心、Kafka、MQ等技术组件实现与其他中心的数据、功能交互。核心业务功能由操作入口风控、操作人员风控、操作环境风控三大微服务组成。
接入层主要为本系统对接的外部平台,其中告警、监控、配置等外部数据,通过运维数据中台数据集市层进行数据交互,功能交互则通过http、restful协议对堡垒机系统、数据库执行平台等外部工具类系统进行API访问接入。
存储层使用国产化数据库人大金仓+Elasticsearch进行数据持久化,并通过Redis缓存,提高系统数据读取效率。
部署层使用宝兰德WebServer+普元APPServer中间件作为本系统各微服务节点以及前端的部署容器,操作系统采用麒麟V10。
(2)功能架构
本系统业务功能包含操作入口风控、操作人员风控,操作环境风控三大核心模块。借助智能算法,强化高危操作范围、操作评分等场景下智能化水平,构建操作风险的事前、事中、事后的全面运维风险防控能力。具体如下:

(1)操作入口风控
操作资源管理
作为操作事前管理的核心模块,为强化堡垒机系统、数据库执行平台中资源(人员、系统、主机等)数据标准化管理,本系统通过与陕西农信CMDB系统进行数据对接,定期进行资源数据同步,保证操作入口管理工具纳管资源的即时有效性。
操作权限管理
本系统通过定制化界面向入口管理员提供资源配置界面,除支持静态(长期)权限的传统授权模式外,还支持接入流程工单、告警、配置等外部数据,实现对操作权限范围的动态开通,并支持告警处理、变更发布等多场景的“一事一授权”的短效授权模式。
告警处置场景临时授权
当平台接受到告警后,用户可在一般运维场景(告警处置、事件处理)中,通过快捷功能或工单流程主动申请开启授权申请,由操作入口管理员根据运维实施人评分等级,确认操作复核条件,完成流程审批后,系统根据IP,基于最小化原则和权限最大使用原则,测算出基于CMDB关联关系的最小化授权,开通目标资源的可访问权限。同时根据告警类型及告警目标,开启相关资源操作权限,并将此次堡垒机操作作为告警的事件处置记录进行关联、归档,为相同告警处置参考、事后复盘等场景提供数据支撑。

变更发布场景临时授权
对于一些不适用于自动化发布的变更场景,当非标准发布工单到达操作人员后,操作人员可申请变更内容向操作入口管理员申请开通堡垒机/数据库执行平台对目标资源的临时性操作权限,并自动启用双人复核机制。在实施结束后依照发布实施方案中执行内容与堡垒机操作记录进行比对,并对本次非标发布操作一致性比对评分,若评分较低,则进行操作告警。
操作风险管理
系统可通过内置风险操作管理模块维护操作系统高危命令、数据库高危命令、数据库敏感资源(特定库、表、列)。并支持对高危命令进行分级分类配置,通过对命令/操作的风险等级判定,分类配置“阻截、授权、告警”等不同后置管理策略。同时基于高危命令识别算法,实现动态维护高危命令范围。
运维操作监控
平台系统支持对对指定运维人员的实时操作内容向指定的第三方用户进行即时展示,并提供操作环境信息、操作资源信息、操作人员信息等上下文信息展示。

操作复核管理
对于设定需要进行双人复核的运维操作场景,复核人可通过本平台远程进行操作复核,对操作人行为进行实时监控,在发现异常行为时可进行操作行为的暂停、终止等控制操作。
(2)操作人员风控
风险操作数据统计
根据审计要求,由系统按照天、周、月等频率自动形成运维人员或指定用户的操作审计报告。实现非窗口期操作审计、高危操作审计、人工操作人员审计、操作命令同比环比、运维操作审计日报等审计功能。
运维人员操作风险分析
以运维管理人员为观测视角,对运维人员工具账号状态、生产操作行为进行智能算法分析,识别账号多地登录、非工作时间运维操作、用户频繁登录等异常风险,并对运维人员在堡垒机、数据库中的操作进行分析,根据执行结果、高危操作命中情况等客观指标,对运维人员操作风险倾向进行指标分析。
运维人员操作水平评价
通过AI智能算法,对运维人员在堡垒机、数据库执行平台中的操作记录进行分析,根据命令执行错误率、执行操作间隔、客观指标对运维人员能力进行评分。
(3)操作环境风控
本系统通过ECC运维中心/数据中心机房进出、监控值机人员工作等管理模块,与企业微信、用户机构平台等基础平台的打通,实现一站式的申请、授权、管理、可视化模块,实现操作环境的风险环境管理。对ECC运维中心的人员进出、长期授权申请/变更进行线上化管理,对接门禁系统,根据授权情况实时开通门禁权限进行放行,同时能够在线查看门禁监控、人员进出及授权情况,及时提示运维中心进出风险。

三、创新点
陕西农信运维操作风险管控中心作为我社自研的运维管控类系统,拥有较好的上下游数据贯通、功能联动能力,打通管理到操作的数据功能壁垒。借助智能算法能力,实现低人工、高精准的风险智能分析与操作智能可视化能力,较好的满足陕西农信对运维操作管理需要,将操作风险拦截在隐患阶段。
1.全周期、多要素的运维操作风险管理机制
区别于传统运维操作防控授权的,本系统实现了全周期(事前、事中、事后)的运维操作风险防控。针对于操作入口、运维人员、操作环境,通过多平台多系统API接口的接入,串联逻辑流程,实现对运维操作风险事前管“权限最小化、操作有审批”,事中控“风险有拦截,操作有监测”,事后防“行为可审计,风险可测量”全生命周期的管理。全面满足我社运维操作入口风控、运维人员风控、运维环境风控等各方面管理要求。
2.构建数智化风险管理能力
本系统通过接入层运维数据中台,接入工单、操作、监控、告警、知识库等各类运维数据,通过智能化算法,对高危操作范围、人员能力评分等计算,形成多维、可信、有效的操作风险驱动要素。而后本系统构建变更发布、告警处置等不同运维场景下的风险管控方案,实现对于非标发布操作、告警处置操作的权限范围、执行内容进行约束,解决了系统间的割裂、数据不一致等问题。
同时本系统通过数据+算法,构建了对运维人员账号、操作行为的准实时监测,实现如登录设备异常、账号盗用风险、非规定时段操作、错误指令过多等异常行为监测,并通过ECC可视化大屏的操作行为监测模块实时向监控值机人员提示,同时可直接对异常操作、异常登录进行操作终止、账号冻结等干预控制。
3.实现权限与行为的关联
运维操作风险管控中心的建设,即提高了授权申请到开通的多平台高效协作能力,又确保了申请范围与实施范围的一致性,使我社运维操作精细化管理在技术上具备可行条件。我社将以往长授权的机制逐渐由临时授权+场景化授权的组合方式代替,并以零信任的场景设计思路对操作范围进行强约束,通过CMDB关联关系,进行发布、告警处置的最小化授权测算,实现最小范围的权限开通。并辅以双人实时复核、范围外内容拦截审批、高危命令多级审批等多种授权方式,降低人为操作带来的风险隐患。
四、技术实现特点
1.基于数据分析的运维操作风险测度

系统实现了对操作行为与操作对象(如系统交易、应用主机、数据库等)性能变化的数据相关性分析。通过时序关联操作行为数据与监控数据、配置数据,并运用图论算法识别“运维操作-系统性能”的影响关系, 动态、量化测算操作行为的风险,此外针对不通应用系统操作命令,建立操作命令集,动态对各应用系统进行差异化高危命令配置。并将历史运维操作动作或操作行为进行风险排序,为运维管理者提供高危操作命令名单推荐。

图 1分析算法逻辑说明

图 2 关联度算法
2.基于大数据的操作风险趋势分析
为客观评价运维人员操作水平能力以及分级管理运维人员受限范围,运维操作风险管控中心可通过智能分析算法,对运维人员在堡垒机、数据库执行平台执行的指令错误、SQL语法错误、SQL执行错误、高危操作拒绝、非标发布一致性较低等异常操作记录进行历史数据分析, 按照预设权重指标框架进行运维人员操作风险综合评价指数。同时,根据运维人员操作效率、操作精准度等数据进行融合计算,按照预设权重指标框架进行运维人员操作质效综合评价指数。通过两大指数的生成,形成运维操作人员行为风险画像,为进一步精细化人员操作分级提供有效的数据支撑。

图 3人员能力评分算法逻辑说明

图 4部分评分算法
3.基于模式匹配的操作一致性验证
针对非标发布、有处置方案的告警等“有据可依”的计划性实施操作,要求系统管理员在发布变更文档或异常处置方案的同时,对其中需要操作的命令单独抽出按照指定模版编辑成json格式的文件。在实施操作完成后,算法使用堡垒机操作的记录与文件的使用算法程序做对比,检索出非方案范围操作的点并由运维审计人员核实,实现对操作一致性的管理和持续优化。
操作一致性算法对堡垒机记录的每一行命令与操作方案中原始版本的命令进行简单匹配,对完全相同的命令标注,同时对这些命令的执行顺序与原始版本对应命令比对,作为匹配的定位符,将命令分割为多个部分,如果检测到顺序不一致,则直接提示审计人员。再将分割开的各个部分分别进行比对,对该部分中的每一行命令使用Levenshtein 距离算法进行比对两行命令的相似度,如果差异较大,继续使用Jaccard 相似度算法将命令拆分成单词,通过计算单词集合的交集与并集比例判断相似度。将实际执行与原始命令差异较大的命令提示审计人员。最终按照匹配度进行一致性评分,再通过审计人员/运维人员对一致性对比结果进行核验,核验结果大致分为操作偏差及方案可执行性偏差,方案可执行性偏差将触发方案更新的后续流程,形成闭环流程。

四、项目过程管理
1.项目启动
本项目于2023年9月启动。项目启动阶段主要工作内容包括制定工作说明书、组建项目组、召开项目启动会等工作等。
2.总体调研
此阶段于2023年9月中旬进行,主要工作内容为项目组在成立后对项目整体的需求范围进行分析。分析工作内容包括:
上下游系统调研:对目前使用的堡垒机系统、数据库执行平台、运维流程中心、运维告警中心等使用现状、预留API接口和运维数据中台可消费数据进行调研。通过调研及访谈,根据总体调研情况,初步制定运维操作风险管控中心数据及功能对接方案。同时根据《堡垒机系统使用规范》、《数据库执行平台使用规范》、《告警事件处置规范》等我社运维团队发布的运维操作规范,初步构建运维操作风险管控中心建设方案、系统架构、数据处理逻辑等。调研运维管理团队、一线运维人员、运维审计人员等实际系统用户在操作入口管理、运维操作审计、操作申请/审批等应用场景的诉求。
需求分析:对堡垒机操作管控、数据库操作管控、数据中心管控、运维操作审计等需求进行分析,依照上下游系统API接口、可用数据等技术条件,整合成临时授权、操作延期申请、紧急授权申请、发布授权等三十个运维场景模块,并延展采集用户需求进行分析。
需求跟踪和进度报告:对需求及进度进行跟踪及汇报
3.功能设计及本地化功能开发
此阶段开展时间为2023年10月下旬至2024年3月下旬。主要工作内容包括:
根据需求涉及到的功能需要,进行堡垒机系统、数据库执行平台、运维流程中心等上下游系统的API接入、联调工作。
同时借助统一运维操作平台基础管理中心、统一门户中心,实现本系统用户、机构、权限、角色、登录、门户等基础功能的接入实现。
通过接入运维数智中台,并进行操作人账号异常识别、操作异常识别、人员能力评分、今日操作风险识别、账号权限风险识别等智能风险识别算法的开发。
进行堡垒机操作管控、数据库操作管控、数据中心管控、操作可视化、管控审计等主体功能逻辑的开发。
4.平台测试
此阶段时间为2024年4月上旬至5月下旬。在本阶段内,项目组按照陕西农信应用系统测试规范,配合测试部门完成了本地化平台版本的集成测试、UAT测试、非功能测试、安全评估测试等工作,并由测试部门出具最终测试报告。
包括完成安全漏洞扫描、部署方案设计、验证方案设计、回退计划指定等前置工作,并按照《陕西农信应用系统上线规范》准备上线申请材料,接受上线评审。
5.平台部署
此阶段时间为2024年5月下旬。在本阶段内,项目组开展了相关系统上线前部署准备工作,包括运行平台资源申请、设计部署方案、验证方案、回退计划等。按照我社要求,提请变更申请流程,进行变更评审,并按照预定部署方案变更步骤的实施。
6.平台试点系统接入及试运行
此阶段起始时间为2024年6月上旬至今底,主要工作内容包含以下:
监测运维操作风险管控中心上线后主要业务功能的运行情况,申请、审批、审计等人员分配正确性。
监测高危命令范围、运维人员能力评价等智能算法的准确度。
对运维管理团队、一线运维人员、运维审计人员进行系统使用培训。
五、运营情况
通过本系统建设,我社强化了在生产环境下非标准人工运维的智能化风险管控能力,有效的提升了运维操作精细化管理水平化水平。目前已经全面覆盖我社运维团队的所有人工操作,日均高危命令审核214条、临时操作权限申请23次、非标发布/人工告警处置处置权限申请13次,同时全面接管应用系统非标发布双人复核,ECC/机房门禁申请等线上化管理。实现高效、准确的运维风险管控能力,并持续对运维人员操作行为进行监测。
通过系统自主研发的多种智能风险识别算法、智能化学习逻辑,本系统基本建立了我社100余应用系统的操作命令集,目前包含2300余条高危命令集,提升了我社智能运维风险管控能力。
六、项目成效
1.提高了生产运维操作精细化管理
在本系统建设前,堡垒机系统、数据库执行平台两大运维入口管理工具是按照运维人员纳管的应用系统范围进行中长期授权机制管理,同时操作行为审计按照月度为单位开展。这种运维管理方式存在操作审计滞后性,同时由于技术限制,操作行为与申请管理行为无法直接关联,审计过程中难以追溯操作行为的审批依据,无法及时发现操作风险。本系统上线后,由于场景化设计,权限的开通、收回、操作延期等业务功能由系统高效、快捷的完成,为“一事一授权”的实行奠定技术基础,短授权、高危操作实时拦截、准实时审计机制逐渐代替以往的长授权机制,使运维操作安全可控、有据可依。
2.由人防到技防,由信任到零信任
由于运维操作带来的影响是实时发生的,事后审计等人防策略始终无法满足安全生产的管理需要。本系统建设投产后,由系统进行准实时审计、高危操作实时拦截、ECC人员进出实时申请、发布实施双人复核等技术防控,有效控制了非授权操作、高危命令执行、非标发布不一致等风险隐患,实现对运维操作“零信任”的管理模式。
3.智能化防控运维操作风险,将事故拦截在事前
以往固定人员范围、操作范围的高危命令管理方式,存在一刀切的管理诟病,操作行为是否影响系统运行难以判断,不同人员能力水平对不同操作风险等级难以分类管理。本系统上线投产后,通过算法,对操作行为与监控指标、告警等数据进行关联,智能构建差异化高危命令集,同时对运维人员能力进行智能评分,在操作实时复核、高中低危操作动态受限等场景中实现分层分级管理,在效率与安全中找到平衡点。
七、经验总结
项目建设至今,按照项目整体规划,初步完成了以操作行为安全可控为目标的运维操作风险管理中心建设,稳定高效的对我社生产环境人工操作行为进行管控以及风险识别,构建了以运维操作为目标的监控领域。项目的建设过程中即复用了我社统一运维操作平台基础能力部分,降低了建设周期和成本,也构建了我社运维操作行为管控能力。项目建成的高危命令识别算法,能持续智能的进行高危命令集的自维护,使高危命令范围能够低成本、高准确的进行自我学习积累,支撑我社未来高效、安全、可控的生产环境操作管理能力。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2024-10-09
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2024-10-09
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2024-10-09
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2024-10-09
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2024-10-09
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2024-10-09
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构