本文来源于:2021第二届城市商业银行数字金融与支付创新优秀案例评选,作者:宁波银行

宁波银行:智能运维平台架构之路

2021-10-09 关键词:城商行3017

一、项目背景及目标


随着宁波银行业务快速发展,运维人员面对的是日益复杂的系统架构以及海量的IT运维数据。数据中心运维管理难度和重要性日渐凸显,对业务连续性要求和运维服务质量的要求也不断提高,迫切需要建设一套科学、高效的、无监督运维支持体系,能够帮助我行运维能力不断提升,发掘运维潜在风险。

当前,运维大数据系统已经采集了来自主机、数据库、中间件、业务应用等维度的海量指标数据,通过智能运维系统的算法引擎来实现对各类指标数据的动态检测和容量预测,并能够在业务的视角上进行组织和展现,是本次项目的核心目标:

实现数据集中管理:从大数据平台接口收集包括但不限于CPU使用率、内存使用率、文件系统使用率、交易量等指标数据,数据来源包括Tivoli、BPC、Oracle EM、Netcool、CMDB等系统、对采集的指标及配置数据进行统一分析和管理。

增加智能分析引擎:利用智能化算法实现实时指标异常检测,指标趋势预测等智能化场景。


二、项目/策略方案


本次项目搭配相应硬件升级,部署的产品包括日志精析中心,指标解析中心和数字中台。通过智能化检测算法能够帮助运维人员更快速的发现异常,更有效的诊断问题根因,更便捷进行运营分析和决策。

1. 系统功能

逻辑架构:平台的整体架构是根据其要求的功能性要求以及非功能性要求进行设计。平台共分为:数据采集,数据处理,数据存储,查询引擎,告警引擎,智能分析引擎,展现引擎以及平台管理共计8个模块组成,各功能模块规划如下:


26.png


8大模块都可支持横向扩展,提升每个模块的吞吐量以及处理能力,同时每个模块内部都是多点分布式部署,保证了系统高可用以及数据安全。

物理架构:平台在物理部署时充分考虑了架构的先进性,避免了重复建设以保护客户的已有投资,平台中需要的Hadoop、ElasticSearch、Kafka以及ZK集群都支持用户版本需求,其他节点均支持分布式部署,可以非常容易的调整节点数量,为后期平台的自动智能扩容提供了基础,整体物理架构如下:


27.png


2.实现功能点:

1)基线算法:检测当前的指标数据是否符合历史轨迹

2)ripple算法:检测当前的指标数据是否有突增(波动检测)(主机、中间件、业务、数据库、网络指标)

3)多指标算法:从业务维度选取多个关联指标进行综合分析,通过对各个指标的偏离度进行计算,确认业务是否异常,并按照偏离度排名进行根因推荐。(业务、主机、中间件指标,数据库与网络指标暂不包含)

4)预测算法:根据历史数据,预测未来容量使用情况,提供剩余使用时间或建议扩容时间。(表空间、文件系统)

5)智能运维中心:提供总览——单个系统——指标的全局关联展示与状态标志。根据实际需求,选择时间、指标等,查看当时的数据、单/多指标检测结果等信息。

6)告警管理:支持将检测到的异常结果形成告警,并发送至我行统一监控平台,可配置。

7)接口开放:支持接口开放,可以由我行其他平台读取算法运行后的模型、结果等数据。

8)数据分析中心:实现数据采集、解析、聚合、存储、查询等功能,可配置。


三、创新点


趋势预测算法:平台内置预测算法,通过分析历史数据,可判断未来一段时间的KPI趋势,如预测未来一段时间数据库表空间的使用量,服务器磁盘的剩余空间预测等。

可在平台的图形化页面中方便的配置算法参数,如预测的天数,数据的处理形式。

预测的结果可以通过报告的形式给出,方便用户的查看与决策。

单指标异常检测算法(基线/Ripple算法)

平台内置异常检测算法,针对不同的数据,如业务类指标数据、基础架构类指标数据平台提供不同的异常检测算法来适应不同的数据特征。通过历史数据的特征学习,可以提前对可能出现的异常进行检测和预警。

可在平台的图形化界面中配置算法参数,如上下基线的检测,算法的选择。

异常检测的结果通过不同的标签进行显示,如周期性异常、突增突降异常、持续性异常。

多指标异常检测算法:平台内置多指标异常检测算法,基于深度学习技术实现多指标异常检测以及指标根因定位,用于实现快速发现系统故障及快速定位问题根因的故障诊断。该算法可应用于多个指标的同时检测,如系统的多个性能指标, CPU,磁盘IO,内存的同时检测。也适用于数据库中的多指标检测,如:PGA,SGA,缓冲池IO响应时间,内存排序率等。


四、项目过程管理


项目上线或者部署情况

1.生产环境一阶段部署阶段(2019年11月到2020年1月):

1)完成管理平台的搭建;

2)完成性能指标数据接入;

2.生产环境二阶段部署阶段(2020年3月到5月):

1)完成运维页面的搭建;

2)完成算法场景建设(所有系统的动态基线和重保系统的容量预测);

试运行阶段(2020年6月到7月):

进行全系统的试运行,并进行全面推广。


五、运营情况


完成智能运维系统平台搭建,总共有4个模块,分别为:

1)大数据模块: 实现数据采集、解析、聚合、存储、查询等功能,可配置。


28.png


2)数据运维中台模块:实现算法任务调度、配置以及资源的动态分配。


29.png


3)指标中心模块:实现算法场景的建立以及算法配置调参。  


30.png


4)智能运维页面:实现总览——单个系统——指标的全局关联展示,可以根据时间、系统、指标等,查看当时的数据、单/多指标检测结果等信息。


31.png


六、项目成效


复杂多维分析:将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如主机指标、数据库指标、中间件指标、网络设备指标)进行多维度、多角度深入分析及可视化展现。

快速排障:通过运维数据可视化(业务视角、复杂多维报表)及精细化告警信息,结合多种智能化算法,包括指标异常检测,指标趋势预测,实现精准告警、多维分析等功能,在故障发生时即推荐运维人员问题原因,方便迅速排障。

1)提供多种智能化算法,将有助于运维人员更早地收到更有效的告警(相较与静态阈值);

2)提供容量管理的手段,便于提前制定容量计划,以及发现容量风险点。

3)提供全局多维度视图,在故障处理场景下可以查看告警指标出现问题时的开始时间与当前趋势,以及其他相关联的指标或系统的情况;在定期巡检、风险排查或事后分析等场景下,针对性地告知运维人员运行状态、是否存在异常以及推荐影响程度较高的指标。

4)数据采集、解析,算法训练、调整等均可前台配置,便于后续应用场景的扩展。


七、经验总结


智能运维平台项目,有效地解决了运维人员面临的运维数据分散、排障耗时耗力、分析手段复杂和数据增长迅速四大挑战。通过高效实时多维度采集能力,目前聚合了每日40G以上的数据量,并融合汇聚了现有的各种系统的运维指标数据。根据平台提供的扩展智能算法能力和接口、场景化的支持和算法引擎,逐步实现了主动管理、智能预测、高校精准的根因定位及故障排除效率,进一步提升了宁波银行数据中心的运维管理水平。

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

九江银行:银行服务质量智能化辅助评估平台

银行服务辅助评估系统是以银行业务服务办理人员为核心,通过对服务区域进行统一的标准化视频采集,利用AI人工智能算法对采集的音视频按肢体、着装、语言以及人脸识别等模型分类进行运算处理,终以业务为维度输出服务规范记录的服务型管理平台。

2020首届城市商业银行数字金融与支付创新优秀案例评选 2021-10-09

河北银行:智能贷后项目

智能贷后通过挖掘外部数据,整合行内资源,改变了以往风险信息关注不到位、现场检查不及时的问题,能够充分识别和捕捉客户的风险特征,做到风险客户提前检视,逾期贷款及时控制,强化风险防控管理的同时提升了贷后管理效率,大大解放一线生产力。

2021第二届城市商业银行数字金融与支付创新优秀案例评选 河北银行 2021-10-09

河北银行:信用卡购车分期业务全流程自动化

河北银行信用卡购车分期业务经历多年探索,从汽车消费真实场景出发,强调“以客户体验”为中心,实现客户在4S店、二手车市场等购车场景下的“一站式”申请审批。后台打通购车分期前端申请、远程视频面签、信用卡自动审批、资金清算等系统,实现全流程的自动化。基于全流程获取的数据信息、外部引入大数据,开发优化系统模型,由线下转线上,数字化运营。持续完善业务流程和风控技术,实现了规模、质量、效益的良性发展。

2021第二届城市商业银行数字金融与支付创新优秀案例评选 河北银行 2021-10-09

日照银行:让银行服务“足不出户 触手可及”

日照银行远程银行是借助现代化科技手段,通过远程方式开展客户服务、客户经营的综合金融服务中心。客户可以通过手机微信小程序等渠道链接视频银行系统,足不出户就能与“视频柜员”远程“面对面”,进行个人业务和企业业务的办理。视频银行为客户提供有针对性的业务场景服务和全新体验,同时很好的做到业务分流,缓解柜面压力,增加客户的满意度。

2020首届城市商业银行数字金融与支付创新优秀案例评选 2021-10-09

浙江泰隆商业银行:RPA助力银行数字化转型

RPA (Robotic Process Automation, 机器人流程自动化),这是一种能够通过模拟人类来执行重复性任务的软件。通过软件机器人自动处理大量重复性、具备规则性的工作流程任务,从而将员工从疲于应付的情况下解放出来,让员工发挥主观能动性,执行具有更高价值的事务。RPA机器人与员工相比,能够更加的快速、精确,并全天候执行相应事务,提升工作效率,实现零错误率,降低运营成本。

2021第二届城市商业银行数字金融与支付创新优秀案例评选 浙江泰隆商业银行 2021-10-09

浙江民泰商业银行:智能授权项目

智能授权项目是浙江民泰商业银行数字化转型的创新服务项目。项目运用了数字影像、工人智能、OCR识别等技术,结合业务交易信息进行快速判断,实现授权全过程系统化管理和智能化自动处理,达到完全替代和部分替代人工处理的新授权方式,大限度的发挥授权的风险控制及成本控制效能,推动营业网点服务提升、管理优化,实现数字化创新再突破。

2021第二届城市商业银行数字金融与支付创新优秀案例评选 浙江民泰商业银行 2021-10-09

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 城商行

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构