本文来源于:网络整理,作者:海南银行

海南银行:基于大数据的IT智能运维体系研究与实践

2019-06-12 关键词:大数据,人工智能,数据中心,运维管理,城商行,开发运维5288

项目背景

随着银行业信息化程度的不断深化,银行的业务品种和IT架构日趋复杂,客户对服务体验的要求越来越高,对突发事件的处置时间要求缩短到了分钟级。快速的故障定位能力、处置能力和根因分析能力已成为银行科技部门不可或缺的核心竞争力。在智能化运维探索中,国内中小银行普遍存在人才队伍薄弱、经验积淀不够、经费投入不足等现实问题。如何在有限资源的约束下,做好IT运维管理标准化、自动化和智能化落地,有效提高运维水平和效率,亟待研究解决。

 

项目方案

海南银行充分调研了当前国内银行业IT智能运维体系建设现状,学习并掌握了业界先进成熟的理论和方法,结合本行实际,将ISO 20000、ISO 27001等管理体系要求落地到IT系统,将流式计算、图数据库、机器学习、链路追踪、持续交付等多种新兴技术综合运用到商业银行智能运维管理中,构建了基于大数据的IT智能运维体系(见图1)。


图1 海南银行 IT 运维服务管理体系

 

落实监管要求、对标国际标准,构建安全运维制度体系

制度是规范运维管理工作的准绳,也是流程建立的基础。为保障运行维护工作的质量和效率,海南银行紧扣国内监管要求、对标国际标准、参考行业实践,完成了IT运维管理制度体系建设,并于2018年底顺利通过ISO 20000和ISO 27001认证。

 

一是以服务对象为视角,梳理服务目录,明确服务内容。梳理业务服务19项、技术服务25项,服务内容覆盖终端服务、业务应用服务、系统开发服务、测试服务、网络服务、备份服务、日志服务、安全服务等。

 

二是以服务过程为抓手,通过建立配置管理、变更与发布管理、事件管理、问题管理等制度,明确运维服务控制与解决的工作流程。

 

三是以服务质量为目标,通过容量管理、连续性与可用性管理、服务级别、信息安全管理等制度,明确运维服务交付管理要求,通过细化非功能标准,管控内外部交付质量。

 

通过自顶向下、逐步推进的方式,海南银行构建了相对完善、覆盖全面、切实可行的运行维护管理制度体系。终以先进、成熟的IT智能化运维平台为工具,固化配置管理、发布与部署、变更等标准化流程,积累和管理运维知识并开展主动与自动运维工作。

 

基于运维大数据,运用新技术,构建IT智能运维平台

1.动态自动更新的CMDB(配置管理数据库)是基石。海南银行智能化运维平台实现了CMDB中90%CI项的动态自动更新。在设计思路上,参考测试四象限模型方法,按照自顶向下的设计思路,从模型总体要求出发,自顶向下逐步细化,依次是CDM(概念数据模型)、LDM(逻辑数据模型)、PDM(物理数据模型),后完成模型设计。

 

具体实现中,基于NoSql和图数据库技术实现CMDB模型。MongoDB(基于分布式文件存储的数据库)存储数据模型,图数据库(OrientDB)存储各模型之间的关系及实际数据,可快速便捷地对各CI模型,以及各CI之间的关联关系进行维护。

 

2.基于CMDB的快速故障定位。CI之间的关系是故障定位和影响分析的基础。基于CMDB规则推理技术,利用CMDB存储的CI关联关系,构建CI关系模型。CI本身或关联CI出现故障时,通过遍历CI树型结构,找出故障影响范围。同理,也可从受影响的交易或服务找到故障源头的CI项。

 

3.告警的聚合分析。IT运维监控管理中,当底层基础设施出现异常时,相关联的主机、中间件、数据库、消息队列、缓存、应用程序、业务服务都会受到影响。监控探测发现异常问题时,将瞬间产生大量事件,且这些事件随着时间的推移不断发生,这种情况下会导致邮件、短信告警瞬间爆发。

 

海南银行从以下几个方面进行探索,尝试解决上述问题:一是降噪。消除不重要的事件,识别重要关键信息,避免告警疲劳。二是聚类。将相关的事件分门别类聚合起来,抑制告警风暴。三是根因识别。在数千事件中识别出可能的问题根因。四是决策支持。推荐相似问题解决方案,实现知识复用。

 

4.基于大数据机器学习的日志故障模式发现。在故障发生时,传统运维方式需要登录多台设备、排查大量日志,耗时费力。海南银行智能化运维平台采用多种技术将日志统一管理,并通过无监督机器学习算法,将大量日志转换为少量日志模式,故障日志定位由原来的小时级缩短为分钟级。平台部署了多个Elastic Search节点,收集了操作系统日志、网络设备日志、应用日志等各类日志,日志处理能力在1TB/日左右,日志检索时间在毫秒级。

 

如图2所示,在故障定位时,首先将TB级数据通过时间、关键字进行过滤、筛选,根据日志条数采取全量或抽样进行K-Means聚类分析,后通过系统分析展现故障模式。


图2 日志故障模式发现的工作流程

 

5.基于流式数据的复杂事件处理(CEP)。CEP可以在流式数据中发现符合某种特征的模式,进而触发对应的后续动作,支持单条事件的简单无状态的模式匹配,也支持基于关联、聚合、时间窗口等跨事件的复杂有状态的模式匹配。直接作用于流式数据,无需查询底层数据库,不会对底层数据库产生压力。

 

在IT运维管理中,CEP与流处理引擎的结合可以大幅提高告警的时效性和准确率。平台设置了关于网络安全、攻击事件归并、Web入侵分析、Linux主机安全的相关规则,通过对实时流入的日志进行安全事件的判断与分析,可实现异常事件的事中分析。通过EPL语言(类自然语言)定制规则,即可生成相关的事件预警。

 

6.自动化作业及故障自愈。对于固化的告警规则,可设置故障自愈能力。当异常和故障产生时,可以依赖故障自愈能力进行自动处理。把运维人员从重复性、机械化的工作中解放出来,提升故障恢复速度,缩减故障时间。

 

7.分布式链路追踪。平台参考了Google的Dapper论文,基于开源项目Zipkin研发了一套分布式追踪的解决方案。目标是通过追踪,及时发现生产环境故障,缩短故障排查时间。调用链追踪可以使用基于Open Tracing规范的Zipkin SDK集成来实现,提供Java、C#、Go、Python、JavaScript、Ruby、Scala、C、C++等十多种语言的SDK,集成SDK即可查看对应调用链追踪的数据,生成调用拓扑及瀑布流监控数据,展示接口之间的调用关系、调用耗时、调用异常等(如图3所示)。


图3 分布式追踪示例


运营效果

海南银行基于国内监管要求、对标国际标准,建立了覆盖较为全面的IT运维管理制度体系,并利用银行自身的运维大数据,创新性地综合运用多种智能数据分析方法和技术,积极探索如何以业务目标实现为核心,充分挖掘IT运维的服务潜力,从传统的基础运维逐步走向标准化、自动化、智能化运维,乃至走向数字化运营之路。此体系运行前后,运维工作效率提升50倍,初步估算每年可减少1600人月的工作量。



本文节选自《金融电子化》2019年05月刊

作者:海南银行 燕鹏飚 陈亚楠 符启杰 许小艳


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2019-06-12

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2019-06-12

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2019-06-12

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2019-06-12

九江银行:银行服务质量智能化辅助评估平台

银行服务辅助评估系统是以银行业务服务办理人员为核心,通过对服务区域进行统一的标准化视频采集,利用AI人工智能算法对采集的音视频按肢体、着装、语言以及人脸识别等模型分类进行运算处理,终以业务为维度输出服务规范记录的服务型管理平台。

2020首届城市商业银行数字金融与支付创新优秀案例评选 2019-06-12

河北银行:智能贷后项目

智能贷后通过挖掘外部数据,整合行内资源,改变了以往风险信息关注不到位、现场检查不及时的问题,能够充分识别和捕捉客户的风险特征,做到风险客户提前检视,逾期贷款及时控制,强化风险防控管理的同时提升了贷后管理效率,大大解放一线生产力。

2021第二届城市商业银行数字金融与支付创新优秀案例评选 河北银行 2019-06-12

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 城商行
  • 大数据
  • 人工智能
  • 数据中心
  • 开发运维
  • 运维管理

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构