本文来源于:2019第三届农村中小金融机构科技创新优秀案例评选,作者:天津农商行
天津农商行:智能运维平台
2019-10-21 关键词:人工智能,农信/农商行,运维管理,开发运维
4397
项目背景及目标
项目背景:
银行业是当前IT建设和运维水平发达的行业之一。伴随着银行业高速发展,IT建设的规模也越来越大、IT运维的复杂度也越来越高。传统的IT运维管理和运维理论已经越来越不能完全满足银行业IT建设的庞大规模。
对于银行业超过数千个的复杂系统和异构软硬件设备,每天产生TB数据级的数据量,银行系统宕机将直接影响到各行各业的业务,而采用传统运维管理平台的运维手段势必将越来越不能适应IT发展的趋势。
项目目标:
本次我行利用目前先进且成熟的大数据相关技术和机器学习模型算法,建设大数据智能运维平台,实现对IT运维信息的自动化集中收集、分析处理、集中存储访问,同时对系统运行过程中的数据进行深度分析,运用LSTM、FOCUS、DEEPLOG算法、运筹理论等相关技术,让智能化运维承担更多的基础性运维任务,在提高运维水平的同时,将运维人员从纷繁复杂的告警和噪音中解脱出来。利用大数据和人工智能技术逐渐支持和部分替代监测、运维服务以及自动化流程和任务。
项目方案
近年来,天津农商银行运维科技不断深入、发展,构建一体化、智能化的运维能力框架成为我行运维升级转型的重要手段。模块化、标准化、规范化和流程化的平台能力组件是确保我行信息系统安全运行、业务高可用的重要基石。本次项目借助于近年来主流的大数据技术、人工智能技术等先进技术手段,实现天津农商银行智能运维水平跨越式发展。
本项目所构建的智能运维平台能力框架主要分四方面进行建设:
1、数据模块:数据的采集、清洗、存储、挖掘是保证高质量输出的必要环节。数据模块能力构建围绕各环节功能需求选用不同的技术方法、工具进行构建、包括图数据库、宽表、缓存、全文检索、分布式存储等技术。我行运维数据特征存在数据格式多样化、数据量大、实时性强等特点,数据模块构建需满足标准统一、实时处理、海量计算、分布式存储等要求,为实现数据驱动智能、数据支撑决策奠定基础。
2、算法模块:算法是构建智能运维的大脑。算法的选择必须充分结合具体运维场景特点、业务规则、专家经验进行构建。算法能力模块的构建需充分结合算法研究人员、行业运维专家、数据科学家等跨学科人才,协力探索有算法实现。不断形成各场景算法模型框架能力,同时针对业务属性、业务规则的不断变化,算法模型具备参数自调整及修整功能。本次项目中主要涉及的算法包含:ROCKA(辅助大规模异常检测的KPI聚类算法)、基于特征提取和深度学习的异常检测组合模型、LOGCLASS(基于PU-LEARNING日志模式检测)、FOCUS(多维日志瓶颈分析)、DEEPLOG(基于LSTM的日志检测算法)、IDICE(多维指标体系中主要异常原因定位算法)、SYSLOGDIGEST(基于数据挖掘的路由系统日志分析系统)、PREFIX(基于LCS2的故障预测)等。
3、场景组件模块:场景组件是智能运维能力逐渐成熟的具体实现,我行拟经过前期数据、算法及运维场景不断实践探索,实现具备标准化、场景化、功能化能力组件,且各组件相互独立、低耦合、易移植、易调用,具备多场景的泛化能力。
4、融合能力模块:融合能力模块是智能运维的高阶实现,融合各场景智能组件,运维体制流程,人员组织架构及自动化运维体系,终具备一体化智能运维能力输出。
创新点
一、工程化方面:
1.多ES集群提升系统稳定性
2.实时流数据处理分析能力
3.灵活配置的指标监控看板
二、核心技术创新:
1.构建了异常检测模型库,包括高斯模型、孤立森林、自编码器(autoencoder)及深度神经网络(DNN),以提升多各类异常检测的准确性。
2.基于高斯模型、数据平滑等技术对原始指标数据进行智能降噪,有效剔除异常点对模型训练的干扰(压力测试点、特殊日期等),增加模型的稳健型。
3.基于相关性分析及小波分解技术对指标数据进行自动分类及异常检测算法适配。
4.通过算法分析不但能检测出农信银系统响应总耗时趋势的异常,还能给出导致耗时异常的可能根因。
三、支持AI算法快速部署与在线推理
除内嵌异常检测模型库与日志模型识别模型外,平台还支持:
1.特征与指标的实时计算;
2.快速加载pmml与mleap等常见AI模型文件,并进行在线推理;
3.调用AI模型的Restful API 服务(比如机器学习建模平台APS, SAS viya等),并进行在线推理;
4.通过Seldom core+K8S进行AI模型的部署及在线推理;
技术实现特点
数据采集:实现多类IT日志信息批量与实时采集模式以及跨平台的数据采集等;
数据处理与存储:通过实时流处理引擎实现高效率的数据解析和实时指标计算,根据不同的数据类型选择不同的数据存储方式,如elasticseach存储文本数据,时序数据库openTSDB存储时间序列数据等;
数据查询与搜索:通过多ES集群架构保证系统的高可用和稳定性,实现负载均衡,支持基于SPL或SQL的统一查询;
离线计算:针对历史数据进行挖掘和批量计算,用于大数据量的离线模型训练和计算,如挖掘告警关联关系,趋势预测/容量预测模型计算,错误词频分析等场景。
在线计算:对流处理中的实时数据进行在线计算,包括但不限于数据的查询、预处理和统计分析,数据实时异常检测,以及实时更新模型的机器学习算法运用等。
面向 AIOps 的算法技术 :
指标趋势预测:通过分析指标历史数据,判断未来一段时间指标趋势及预测值。
指标聚类:根据曲线的相似度把多个 KPI 聚成多个类别。
多指标联动关联挖掘:多指标联动分析判断多个指标是否经常一起波动或增长。
指标与事件关联挖掘:自动挖掘文本数据中的事件与指标之间的关联关系。
事件与事件关联挖掘:分析异常事件之间的关联关系,把历史上经常一起发生的事件关联在一起。
故障传播关系挖掘:融合文本数据与指标数据,基于上述多指标联动关联挖掘、指标与事件关联挖掘、事件与事件关联挖掘等技术、tracing 推导出的模块调用关系图、辅以服务器与网络拓扑,构建组件之间的故障传播关系。
项目过程管理
需求分析阶段:完成平台的需求分析,输出需求分析说明书;
系统设计阶段:完成平台的整体系统架构设计,输出概要设计说明书、详细设计说明书、系统接口设计说明书;
系统实施阶段:完成平台的定制化开发以及系统的安装部署实施;
系统测试阶段:完成系统集成测试,压力测试,用户测试,输出相关测试文档;
项目交付阶段:系统日常运维、文档整体提交及项目验收
运营情况
目前系统已接入应用业务系统的相关日志,包括但不限于系统日志、各种主流数据库及中间件运行日志、网络设备运行日志、各种监控系统的采集数据,及各种指标数据等;
通过流式引擎计算预警规则与预警模型,对指标监控预警;
为不同的IT人员设置不同的查询搜索权限并定制不同的监控展示界面,用户可以通过平台快速查看日志信息;
智能运维平台的异常检测解决方案,通过算法对指标数据进行智能降噪、依托异常检测模型(高斯模型、孤立森林及神经网络)进行指标及指标趋势的实时异常检测、告警,辅助根因分析。
项目成效
平台完成多样化的日志信息采集存储,并从海量数据中提取真正有价值的指标化数据进行可视化,并进行算法模型适配,告警分析。
农信银系统响应耗时是我行重点关注的指标,平台接入农信银系统的指标数据后,可以自动进行数据降噪、特征计算、模型训练及异常识别,实现如下场景:
a) 识别总响应耗时趋势的异常并及时告警;
b) 识别总响应耗时的可能的根因(那个细分环节响应耗时异常);
c) 耗时趋势及实时指标的可视化。
通过算法智能降噪、智能聚类的管理过程,依托人工智能技术实现智能事件关联组合和分析,达到在海量运维事件中智能化分析,确保在运维事故发生时可快速定位导致故障的关键事件,提升事故的处理效率。
经验总结
通过本期项目,天津农商银行完成了智能运维准备阶段,并在智能运维能力形成阶段进行了深入和探索和研究,实现了逐步将人的知识和运维经验与大数据、机器学习技术相结合,开发成一系列的智能策略,融入到运维系统中,用这样的智能运维系统去完成运维任务。为后续智能运维成熟阶段能力的形成奠定了坚实的基础。
基于我行的运维现状,通过三个循序渐进的阶段的建设(智能运维准备阶段、智能运维能力形成阶段和智能运维成熟阶段),将我行的运维能力提升到智能运维阶段,并终实现无人值守智能运维,从而极大的提高运维工作效率。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2019-10-21
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2019-10-21
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2019-10-21
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2019-10-21
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2019-10-21
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2019-10-21
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构