本文来源于:鑫智奖·2024第五届金融机构数智化转型优秀案例评选,作者:北京农商银行

北京农商银行:基于海量应用日志交易故障的快速定位实践

2024-06-12 关键词:大数据,农信/农商行,智能运维3150

一、项目背景及目标


随着北京农商银行业务的快速发展,系统规模不断扩大,每天会产生大量的数据信息,这些信息数据量十分巨大,但却分散在各个中心服务器或者设备的不同位置,对日志的统一管理、监控、信息挖掘变得越来越困难,也使得运维工作量越来越大。


在日常运维工作中催生出各类不同的运维场景,我行基于北农商特色的运维故障场景,依托于运维大数据处理平台能力,并结合AIOPS在故障发现故障定位的领域开展探索与实践。


随着各大银行落地的实践越来越多,AIOPS智能运维也从开始的“点状”场景建设,升级为体系建设,为了能够在高质量发展及数字化转型塑造上跟紧国有大行的脚步,我行需基于运维大数据处理平台,在智能运维道路的探索中逐步发挥AI智能能力,减少人工干预,主动发现问题,快速定位故障,推动我行由传统运维模式主动向智能运维领域的转变,不断探索运维的新模式,提升我行生产运维的高效赋能。


二、创新点


2.1基于智能时序算法发现运维指标异常故障


在本项目中对于算法进行了全面的优化与适配,通过智能时序算法判断运维指标异常故障,提升告警效率。本算法为针对具有时间序列、周期性、非周期的运维指标异常检测算法,通过一段历史数据进行预测得到数据预测值、上下基带等,使用机器学习的方法进行异常判断。弥补传统故障的发现迟、发现难的问题。

图片 1.png

2.2基于海量应用交易日志快速定位故障


在本项目中以全局视角观测核心IT业务系统的健康状态,已业务形态对象生成链路拓扑,对业务指标实时监控,动态展现。通过对交易日志分析,下钻调用链路,查询故障日志,快速定位链路中故障。辅助汇总链路错误信息推荐跟因业务系统告警。

图片 2.png


三、项目技术方案


3.1项目规划


本平台建设之初以全局规划、分步落地,下有运维数据做为支撑、中有运维数据处理平台做为核心、上有应用场景为业务赋能的目标逐层实现。平台总体功能按数据处理逻辑分为数据的集中采集、数据支撑、数据处理、应用场景以及运维展现。基于运维数据、算子及算法的构架可灵活实现应用场景的构建以及扩展。


3.2功能架构

图片 3.png

运维大数据平台通过流批一体数据处理引擎调用Kafka Topic中的数据进行实时解析和聚合,支持对导入的数据进行一定程度的清洗和转换,如按时间聚合、去重等。并把结果数据写入持久化数据库。处理能力可以通过增加并发线程的数量来快速提升。平台内置丰富的数据解析功能,方便用户解析任何格式的数据。


3.3技术架构

图片 4.png


3.4技术实现特点


在日常运维过程中,不同系统的指标往往具有一定特殊性,单一算法模型无法更好的匹配,为能够适配不同场景下的不同指标,我们会采用不同时序算法机制。


3.4.1滑动窗口机制


将运维数据处理平台采集和处理后的数据流按w分成大小相等的数据模块,这里的每个数据模块对应一个基本窗口,基本窗口内的事务数可能相等,也可能不相等,记做w。每块中含有的事务总个数代表的是基本窗口的大小(或宽度),记做|w|。当前的基本窗口为sw={T1,T 2 ,...,Tn}, 其中sw表示基本窗口。而滑动窗口SW是由k个有顺序的基本窗口组成,记做 SW=<sw1,sw 2 ,...,swk>,k值是已知的,滑动窗口的大小是由基本窗口的个数决定的,记做|SW|=k。如下图所示为滑动窗口模型。

图片 5.png

3.4.2时间序列相似性搜索机制


时间序列的相似度判定主要依据两条时间序列相似计算后结果是否满足用户给定的阈值m,如果满足。则为相似,反之为不相似。由于时间序列其数据轴会产生振幅伸缩平移,时间轴会产生间隔伸缩弯曲等形变,所以一般采用距离函数来度量两条时间序列相似性。距离越小越相似,距离越大越不相似。


3.5优势


滑动窗口动态检测性能指标高峰时段和峰值的整体模型:

图片 6.png

因为数据流是动态的、连续不断流动的,数据同时受到现实生活中的实际应用和环境的影响,数据在到达的时候,数量是不均匀分布的,从另一个角度说,数据到达是与时间有关系的。


时间序列相似性搜索是时间序列数据挖掘研究中的基础问题,同时也是时间序列分类、聚类异常检测等相关研究的基础和前提。本方案先采用离散傅立叶变换对时间序列进行特征表示,其次利用R树在降维后的时间序列上建立索引,最后根据欧氏距离度量其相似度并完成最终的搜索。


其中滑动窗口机制和时序相似性搜索机制是基于大数据处理和流处理两大处理模块基础上实现的,该机制主要针对性能指标(业务性能、系统性能、网络性能指标等)进行动态检测,峰值检测异常度受滑动窗口模型的横向和纵向数据波动和偏移程度影响。

图片 7.png


四、项目过程管理


北京农商银行于2021年7月上线运维大数据处理项目,历经2年的基础平台建设,稳扎稳打,逐步丰富数据纳管范围,核查数据质量,为智能化转型提供强有力的支撑。2023年5月开始进行指标分析的智能化探索工作,于7月份以对我行17个重要系统进行了交易指标的实时异常分析,同年10月完成对应用交易日志快速定位故障,后续丰富了链路拓扑模型的自动导入,链路推荐告警等能力,目前已投入使用。


五、运营情况


5.1主动发现业务系统指标异常:


随着我行业务的快速发展,重要系统的业务量以一个较为迅猛的态势不断增长,相对应的各类交易指标已经可以用天文数字来形容,而单个、多个指标的异常经常发生,如果每一个指标都要进行管理、检测、依照传统的调参方式制定告警策略,无疑极大的增加了运维人员的工作量及后续维护工作。


为解决这个痛点,今年5月,运维大数据平台通过学习我行17个重要系统的交易指标,在智能算法的加持下,学习运行趋势,生产指标基带,通过基带偏离程度主动发现业务系统的异常,经过长时间的算法自动学习辅助各系统特色指标的优化,最终完成投产使用,并对接统一监控系统,应用于生产监控,有效解决了传统固定阀值模式下对于异常难以发现的情况,能够快速的帮助运维人员从中发现业务规律、数据异常,从而减少运维人员大量的排查时间,更早的发现异常、处理故障,避免更大的损失。

图片 8.png


5.2基于海量应用交易日志快速定位故障:


在能够主动发现异常的基础上,运维大数据平台新开发了全局视角观测核心IT业务系统的健康状态,以业务对象生成链路拓扑,对业务指标实时监控,动态展现。对发现异常的业务系统,之前人工查找定位一般需要30分钟以上时间,目前通过对交易日志分析,生成交易调用链路,快速定位故障根因保持在10分钟以内完成,处理速度提升200%。

图片 9.png


对发现异常的业务系统,通过对交易日志调用链路下钻,快速定位链路中故障,通过一键查询故障日志快速完成问题的分析及处理。

图片 10.png

图片 11.png


平台后续实现了应用交易全链路自动生成,解决了运维人员难以梳理、维护交易链路的问题。自动生产链路后可在平台快速查看交易在我行系统的走向、交易日志及各系统指标状态。

图片 12.png


在使用过程中告警平台每月有千余条交易告警产生,在某个系统发生故障时,会同时触发10余受影响系统的连锁告警,这些告警同时出现时,一线值班人员在定位根因时往往需要花费将近10分钟时间进行分析。增加辅助汇总链路错误信息推荐根因业务系统告警后,系统根据已经生成的上万条链路,自动查询检、判断每条告警的原始告警,快速定位到具体系统,对故障系统单独生成推荐告警,同时将已经生成的多条告警进行归类,为一线排查人员排除干扰项,在5分钟内快速定位问题事件、整体分析及解决的速度提升100%,提升了运维效率。

图片 13.png


在项目建设期间,我们持续不断收集使用用户的建议以及需求,不断完善场景的落地实践,不断提升我们事件快速发现以及根因定位的能力。始终结合实际的业务场景进行智能化实践,在问题求解中积累经验、沉淀知识、提升能力,从而让整个运维体系更顺畅的运行,为业务的稳定保驾护航。


六、项目成效


该项目通过学习重要业务指标运行趋势,主动发现业务系统的异常,为全行业务营销提供稳固的后台保障;通过结合业务系统链路自动拓扑,从而定位链路中故障,辅助汇总链路错误信息,推荐根因业务系统告警并应用于生产监控,提升了数据中心的服务质量与服务效率,助力业务系统稳定运行,对全行实现降本增效起到了积极作用。


七、经验总结


该项目在本次智能运维实践中极大地提升了整体运维效率,从故障主发现到一线运维人员的根因系统定位,以及二线运维人员异常故障根因的处理,在方方面面提升运维能效,降低人力投入。


我行对于运维故障的发现以及快速定位场景的应用依然在不断的实践中,我们会不断收集使用用户的建议、需求,不断完善场景的落地,在提升我们事件快速发现、定位的能力同时,展望事前故障预测、风险发现等事前场景。


智能运维建设不是一蹴而就的事情,需要从业务视角出发,逐层拆解需求,以用促建、治用并举,成体系地进行一体化规划并循序渐进、逐步实施。道阻且长,行则将至,运维大数据项目将进一步加大投入力量,加快发展步伐,推动我行生产运维的智能化建设,为全行高质量数字化转型增效赋能。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2024-06-12

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2024-06-12

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2024-06-12

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2024-06-12

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2024-06-12

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2024-06-12

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 农信/农商行
  • 大数据
  • 智能运维

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构