本文来源于:第五届农村中小金融机构科技创新优秀案例评选,作者:北京农商银行

北京农商银行:运维大数据平台

2021-09-23 关键词:农信/农商行3895

一、项目背景及目标


随着北京农商银行业务的快速发展,系统规模不断扩大,每天会产生大量的数据信息,包括系统、应用、数据库、中间件、网络、安全等各种类型。大量的客户数据、交易数据和运行数据有非常大的潜在价值,是银行宝贵财富,也是大数据应用的基础来源。这些信息数据量十分巨大,但却分散在各个中心服务器或者设备的不同位置,对日志的统一管理、监控、信息挖掘变得越来越困难,也使得运维工作量越来越大。此前基于ELK的架构下进行了探索实践经验总结,坚定了运维大数据平台的建设能够为运维带来巨大的效率提升的建设之路。

随着监管部门对银行数据治理相关监管指引出台,数据价值逐渐向资产化方向过渡。有计划加快数据治理,是提高银行竞争力和高质量发展的重要举措。根据中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期也有相关要求,拟建设统一的运维大数据处理平台,精细化分析和场景化应用,助力北京农商银行智能运维建设,保障北京农商银行业务平稳高效运行。


二、项目方案


运维大数据平台旨在实现日志的统一管理,支持日志数据多种方式查询,满足监管部门对于日志数据的要求。对日志内容进行深度统计和分析,对于异常检测情况进行精准及时告警,为新核心项目上线后保驾护航。基于日志数据的智能探索,尝试机器学习技术,根据相关信息和内容进行根因分析、告警降噪、容量预测等,进一步提升北京农商银行运维工作的智能化水平和工作效率。

北京农商在大数据运维平台建设的项目目标包括六个方面:

1.建设运维大数据平台,实现对应用日志、系统日志、应用日志的采集、解析、存储、转储的一站式生命周期管理;

2.运维场景化的日志内容搜索,包括数据总览、应用检索、日志分类检索、日志一键查询;

3.通过规则化与智能算法相结合,对根据历史数据学习,进行日志异常检测判断,辅助排障。

4.满足合规审计要求,定期自动对日志数据脱敏、备份,并在需要使用的时候能够随时恢复数据进行查询。

5.通过KPI异常检测、应用关联定位、日志交易串联、日志异常定位等智能化算法,实现辅助问题根因定位和故障预警。

6.打通各运维工具集间的数据壁垒,实现数据流通,打造综合运维分析平台。


88.png


北农商大数据平台通过现分布式高可用,支持横向扩展,随着业务需要随时扩容平台节点,通过高效数据采集手段,实现对现有IT环境的实时数据采集,打破各个孤立运维工具中的数据孤岛,对所有运维数据进行集中高效的存储、查询及可视化展示。支持结构化、非结构化的数据采集支撑。通过鼠标点选的方式实现全局数据查询,查询方式简单易上手,查询速度达到秒级返回。平台预设丰富模版及展示模式,能够对多维度数据进行多种方式的实时性展现。内置AI智能日志分析引擎,实现日志异常检测、日志异常定位并辅助故障定位。平台提供符合业界标准的集成接口,其体系架构符合行业大数据的技术发展路线。在架构中,采用了成熟的行业开源技术标准中的组件,并支持在后期的扩展开发。


三、创新点


北京农商在运维大数据平台项目建设中,依据流批一体的处理技术、流式窗口聚合方式,实现了实时采集、秒级处理、秒级查询,保障数据的及时性、有效性。通过交易数据与日志的深度结合,集日志数据、告警数据于一体,采用聚类分析、告警压缩、故障定位等方面融入机器学习智能化手段,为运维人员提供更加便捷数据分析工具。从而充分挖掘了北农商的运维数据价值,有效的运用了数据以及智能化的手段帮助各层级人员对于运维工作中的需求。


四、技术实现特点


1.流批一体大数据处理核心,实现数据的全生命周期管理。

数据采集分为有代理采集以及无代理采集两种方式,其中无代理采集为在服务端采集,支持DATABASE, TCP/UDP, SYSLOG等主流采集协议,对于一些无法安装代理的被采集对象,可以采用这种方式。有代理采集采用多进程方式,即:守护进程+工作进程的方式,既保证采集代理的稳定性,又可以对工作进程的资源消耗进行控制,避免代理客户端对被采集对象的资源消耗过大。

数据处理层分为路由层 -> 队列缓冲层 -> 流处理引擎三个阶段,数据路由层直接接收采集客户端上送的数据,根据不同数据源对应的路有策略,转发给不同的消息队列,流处理引擎从消息队列直接拉取数据,处理成功并且持久化到数据库后更新数据消费偏移量,确保了数据至少被处理一次,数据零丢失。

通过流批一体数据处理引擎调用Kafka Topic中的数据进行实时解析和聚合,支持对导入的数据进行一定程度的清洗和转换,如按时间聚合、去重等。并把结果数据写入持久化数据库。处理能力可以通过增加并发线程的数量来快速提升。平台内置丰富的数据解析功能,解析任何格式的数据。

数据采集的过程中,同时会对数据做清洗及分类,一站式完成数据采集、处理及存储。管理数据在整个生命周期的流动,支持从热数据到温数据、冷数据的迁移,后过期被删除。支持数据定期备份到HDFS或NFS中,同时可将备份后的数据还原回存储数据库,监管对数据的安全性要求。同时在数据的保密性上进行了数据脱敏配置或不采集脱敏数据,基于数据流级别,按字段、按黑白名单用户进行敏感数据配置。


89.png


2.集于流批式处理的数据算法应用,依据算法判断辅助运维人员决策

日志模式智能识别是对于组件和应用日志通过智能分析算法,无需人工规则解析和人工规则告警,能实现智能日志自动分类、自动异常发现告警的能力。可以让海量的日志数据以非常低的人力成本投入实现故障分析定位以及实时故障告警,大大提升日志分析的效率和有效性。

本项目在传统日志分析能力的基础上,通过智能日志分析通过智能化算法自动将日志按照格式不同进行分类,并对每一类日志的波动特征进行统计和学习,从而实现自动的异常日志发现和告警、自动的变量(如日期、IP、URL等)提取与分析、自动的发现日志异常波动、自动识别日志格式的改变,同时在排障分析时提供基于日志的故障定位和变量分布分析。


90.png


3.基于算法的告警降噪,让运维排障有针对性

基于文本相似聚类算法、熵值计算对告警进行压缩、重定级,采用无监督与有监督相结合的学习算法,自动识别数据特征、基于历史数据进行模型训练,可以有效的增加告警的有效性,减少运维人员在无效告警所花费的时间。


91.png


4.基于日志全局流水号的交易串联,辅助运维及业务定位故障

运维大数据平台对在线交易类的业务系统特别推出了针对业务端到端的动态运行图,通过全局流水号对单笔交易在所经过的每业务节点计算请求处理耗时、响应处理耗时、网络耗时、交易耗时。对于出现无响应、响应率低、成功率低或出现的错误的节点直观的呈现在运维人员面前,便于故障定位。同时,当需要查询单笔交易时可通过银行卡号、用户名、流水号等关健字进行搜索,即可搜索到此交易所涉及到的每个业务系统的交易日志。通过多维度深入分析及可视化展现,以业务视角实时展示各种业务指标,透视应用接口调用状态,对核心业务进行关键指标统计(如调用来源、调用量、接口处理时间等),体现端到端的运维的状态。将平面的日志变为立体的日志。通过对日志源与对应系统的逻辑关系记录,使问题的定位更加快速、直观,使得问题的解决更加容易便捷。


92.png


5.所查即所得的可视化能力

平台内置了大量的展示组件,展示方式灵活多样,生动,可交互。可高度个性化定制的数据可视化图表。支持柱形图、折线图、饼图、面积图、散点图、百分比、仪表盘、四象图、雷达图、漏斗图、区域图等10多种的图形展示支持。可基于应用场景及建设拓扑分析,将不同组件不同维度的视图进行整合和管理。实时展示和监控业务视图中所有服务的整体健康状态,快速定位问题异常及寻找问题根因。直观展示IT运维环境的运行的业务系统及环节及服务组件之间的访问关系和关键指标,多种维度指标深入分析,在故障发生时能更加直观的呈现故障关联信息、故障根源情况,极大地提升故障解决效率。运维人员可以从视图*****时间得到提示,并快速通过统计分析、日志聚类、日志串联等等手段快速定位故障环节。


93.png


五、项目过程管理


1.需求分析和概要设计阶段

此阶段时间段为2021年4月至2020年5月,其间主要完成了业务需求分析、业务功能和技术构架的高层设计。提交了现状需求分析报告、各功能模块的高层设计、物理构架、功能逻辑构和接口的高层设计等文档。

2.系统详细设计阶段

此阶段起始时间为2021年5月至2021年6月,其间主要完成了系统详细设计、数据流处理设计工作,提交了详细功能设计、数据结构设计等文档。

3.系统编码、测试和上线准备阶段

此阶段起始时间为2021年6月至2021年7月,其间完成了大数据平台数据流功能开发、运维场景化客户化开发的编码、测试以及试点系统的上线准备工作,提交了运维大数据平台测试报告、上线方案、系统设置等文档。

4.上线阶段

此阶段起始时间为2021年7月至2021年9月,其间完成了十个系统试点系统上线包括新核心、网关、网联、手机银行等重要业务系统,并根据试点行上线运行的情况,为推广实施提出了优化需求。


六、运营情况


1.快速查询

通过运维大数据平台的建设,实现在运维过程对于日志快速查询的目标,从原来需要登录每台机器去查询日志,改为统一查询,可跨日志、跨服务器、跨应用的日志查询。查询时间由原来的10-30分钟缩短到1-5分钟以内,

2.单笔串联交易排障

通过交易串联,将每笔交易所经过的节点耗时、请求耗时、响应耗时、链路耗时都能够直接展示。通过在交易链路上的信息判断,能够迅速发现交易链路上的故障点,同时可直接关联日志查看系统报错。


七、项目成效


1.低延时数据处理

建设日志治理平台和大数据平台,实现日志数据统一集中管理、KPI动态异常检测、日志智能聚类等功能。


94.png


日志治理+大数据平台(算法),当前日增日志6TB,设计容量10TB,热数据保存30天、冷数据保存3个月,大数据平台日志存档一年、指标类数据两年;

高峰每秒处理日志500万条日志,其中高按单笔业务交易日志行数达3000+行,经采集、数据提取、数据合并、数据丰富等数据处理后延时小于1s。

2.即席数据查询

运维大数据平台的即席查询采用查询引擎,是平台的***查询服务入口,可支持跨数据源的关联查询,提供PB级数据秒级处理能力,快速实现多数据源整合与查询支持。用户只需要用鼠标点选及字段选取方式进行日志快速内容过滤,并自动生成查询语句进行快速查询,无需学习任何搜索语法;提供数据标签功能,支持标签分类查询。


95.png


3.所查即所得的快速视图

基于应用场景及建设分析视图,实时展示和监控业务视图中所有服务的整体健康状态,快速定位问题异常及寻找问题根因。直观展示IT业务交易运行情况,多种维度指标深入分析,将不同指标不同维度的视图进行整合和管理。在故障发生时能更加直观的呈现故障关联信息、故障根源情况,极大地提升故障解决效率。运维人员可以从视图*****时间得到提示,并快速通过统计分析、日志聚类、日志串联等等手段快速定位故障环节。


96.png


4.机器学习算法提高告警有效性

通过运维大数据平台的日志分析与告警压缩智能化手段,在数以亿计的日志产生有效告警变成了可能,当前告警压缩率为63%,有效的提升了告警的准确性。


97.png


5.交易串联

运维大数据平台采用全局流水号动态串联展示各环节的日志数据,查询交易链故障,自动计算单笔业务耗时及单节点耗时,快速定位业务中的故障节点。通过日志可视化还原业务流程处理路径,提供上下文日志展示及关联,展示业务环节中的关键数据,帮助业务部门掌握业务运行规律,降低业务运营风险。


98.png


八、经验总结


依据大数据平台的数据处理功能、借助智能算法的手段,快速挖掘数据的价值。平台涵盖各类运维日志数据的统一集中查询和分析,通过日志的聚类分析、精细化分析、建模预测等方式实现日志查询、关联分析、应用交易故障定位等多项功能的综合应用。同时,建设监控历史数据趋势分析、监控告警智能分析以及日志智能检索分析等大数据运维应用场景,为告警阈值设置、异常信息发现等提供参考依据,实现事前智能预警、事中快速定位故障、事后检查分析,进一步提升数据中心运维管理水平。

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2021-09-23

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2021-09-23

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2021-09-23

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2021-09-23

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2021-09-23

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2021-09-23

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构