本文来源于:2023鑫智奖第四届中小金融机构数智化转型优秀案例评选,作者:宁波银行
宁波银行:基于全流量的主动式网络运维能力建设
2023-06-08 关键词:业务平台,全国性商业银行,数据智能应用
1848
一、项目背景及目标
现阶段业务设计与金融创新的需求趋向于以用户需求与消费场景为核心,在互联网金融时代,无论是传统金融业务、支付类业务、直销类业务等,用户的业务场景已经由线下转化为线上,在此背景下中心内部流量飞速增长,流量模型也从传统的“南北向为主”向“东西向流量为主”改变,同时运维管理对象从传统的集中式大小型机向分布式架构转变,业务分批次
逐步向云上迁移、服务器资源池化,也驱动了网络基础架构向网络虚拟化、扁平化的技术方向发展,网络、主机、应用等各领域的边界已不在清晰,核心的开发、运维价值观为以核心业务为导向,保障系统的稳定、高效、不间断运行。
当前运维保障工作面临如下挑战:
(1)监控视角割裂及沟通成本较高,需要提高整体的运维效率;各领域的监控数据无法有效汇总及交叉验证分析,业务在压测与投产后存在效果偏差;
(2)无法保障监控的时效性,存在较长时间的滞后性,造成被动的局面;
(3)出现复杂问题时需要依赖经验判断根因,并联合研发做出优化与修正;
(4)关键能力的不足:系统关键运行指标评估;系统全链路端到端的可视化技术;
因此我行使用科来的UPM流量可视化平台,以业务为导向、以网络流量为视角,实现关键业务的全链路端到端监控体系。目标及预期如下:
实现对生产问题的快速定位与溯源分析,提升IT运维效率,作为现有运维监控强有力的数据补充;
依托流量数据可视化实现全链路服务质量的评价体系,建设以网络、业务质量为导向的可视化运维模式;
基于流量数据实现指标预警,对压测、生产问题进行前瞻性预防,形成主动式运维手段,实现10min定位故障整体目标;

依托网络流量分析系统提供的指标型数据源,对智能化、一体化运维管理平台进行深入研究与落地。
二、创新点
1.实现以业务和网络服务质量为导向的可视化全链路监控
新一代网络监控分析系统的建设,主要是围绕以网络应用为核心,针对关键应用系统梳理全网络、全路径的服务访问关系可视化视图,以清晰准确的方式展示整个网络、应用、业务视图,并以简洁、可自定义的方式叠加各项性能指标,以大程度为业务研发系统压测提供帮助。
2.实现全方位实时1秒级监控效果
通过对网络流量报文的实时捕获及实时分析,科来流量可视化平台能够在压测场景中实时反馈当前系统的负载量、容量、性能状态是否正常,同时关联至网络服务质量等其他维度,如发现异常将以可视化的方式以实时1秒级精度的数据及时反馈;
3.实现以网络流量性能指标为基础的事前主动预警体系
按照承载业务网络的不同及业务应用的行为特点,通过丰富的性能指标数据建立比对基线,当业务发生异常时能够主动输出告警,结合业务流量可视化视图快速定位故障点,通过告警模型能够直观体现网络或业务应用的运行状态,快速界定责任边界。
4.实现高效的事中问题根因分析和定位流程
建立在可视化及主动运维的理念之上,流量可视化平台具备高精度、高准确度的性能指标评估,对业务连续性要求极高的系统进行实时、精准的异常发现、预警,提升网络及应用的可用性,大大降低故障发现、诊断及修复的时间。
5.为系统提供充分的流量数据支撑
流量分析平台通过对流量持续进行捕获分析,存储网络承载的成分数据、容量数据、会话数据、性能指标数据、告警数据以及原始数据包。通过对流量分析平台进行合理的容量规划,大限度留存历史统计数据及原始流量数据,为容量规划、事件溯源、业务压测等提供充足的数据支撑。
三、项目技术方案
1.流量可视化平台架构介绍
统一性能管理方案是基于业务网络的性能管理系统,能让网络的运维和业务的保障紧密结合起来,帮助提升以业务为核心的主动网络运维能力,提升网络、业务的异常检测及数据流可视化能力。
由两部分组成:由探针(科来网络回溯分析系统)和管理中心(科来UPM统一性能管理平台)组成。
1) 探针提供全量原始网络报文的采集、存储,及网络、系统压测性能指标的统计分析。
2) 管理中心基于探针的性能分析结果数据,提供以业务和应用服务为视角的性能可视化视图,实现全业务、全网络路径性能可视化分析,主动的性能异常发现功能,并提供网络探针的管理。

2.流量数据采集方式
整体方案部署模式遵从“分布式探针流量采集、集中式可视化监控”的原则,覆盖数据中心主要网络区域,按照不同分区的网络结构进行分段式的流量采集,直至待监控压力测试的业务服务器前,尽可能的覆盖业务流程的网络全路径,如下图所示:

3.业务全链路拓扑生成
网络探针是实现网络全流量数据采集分析的基础设备,网络探针使用专用的硬件设备旁路接入数据中心网络结构中,基于数据包捕获存储技术被动接收原始数据流量,依托于网络全流量,实现应用级的逻辑路径可视化分析,数据流量中能够准确有效的提供应用组件、交付设备之间的访问依赖关系;面对系统变更,长期持续的流量监控分析能够便捷的周期性管理应用架构快照。
面对海量的网络原始数据包,业务梳理的工作量将异常复杂,庞大。如果以端到端的通讯对或者数据流“flow”的视角出发,就能化繁为简。
根据TCP/IP协议栈中internet层的通讯体系,探针设备能够从数据流量中提取端到端的IP Conversation,并且根据整网全量的数据源,端到端的IP通讯节点能够不断叠加,该数据能够直观体现IP节点对应的服务节点、交付设备、转换设备之间的连接关系。
在识别IP对的基础之上,根据IP端点间的会话五元组信息(源IP、源端口、目标IP、目标端口、TCP/UDP协议),就能够还原端到端通讯中的所有传输层会话。依据会话信息能够获取服务域中所有开放的服务端口,为应用服务的梳理提供准确的数据支撑。
终,能够形成包括网络、系统全链路的端到端可视化视图,如下所示:

4.系统实时秒级指标计算提取
对于系统的每一个组件应用,基于流量协议原理计算出网络、应用维度的性能KPI指标,并且通过科来流量分析平台自研的CSDVE实现对全指标的实时1秒级精度分析统计,形成各维度下的实时流量指标走势图,在开始时能够*****时间感知各应用节点的性能状态变化以及故障问题。
监控指标如下:

四、项目过程管理
*****阶段:2022年10月--2022年12月,双数据中心重要网络核心节点全量覆盖;
第二阶段:2022年12月-2023年6月,重点网络区域监控、重点业务梳理、关键网元设备监控、区域网络健康度治理。
五、运营情况
对应用、IP地址、IP会话、虚拟网、网段、网段间等维度的统计,直观显示出网络资源的使用情况。
1) 重要网路区域的应用流量进行可视性监控;
2) 实现了网络流量与业务系统的关联分析;
3) 透彻了解各应用在网络中的流量分布和带宽占用情况;
4) 实时掌控流量特征和变化规律,实现对网络流量的精细化管理,使面向应用的IT运维管理成为可能。


2.关键网元设备监控
对数据中心内部关键网络设备前后进行全流量对比分析监控,直观显示出网络设备运行状态,监控维度如下:
1) 将墙前前后的整体流量可视化进行对比,如流量、会话、延时、同步包、丢包重传等,及时发现防火墙本身的亚健康状态;
2) 针对新建会话、墙前后重传率等关注指标进行实时监控对比分析;
3) 秒级精度的刷新保障用户的在做切换时实时观察和发现业务的异常;
4) 通过多对象对比组件,将墙前前后的指标进行差值运算,得出防火墙前后关键指标差异;


六、项目成效
本次项目建设极大地提高网络传输质量及关键业务服务质量的监控和分析能力,其主要建设效果如下:
使用户具备对生产通道以及骨干环网全路径及旁挂环网业务区长时间大容量的数据存储能力,能长期实时保存捕获的原始数据包、数据流、会话及应用日志等各种统计数据;具备快速的数据检索能力,并对已发生的网络行为、应用数据和主机数据进行回溯分析;可随时分类查看及调用任意时间段的数据,当发现问题时提供一定时间范围内的回溯分析,为迅速定位问题发生原因提供了更全面的分析依据,同时为网络安全提供了强有力的数据分析保障。
通过关联探针多处镜像点流量进行关联分析,实现通过UPM系统能够*****时间发现各业务系统网络性能下降,并快速分析出影响性能的原因并对问题发生点进行隔离,从而有效防止业务整体性能水平降低,让运维人员从容应对不断增加的网络与应用需求。

提供基于业务视图的性能监控能力,系统对任何一个支撑业务系统的应用及网络性能下降都能够及时反馈出对业务的影响,并定位问题所在,从而帮助运维人员迅速排除故障,极大的缩短了排障时间。
4.降低人员投入成本
提供基于业务的统一性能管理,能够对支撑整个业务的网络及应用性能进行实时监控和分析,摆脱了传统的孤立监控模式,转变现有的人工排障方式,实现自动化与智能化的管理,进一步降低人力成本。

七、经验总结
基于全流量技术提前业务或网络性能KPI指标,结合基线能力实现网络预警能力,在落地过程中,智能基线算法预警在不同的网络环境准确性存在较大的浮动,通常的实现方式是通过结果,优化算法,对于开箱即用的理念还存在一定的距离。
在本次项目中,我行探讨提出 “简易反馈式修正基线学习”的方法论,通过结果合理性方法以及运维人员日常处置告警中的准确、误报判断结果,进行自动化的调整基线,在事件推演过程中,有极大可能实现真正意义上的主动式的智能化监控运维。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
云南红塔银行:“香叶智农”——一站式烟农服务平台
云南红塔银行结合国家烟草专卖局《关于建设现代化烟草经济体系推动烟草行业高质量发展的实施意见》和云南省《云南省数字烟草农业发展总体规划》的相关要求,结合人民银行普惠金融的相关政策规定,配合南省烟草专卖局(公司)搭建了“香叶智农——一站式烟农服务平台”,结合烤烟生产全流程,在平台上为种植主体、第三方供应、服务商等提供多样化的场景金融服务,提供安全、便捷、高效的线上烟农支付结算服务,助力乡村振兴。
2022年度城市金融服务优秀案例评选
云南红塔银行
2023-06-08
乌鲁木齐银行:个人消费贷款(雪莲E贷-精英贷)
该产品充分利用科技手段开展产品营销和服务,客户通过线上渠道申请贷款,客户经理通过移动办公线下补充资料,无需抵押、操作便捷,一经投产就获得了客户的热烈欢迎与认可,不仅提升了我行信贷业务办理效率,让更多的客户感受金融科技的力量,还促进了当地的经济发展。
2022年度城市金融服务优秀案例评选
乌鲁木齐银行
2023-06-08
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2023-06-08
九江银行:授信审批工具及调查报告智能化系统
“授信审批工具及调查报告智能化系统”是我行围绕信贷业务“贷前调查、贷中审查、贷后检查”三阶段,提升贷款三查报告(贷前调查报告、风险审查报告、贷后检查报告)“撰写、审查、修订”过程的智能性、专业性、效率性设计开发的系统工具,是我行“授信业务全流程线上化”工程主力系统之一。 该系统主要通过“报告模板创建、报告撰写、智慧审批、结构化数据搜集”四个功能模块,为信贷业务“营销尽调、审查审批、风险控制”人员提供业务支撑及决策管理服务。
2022年度城市金融服务优秀案例评选
九江银行
2023-06-08
湖北农信:福E贷项目
随着市场的发展,科技的进步以及国家对农村新兴产业的大力推广,对我行贷款营销渠道的拓展、产品创新的能力、市场节奏快速变化适应力,提出了严峻的挑战。
2018第二届农村中小金融机构科技创新优秀案例评选
湖北农信
2023-06-08
日照银行:“黄海之链”供应链金融服务平台
黄海之链”平台于2021年8月18日上线,是日照银行推出的首个To B端金融服务门户网站。平台全面融合区块链、物联网、人工智能、大数据等智慧科技,将金融科技成果与实体经济场景有机结合,实现对产业链全链条、全周期、多维度金融服务需求覆盖,加速产业运行效率;通过数据要素全面运用,实现信息化、数字化和智慧管理;通过与商贸物流平台、交易市场、电子仓单系统等特色场景对接,打造“产业经济+金融服务”的数字化生态闭环,实现产业链交易全流程业务可视、数据可信、资产可控,有效解决上下游中小微企业融资难、融资贵问题。
2022第三届中小金融机构数智化转型优秀案例评选
日照银行
2023-06-08
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构