本文来源于:2023第七届农村中小金融机构科技创新优秀案例评选,作者:湖北农信

湖北农信:全链路业务性能监控平台

2023-10-06 关键词:农信/农商行,运维管理,实时业务监控系统4860

一、项目背景


湖北农信于2022年完成互联网金融云平台的建设,基于云平台高可用、高安全、高扩展的技术优势,逐步将聚合支付、手机银行等重要业务迁移上云。为保障云上业务系统安全稳定运行,我行配套建设了金融云基础监控平台、日志平台、可视化大屏等监控辅助工具。持续运维过程中发现各类传统监控工具无法精准监控业务流量、紧密关联业务交易,为解决这一难题,湖北农信经过深入研究和技术选型,建设全链路业务性能监控平台,用科技创新力量突破传统监控瓶颈、打破被动运维僵局,提高故障及时响应率和故障定位效率,增强了数字效能。 


二、 项目方案 


全链路业务性能监控平台是面向业务交易链路的监控工具,通过实时监测业务流量,实现事前故障预警、事中辅助定位、事后策略调优。平台在湖北农信聚合支付业务系统、综合前置系统和核心账户系统等共部署50个监控应用节点。整体采用分布式架构,基于湖北农信互联网金融云平台双中心架构,监控服务器分别部署于双可用区,并采用主从模式实现时钟同步,各可用区服务器独立处理流量数据,由主服务器汇聚后,统一展示和告警。

图片 1.png


全链路监控运维平台主要功能设计如下:

1、流量采集:采集、过滤、转发云上云下全流量;

2、 服务路径监控:实时监控业务交易路径中各节点的交易量、响应时间、响应率、成功率等指标;

3、多维度精细化监控:支持根据业务实际需求自定义指标进行监控及分析;

4、立体化监控:支持基于交易级的网络指标分析,实现应用层加网络层的立体化指标监控;

5、实时告警定位:通过对指标的场景化告警及智能算法,可实现1分钟发现问题,2分钟定位问题节点,并自动化一键分析;

6、交易追踪:根据流水号、账号等字段来查询单笔交易明细及追踪单笔交易的全链路流转耗时,并支持交易明细报文展示;

7、业务大屏展示:实时秒级刷新、展示业务系统总体运行情况。


三、创新点


1、云上云下全流量采集

传统环境通过物理交换机镜像方式采集网络流量,随着湖北农信业务云化部署,云上流量大多不再经过物理交换机,使得流量采集难度增加。全链路运维监控平台采用微探针分布式部署方式,解决完整捕获上云业务流量的难题,实现云上环境和传统环境的全流量采集。


2、业务指标深度解析

平台针对采集到的云上云下全量报文,进行深度高效解码,不仅对TCP/IP通用包头进行解析,还对流水号、账号、交易类型、金额等全量业务字段进行解析。在满足性能指标计算需求的基础上,为业务性能监控提供参考。


3、交易链路完整追踪

湖北农信对上云业务系统开展全局流水号改造,通过全链路业务性能监控平台,对业务层字段进行全量解码,实现基于业务流水字段的全链路追踪,可完整追踪单笔交易在各个链路环节的流转状态。当故障发生时,平台根据预先设定的业务场景监控指标触发实时告警、自动定位故障节点。


四、技术实现特点及优势


全链路业务性能监控运维平台通过集中控制器和微探针的方式实现云内流量捕获。一方面集中控制器对接云管平台,负责向微探针下发捕获策略,微探针部署于所有宿主机节点,当原始数据包到达网卡即进行流量采集;另一方面VTAP平台和监控平台均部署在云内underlay网络层,确保宿主机到VTAP平台之间网络可达,采用VXLAN、GRE隧道的方式,将微探针捕获的流量发送给VTAP平台,进而通过VTAP平台复制给业务性能监控模块。传统环境的流量通过交换机镜像的方式采集,具有零风险、高实时、高可信等特点。结合云上微探针的流量采集,终实现云上云下流量的汇聚。微探针采用C/C++语言编写,不涉及Java环境依赖;采用的libpcap技术无需植入代码,不涉及操作系统和程序的侵入,采集安全性高;微探针对数据包仅进行捕获、封装、转发操作,有效避免了性能开销及资源消耗方面的问题。


平台捕获的原始流量通常以二进制的方式存在,需要获取相关的信息就要对流量进行解码,湖北农信不只是对TCP/IP通用包头进行解析,还对上云的业务系统进行了全局流水号的改造,进一步对报文的全量业务字段进行了深度解析,例如金额、流水号、账号、交易类型等等关键字段。同时在此项目中,对我行私有协议进行了解析,突破了核心技术难点,包括核心银行协议近百种接口格式、综合前置通信协议、银联magpie中间件、JSON、KeyValue、RPC等。


湖北农信采用一套国内自研的非结构化存储系统,解决了银行多数据中心、数据结构多样性、数据分析实时性和数据安全性等核心问题,未采用ElasticSearch等开源解决方案。通过流处理引擎对业务路径上各环节指标的实时计算,生成交易量、响应时间、响应率、成功率等核心业务指标,建立全路径的业务监控视图,展示业务性能概况,及时定位故障根因。从流量捕获、数据解码,到根因分析模块,全链路监控运维平台完全国产化,实现系统的自主可控性,保障了系统的可扩展性。


全链路监控运维平台采取云上云下业务系统实时监控、定位、故障域分析、取证的四步走分析方法;还具备业务运行总览、业务性能监控、运维专家分析三个维度的可视化展示面板。其中,业务运行总览面板主要展示金融交易实况;业务性能监控面板打破了传统环境和云环境的壁垒,实时展现业务系统架构和业务运行状态;专家分析面板可根据使用习惯、特定场景需求等情况自定义故障诊断分析视图,快速获得符合要求的故障诊断视角;还可将自定义的展示指标和维度组合,提供秒级刷新能力,进一步提高技术专家的故障诊断效率。


五、项目过程管理


项目实施过程: 

2022年7月12日 开发测试环境搭建完成。

2022年9月1日 测试环境开发和验证完成。

2022年9月26日 正式进场实施。

2022年10月25日 云上流量采集探针部署完成。

2022年12月16日 流量采集完成。

2023年4月5日   项目实施基本完成。

2023年4月10日 进入试运行调优阶段。


六、运营情况


在该项目建设完成后,该平台在我行运行室、渠道室、网络室等多部门进行推广使用,对我行聚合支付、统一支付、综合前置、核心账务等重要业务系统进行实时监控,在近半年的使用中,不仅保障了我行业务系统的连续性,且多次发现和定位了业务系统故障,极大的提高了运维效率。


七、项目成效


全链路监控运维平台上线以来,进一步完善了湖北农信智能运维监控体系,实现了业务层面的高层级监控。


在监控能效提升方面,通过微探针引流的方式,将云上云下网络数据包进行全量采集与解码处理。从发现问题不及时、定位问题缓慢的窘境,到实现1分钟发现问题,2分钟定位问题,自动化一键分析的飞跃;通过分析网络指标和业务指标,构建对云上云下环境的全景、立体式监测,并基于业务字段,实现云上云下环境各关键节点的全链路业务追踪,统一业务性能观测视角,实时感知业务异常;通过监控系统生成的可信数据,对应用系统容量规划及性能优化提供有效数据支撑。


     在运维服务能力方面,通过指标呈现网络和业务的实时动态,调取全链路各模块间的交互状态,通过逐层下钻分析交易明细和TCP会话信息,实现智能故障诊断与根因分析,有效提升问题的发现率、响应率及解决率,降低运维人工成本,提升运维服务满意度,满足传统数据中心运维及云运维团队的监控需求,保障业务连续性。


八、经验总结


全链路业务性能监控运维平台的建成,有效解决了湖北农信云上云下流量的采集问题,提升监控的能效,提升了运维服务能力,降低了运维服务成本,进一完善了湖北农信的智能监控体系,助力湖北农信数字增效。接下来,湖北农信将一如既往贯彻实施“服务三农,助力乡村振兴”的使命,同时积极拥抱科技创新发展,充分利用该平台优势,进一步提升湖北农信智慧化运维水平。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2023-10-06

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2023-10-06

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2023-10-06

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2023-10-06

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2023-10-06

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2023-10-06

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 农信/农商行
  • 运维管理
  • 实时业务监控系统

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构