本文来源于:2024年“鑫智奖”第六届金融数据智能优秀解决方案评选,作者:北京宝兰德
北京宝兰德:智能全链路性能监控解决方案
2024-03-06 关键词:大数据,智能运维,全链路
3323
一、解决方案简介
智能全链路性能监控解决方案适用于金融企业业务性能监控场景,方案从业务视角出发,以业务交易链为抓手,实施端到端的性能监控,融合多源数据、多维分析和智能算法,协助运维工程师快速定位故障,降低故障平均修复时间。
智能全链路性能监控解决方案是金融行业内,能够覆盖云上、云下、容器、微服务等复杂IT架构环境,对复杂长流程业务提供端到端性能监控和故障问题分析能力的解决方案。该方案能帮助运维团队快速定位问题、通过多维分析迅速掌握故障根因,降低故障平均修复时间(MTTR)。
二、应用场景痛点简介
“科技支撑业务”是金融企业科技部门的指导方针,稳定运行和控制风险则是IT系统运维的*****要素。在客户互联网化、移动化的发展趋势下,金融企业从战略和战术层面积极应对,提出了金融互联网、大数据、电子商务、客户体验等新的战略目标,业务的复杂化和技术升级对让金融企业自有IT运维部门面临的压力和挑战进一步加大,监控体系要面对众多信息化系统拓扑组成的复杂的IT支撑服务,再加上微服务、云原生等新技术的不断涌现传统系统监控手段已经难以满足金融企业的监控和运维需求,必须引入更加细粒度,能适应新架构、新体系的监控体系来保障支撑系统的稳定运行。
未来金融企业在新场景、新模式下会不断地进行业务创新和服务提升,对支持系统的稳定性和业务连续性提出了更加严苛的要求,需要监控运维系统从被动响应需求和故障转变为主动预警、分析、保障业务运营和服务质量 ,需要监控运维系统从传统的注重设备运行状态、设备故障等系统指标层面扩展到注重应用性能、业务健康等业务运营指标上。智能全链路性能监控解决方案能覆盖云上、云下、容器、微服务等复杂IT架构环境,实现对PaaS组件、应用服务和业务实例进行代码堆栈级别的监控;绘制业务交易调用链、分析应用性能并帮助运维人员更加快速的定位故障,降低故障平均修复时间(MTTR),助力金融企业在激烈的竞争环境下,业务健康和系统稳定两项指标大幅提升。
三、解决方案亮点介绍
1.以业务交易链的角度来监控性能和定位故障
在5G、移动互联网、物联网等新环境下,金融业务的迭代速度更快,业务创新更频繁,使得支撑系统的变更也更加日常化。在云原生、大数据、虚拟化等技术的影响和塑造下,金融企业的支撑系统架构也变得更加的复杂和多样,业务的开展所需要的资源数量也是指数级增长,给系统监控和故障处理带来了全新的挑战,应对这些挑战需要从客户和管理视角,面向企业业务,实现横跨整个业务交易链的端到端的全链路监控和分析,才能应对业务的快速迭代和频繁创新,才能在复杂的云原生环境下分析问题,快速定位故障。
金融企业传统的监控系统是以主机、网络、存储等设备层面的、IT视角的模式来进行全面的监控和告警。对应用、服务的运行性能、状态、健康度等业务层面的指标并不关注。但往往故障早期都会出现业务侧指标劣化或者用户感知不佳的预警信息,面向新架构、新场景的监控体系需要从传统系统监控转向面向业务的监控分析,前端业务人员和后台技术人员目标一致、方向相同,从而实现问题迅速定位和故障的快速解决。
智能全链路性能监控解决方案通过融合CMDB数据,自采集数据、日志数据进行梳理和处理,形成业务视角的服务调用链数据。基于该调用链进行相关的细粒度的监控,实现服务类型、服务健康度、服务调用、调用链等指标的监控和展现。
客户通过客户端(APP、浏览器)访问后端服务时,从用户基础层面开始,在业务调用的各个链条的基础组件上部署相应的探针/agent来监控每一次的用户访问轨迹和后端业务调用链条,实现对单次调用的分析或指定时间段的业务调用汇总分析。具体如下图所示:

图:端到端监控
本方案中,系统将会采集用户的访问数据和后端的服务调用数据,然后对这些数据进行处理和建模,形成以业务视角和用户访问视角的模式,方便运维人员在出现问题时,能够以业务人员或客户的角度来理解系统出现的问题并进行快速的解决。具体的数据处理模式如下图所示:

图-融合数据的汇聚和梳理
融合数据汇聚和梳理的过程中有如下特点:
①兼容开源链路监控产品
兼容对接SkyWalking、ZipKin、PionPoint、Jaeger、OpenTracing等常见开源链路追踪产品;
②多方式对接链路数据
采集代理直连,获取原始链路采集信息;
对接服务端,获取初步分析后链路信息;
③链路数据标准化
链路数据标准化处理,组装符合WebGate规范的链路数据,传递至后端服务组件进行链路数据分析与展示。
综上所述,通过对CMDB的对接和自身全链路代码堆栈界别的监控部署,然后整合和梳理数据,形成以业务交易为视角的调用链监控体系,从而实现了业务、技术人员视角一致的运维体系,能够帮助金融企业业务出现问题时,能精准的描述问题、准确的分析问题、快速的定位问题,终解决故障,提升业务的可用性和连续性。
该方案中使用的数据包含有CMDB、APM、日志数据(可选)、系统监控数据,大多数金融企业的科技部门在实际的监控运维中都已经部署或者规划了这些运维工具或产品,相应的这些数据都能够通过产品集成或数据采集获得,因此该方案是具备在金融行业科技部门内部进行快速复制和推广价值的。
2.业务系统视角的多维度分析,快速定位问题故障
传统的系统监控是根据部门职能分工来进行各个系统运维职责的划分,划分的原则是基于IT视角的(例如:云下部门按照独立的系统来维护,云上按照IaaS、PaaS和SaaS来横向划分)。相关的运维视图、各类分析和相关的工具也都是根据这个划分原则来横向的提供相关的数据展现和分析能力。
智能全链路性能监控解决方案在系统监控的基础上,提供以业务的视角(纵向视角)进行监控运维的手段,业务人员和系统运维人员能够以相同的目标和一致的范围来进行业务运维工作数据分析和问题定位。方案中运维人员可以从监控系统提供的系统->拓扑->服务->调用菜单逐级下钻、查看和分析相关的运维事件和问题,该过程从用户视角逐步分析、跟踪一个业务交易的全流程过程。
①系统情况
系统总览中展示被监控的所有应用系统的情况。支持根据租户、业务系统、时间等进行数据的查询。
按照系统的健康度升序进行展示,优先展示健康度差的系统,系统的颜色根据健康度的优、良、差进行变化,蓝色为优、黄色为良,红色为差。能够直观的看到存在问题的应用系统。支持下钻到系统详情,查看系统的详细情况。如果是父业务系统,则下钻查看该父业务系统所有子系统的运行情况。
同时,对系统的应用状况、服务状况、组件状况、访问状况、资源状况、告警状况进行统计分析。了解系统上各个维度的数据,发现问题点,支持下钻到相应的页面,查看详细的信息。具体示例如下图所示:

图-系统总览
系统清单中通过列表的形式,展现所有应用系统的运行情况。
支持根据租户、资源状态、系统健康度、标签、容器平台资源、业务系统、时间等条件进行查询。
默认按照健康度升序展现所有系统的运行情况。包括:系统名称、运行状态、健康度、告警数、用户数、访问状况、服务状况、组件状况、应用状况、资源状况、标签详情等信息。
支持下钻到服务清单、组件清单、应用清单、资源清单,查看当前系统相关的内容,高效的定位系统中存在问题的服务、组件、应用、资源。系统清单的示例如下图所示:

图-系统清单
②系统拓扑
系统应用拓扑图中,展示系统包括的应用和组件集群,应用和组件集群的运行情况,相互之间的调用关系。应用或集群,根据健康度的优良差,进行不同颜色的展示,蓝色为优、黄色为良,红色为差。当发现应用存在问题时,支持下钻查看该应用的应用详情,确定应用中具体发生的问题。
健康状况中,展现系统不同维度的健康情况,能够快速直观的展现系统在哪一个维度存在问题。
服务状况中支持查看各类服务的运情况和健康度TON差服务,发现系统中有问题的服务,并支持下钻查看该服务的服务详情。系统拓扑的示例如下图所示:

图-系统拓扑
③服务情况
服务总览中展示被监控的所有服务的健康情况。支持根据租户、业务系统,应用,时间等进行数据的查询。服务分为:Accept URL、Send URL、Accept API、Send API、SQL、NOSQL6大类。
按照服务的健康度升序进行展示,优先展示健康度差的服务,服务的颜色根据健康度的优、良、差进行变化。蓝色为优、黄色为良,红色为差。能够直观的看到健康度低的服务。支持下钻到服务详情,查看服务详细情况。
同时,对服务的服务状况、服务访问状况、响应时长分布、问题接口服务分布进行统计分析。了解服务各个维度的数据,发现存在问题的服务,支持下钻到相应的页面,查看详细的信息。服务总览示例如下图所示:

图-服务总览
服务清单支持根据服务类型、租户、资源状态、服务健康度、标签、业务系统、时间等条件进行查询。
默认按照健康度升序展现服务的运行情况。包括:服务名称、健康度、告警数、用户数、运行状态、服务类型、访问量、平均响应时长、响应时长分布、成功率、所属系统、所属应用、标签详情等信息。
支持下钻到服务详情、系统详情、应用详情,查看服务相关的系统、应用的运行情况。服务清单示例如下图所示:

图-服务清单
服务详情支持展现服务在各个应用实例上的运行的情况。包括:服务名称、服务类型、应用实例、健康度、访问量、成功率、平均响应时间等。点击名称,查看服务的详细调用历史。服务详情示例如下图所示:

图-服务详情
④调用链
展现单次服务的调用链详情,针对慢的服务和问题服务,分析服务调用慢或者失败的原因。通过树状列表,展示从前端到后端,完整的调用链详情。包括:方法、类型、开始时间、响应时间、响应时间占比,结束时间、实例、详细情等信息。具体调用链调用详情示例如下图所示:

图-调用链详情1

图-调用链详情2
点击方法名称,展现方法内部的调用栈,分析方法耗时过长或者失败的原因。通过多次的堆栈信息采集,代码级的定位,导致问题的原因。调用堆栈的示例如下图所示:

图-调用内部堆栈分析
服务的调用历史详单,展现某一段时间内,服务调用的每一次记录。包括:服务名称、应用实例、开始时间、响应时间、是否成功、请求地址、实例名称、实例所属应用、操作等信息。具体调用历史分析示例如下图所示:

图-调用历史分析
综上所述,北京宝兰德智能全链路性能监控解决方案用业务的视角,通过系统->拓扑->服务->调用四个层级,提供了多维度的,可下钻的分析模式,能够帮助业务人员和技术人员统一运维问题的范围和视角,更加快速的定位问题,提升业务的可用性和连续性。本方案中涉及到的系统、拓扑、服务和调用数据均来自于CMDB、APM等运维工具和产品中,因此该方案具备复制性和可推广价值。
四、金融行业客户名单
光大银行、汉口银行、甘肃银行、乌海银行。
五、客户评价
光大银行客户评价:
通过鹰眼系统对行内A类、B类、C类业务系统3000+应用实例进行全面监控,弥补了现有监控手段的不足,解决跨厂商零散监控的局面,实现了分布式环境下故障实例的快速定位,随时随地掌握系统的健康状况,故障提前预警,减少故障发生率。
1.可视化强,运维人员日常可以根据大屏展示,迅速了解系统健康状态,提前预警减少故障发生率;
2.精确判断集群内具体问题实例,快速解决故障,提高故障处理效率;
3.实现了跨厂商统一监控管理,指标统一展现,实时反映系统性能状态,为性能优化提供可靠数据依据;
4.上线变更检查,系统上线后所有服务的可用性检查,提前避免故障产生;
5.故障告警功能与现有SMBD系统无缝集成,自动将故障告警信息发送给运维责任人,使故障*****时间得到处理;
6.通过阶段性告警统计,数据分析,了解真实访问情况,使公司领导更及时了解到相关信息,用以决策。
7.基于海量采集数据和大数据、AI的算法大大提高了分析的准确性,提升了运维的效率。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2024-03-06
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2024-03-06
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2024-03-06
甘肃农信:数据治理与数据管控平台
通过对我行内部数据的商业应用和技术管理的一系列政策和流程的梳理及设计,搭建一套涵盖元数据管理、数据标准、数据质量、数据资产管理等方面的数据治理及管控平台,赋能银行数字化转型。 通过实施数据治理和建立数据管控平台,满足人行、银保监会等监管机构的各类监管标准、安全分级标准、监督检查及其他各项要求,提高甘肃农信数据质量和业务数据的应用价值。
2022年第六届农村中小金融机构科技创新优秀案例评选
甘肃农信
2024-03-06
山东农信:信e贷项目
信e贷项目的建设目标是实现全自动的线上信贷业务,主要包括线上贷款申请、合同签订、贷款发放和贷款归还等功能。
2018第二届农村中小金融机构科技创新优秀案例评选
山东农信
2024-03-06
辽宁农信:智能运维平台
借助大数据分析技术对辽宁省农村信用社联合社运维数据进行算法研究并建立风险预测模型,形成智能感知、智能预警、智能处理的智能运维服务体系,以求能够实现事前预测、事后快速处理的快速智能运维方式。
2018第二届农村中小金融机构科技创新优秀案例评选
辽宁农信
2024-03-06
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构