本文来源于:2022第三届中小金融机构数智化转型优秀案例评选 ,作者:长安汽车金融
长安汽车金融:智慧运维基础平台
2022-05-23 关键词:数据智能应用
2810
一、项目方案
在长安汽车金融有限公司深入贯彻习近平新时代中国特色社会主义思想和党的十九大精神,认真落实集团公司“133”战略,明确“数字赋能,打造智能产业金融平台,建设**汽车金融科技公司”的战略定位指导下,长安汽车金融两地三中心体系不断完善,基础设施、业务应用系统规模逐渐增大,对业务系统稳定、可靠运行的要求越来越高,信息科技部运维工作量和难度都大幅上升,目前主要面临以下挑战:
(一)客户体验至上下的故障预警能力缺失,迫切需要智能快速定位策略
随着长安汽车金融同城双活中心的上线运行,数据中心网络架构日趋复杂,同时围绕金融科技战略陆续推出了互联网+业务系统,包括Web网站,APP,微信公众号等,面向的是全国4000多家4S店以及普通客户,随着业务系统的高速发展,如何解决信息系统高效稳定运行,提升用户体验,如何在海量数据中精确抓取敏感数据,助推运维人员做到故障的精准定位,根因分析,安全溯源?
(二)在金融科技背景下的企业数字化转型,数据可视化缺失
目前长安汽车金融数据中心资产数字化管理缺失,如何建立多维度展示窗口,直观呈现运维工作成果,让各级运维管理人员和领导一目了然的掌握目前业务情况和数据中心整体运营情况?
面对目前的这些挑战以及未来更多可能的挑战, 长安汽车智慧运维基础平台引入符合全新IT管理理念的多模智能运维基础平台,它由APM、NPM、智能日志分析管理平台、基础资源监控平台组成,通过运用大数据技术,整合各类监控数据,提供智能运维场景,对基础设施、海量日志数据、网络性能、应用和业务性能进行统一监控管理和关联分析,实现了自动巡检、异常预测、根因分析、智能告警等,并可快速跟踪分析应用性能问题至故障根源,为长安金融应用系统性能优化提供建议,从而确保整个应用系统的高效,高可用性和高可靠性,提升了企业的数字化运维能力。
2.1 APM(应用性能管理平台)
APM以业务应用为核心,通过向应用程序部署探针采集应用性能指标数据,上报至应用性能监控平台,对支撑业务系统的服务器、负载均衡、数据库、代码等进行逐层深入分析,运维人员依据探针捕获的业务性能数据、系统数据的分析和诊断,全面掌控业务系统的健康性,掌握业务在各个环节的性能情况和细节表现,实现对公司应用系统的问题处理和性能调优,从而保障业务连续性、系统可靠性、用户体验效果,提升业务系统运维效率。具体建设内容如下:
(1)业务场景的拓扑可视化:自动发现核心系统应用调用关系,全面展示IT架构各环节健康状况,定位集群中拖累主机,并关联性能趋势、错误和业务质量分布分析,逐层问题剥离分析,提升运维排障效率。
(2)代码级问题诊断:定位应用代码级异常,实现问题代码精准定位,提升IT系统对业务的支撑效率。
(3)全链路式业务感知:调用链支持自动采集全栈快照和热点快照,实现全方位代码运行跟踪与分析,同时支持自动获取全部系统级和用户级代码,实现端到端应用拓扑可视化展示。
2.2 NPM(网络性能管理平台)
NPM由可分布式部署的“网络流量回溯分析系统(简称‘前端’)”和“业务性能管理平台(简称‘中心’)”两部分组成。前端数据采集分析系统采用旁路方式对网络关键节点进行流量监控数据采集,而可视化分析中心对前端数据采集系统进行集中管理,以及对数据进行可视化智能分析。通过这种全方位网络流量采集透视化分析及性能管理,使运维人员能够快速掌握企业IT架构各项网络指标,快速精准定位故障,提升长安金融IT网络运维水平,具体建设内容如下:
(1)可视化网络性能管理:对核心业务系统流程、网络数据流特征,实现面向业务的可视化、智能化、精细化网络性能监控与分析。
(2)流量透视化分析:对网络各节点链路,如:同城中心间链路、内网链路、外联第三方链路、核心设备链路的流量透视化分析,掌握每条链路的带宽用量、流量构成和传输质量状况。
(3)网络数据性能监控:通过各节点的网络数据性能监控进行关联性分析,呈现业务系统在网络中的运行状况,及时定位问题,提升网络系统的运维效率和故障处置能力。
(4)网络数据回溯:以网络数据包采集分析技术为基础,实现分布式对各关键节点网络流量、业务服务质量、异常行为进行回溯定位分析,提供故障重现的能力。
(5)智能化分析:当系统遇到故障或性能下降等问题,实现针对关键网络和应用的主动智能分析,提高分析效率。
2.3 智能日志分析管理平台
智能日志分析管理平台对离散日志数据进行统一采集、处理、检索和可视化分析,实现基于日志的运维监控与分析、安全审计与合规,以及各种业务分析等数字化运维和运营场景。智能日志分析能够自动实现日志的模式发现,将大量的日志原文转化为少量的日志模式,大大减少了人工筛选时间,帮助运维人员更快的定位故障。此外,智能日志分析可以实现对日志数据的监控,辅助用户定位问题,判断失败类型,对故障进行初筛和预判。在故障发生时为用户提供必要的提示信息,有效地提高故障诊断和恢复效率,具体如下:
(1)日志统一归档:实现全量系统日志、网络日志、中间件日志及重要系统应用日志的集中管理,满足监管审计要求。
(2)统一检索审计查询:实现全量系统日志、网络日志、中间件日志及重要系统应用日志的检索、审计查询,日志数据导出,报表展示等功能。
(3)日志调用链追踪:快速分析系统性能消耗的原因、定位异常并解决问题。
(4)日志异常检测:直接识别异常的业务系统或者IT系统,大幅度减少人工阈值的配置工作,提升告警的准确率。
(5)日志告警分析:通过告警合并规则,支持灵活的告警事件分派管理,支持按照告警消息内容进行不同人员的告警分配,实现应用故障的辅助监控与统计分析。
2.4 基础资源监控平台
基础资源监控平台通过SNMP、Telnet、SSH、JDBC、JMX等协议,实现对长安金融数据中心网络设备、服务器、存储、应用、数据库、中间件等各类异构的IT资源实现一体化采集和分析处理,同时还提供对虚拟化资源、云资源、服务器各类硬件(如温度、风扇、电源、硬盘等)实现统一监控和管理,使运维人员能够实时快速掌握IT基础架构资源情况,为业务系统稳定运行奠定基石,具体建设内容如下:
(1)基础架构监控:实现对网络、服务器、存储、应用、数据库、中间件、虚拟化资源池等的基础资源运行数据容量分析及实时监控管理。
(2)统一策略管理:“一键式”快速、批量的设置资源的监控策略,可支持灵活定制指标、事件,满足运维人员个性化策略定义。
(3)统一事件告警:实现自定义各种事件告警,自定义告警,各种多媒体平台告警灯。
二、创新点
2020年初,突如其来的疫情,让数字经济成为全球不确定环境下的增长引擎,国家在“十四五”规划中多次提到“数字化”,强调要加快发展数字化和数字经济,而数字化运维是数字化发展中必不可少的环节,企业数字化系统的建设只是*****步且是一次性的,而运维则是全年7x24h,长安汽车金融正处于十四五“数字化、智能化”转型的关键时期,传统运维依靠的是人力和经验,保障系统稳定和可靠,利用技术和流程被动响应和处理问题,然后随着长安金融业务的快速发展,同城双活数据中心及新核心系统分布式微服务架构陆续上线,面对如今庞大和复杂的IT基础设施和新技术架构应用,传统运维早已力不从心。
长安汽车金融智慧运维基础平台目前以APM为核心,再配合NPM,智能日志分析管理平台,基础资源监控平台,基于各种运维数据为基础,利用算法匹配需求场景和模式。当业务系统出现故障,首先通过APM探针采集的请求快照,可以保留出问题的某个请求的完整调用数据以及主机环境数据,运维人员通过查看应用性能监控平台调用链,从调用链便可直观发现故障点,快速实现故障定位,总结如下:
(1)大型业务系统某一业务环节不可用
首先通过APM应用拓扑调用链查看,定位具体业务模块,再通过NPM查看故障业务网络质量,基础监控查看基础资源可用情况,根据以上信息快速定位故障点为主机故障或者网络故障或者应用软件故障,迅速解决问题。
(2)业务系统运行缓慢
首先统一通过APM应用拓扑调用链查看,层层分析下钻,查看端到端网络延时情况,再辅助以智能日志分析管理平台,如遇应用代码或者SQL执行缓慢,直接发送研发整改,如遇网络传输延时,则通过NPM和基础资源监控定位具体故障原因,快速解决故障。
通过长安汽车金融智慧运维基础平台,从前端到后端采集不同维度的各种运维数据,辅助以各平台的大数据AI算法,为信息科技运维带来了跨越式提升,具体如下:
(1)智能化监控告警
通过APM、NPM、日志、基础设施监控实现了各个技术栈的监控,从硬件到软件,从应用到数据库、中间件、操作系统,从主机、存储、到网络,全维度的监控体系,实现了对数据中心各项运行指标的掌控。
(2)智能化运维方式
由传统的运维人员依据经验判断解决问题到现在完全基于智能化的数据采集分析系统,改变了传统运维故障分析无法复现故障现象,还原精细完整故障数据,从原始的IT运维人员凭经验、通过低效率的人工进行排查方式到智能化的大数据AI算法模式,节约了公司运维人力及时间成本,从而也保障了系统的业务连续性。
(3)可视化展示
长安汽车金融智慧运维基础平台各模块构建了多维度可视化大屏,全面动态地展示业务与IT系统的运行情况,帮助公司建立企业数字大脑神经中枢,为决策者提供数据图谱支撑,当系统出现问题时,能够*****时间发现问题,安排相应人员快速处理,提高业务支撑效能和水平。
三、技术实现特点
长安汽车金融智慧运维基础平台以APM、NPM、智能日志分析管理平台、基础资源监控平台为核心模块组成,从应用、网络、日志、基础资源等各个维度采集数据建立场景,开展信息系统的智能运维。
3.1 APM
长安汽车金融APM主要由应用探针和应用性能监控平台两部分组成。探针主要负责采集和上报应用性能数据,应用性能监控平台将探针上报的指标数据进行清洗并持久化存储,供API做聚合指标查询,对支撑业务系统的集群、容器池、容器、主机、代码效率等逐层深入分析,实现对客户端、业务、应用程序、数据库(关系型和非关系型)、外部调用等业务访问环节的数据分析及展现,具体有如下特点:
(1)调用拓扑自动生成:
调用拓扑为三层结构,从应用拓扑下钻到容器拓扑,并且列出每一个后端调用。可以真实展现应用节点之间、应用节点与后端之间的调用关系。当应用性能受损后,可快速定位是哪个集群,哪台容器。

影像平台调用拓扑图例
(2)应用性能评分体系建立:
通过对应用的请求平均耗时、请求错误率、Apdex三个指标,按响应时间得分 * 0.2 + 错误率得分 * 0.6 + Apdex指数得分 * 0.2公式计算出应用的性能评分,该评分体系可以方便运维或开发人员直观的看出业务健康度,可针对性的对应用性能进行优化。

应用性能评分图例
(3)告警智能化:
监控告警除了传统的阈值模式,APM新增了智能基线模式,采用自研算法计算历史数据趋势与当前指标计算标准差,做到告警智能化。

告警分析图例
(4)监控指标多维化:
APM将业务数据、容器环境数据、系统环境数据进行关联。首先,在排查问题时,可先判断业务关联的系统和容器环境是否健康,排除因环境问题对业务的影响。其次,当排除环境问题后,可直接定位容器或主机所承载的业务,对慢业务进行分析和诊断。 第三,当主机或容器环境出现问题时,可直接定位所影响的业务。
3.2 NPM
长安汽车金融NPM主要由前端数据采集分析系统和可视化分析中心组成,前端数据采集分析系统采用旁路方式对各个网络关键节点进行流量监控数据采集,而可视化分析中心对前端数据采集系统进行集中管理,以及对数据进行可视化智能分析,主要特点如下:
(1)网络流量可视化:
NPM对所辖网络各关键网络位置流量趋势进行实时监控,包括链路流量趋势、流量成份分布、协议分布、IP地址流量分布、IP会话流量分布、IP段流量分布等多种流量KPI指标进行实时可视化监控,以便于即时掌握链路流量情况,关注各种指标的发展趋势,即时发现网络节点流量异常。

线路流量监控视图
当互联网、广域网、外联专线线路质量发生异常时,将会影响到远端用户访问体验。NPM建成后构建了线路与地图相结合的专线质量监控图,以可视化的方式展现每条专线的网络质量(包括网络带宽、网络时延、丢包、重传)等网络性能指标,实现对互联网及专线性能监控预警。

互联网流量监控视图
(2)业务指标可视化:
NPM根据关键业务系统,提供业务状态可视化监控大屏,对业务访问逻辑视图及应用指标提供结合业务网络路径指标一体化监控大屏,对业务的业务网络及应用指标进行稳定性状态的整体监控。

业务整体监控视图
业务应用及网络指标监控视图
(3)监控场景定制化:
NPM根据业务网络及应用的监控需求可提供针对性的场景化组合监控视图,可针对特定业务场景、关键网络线路、关键网络节点等提供可视化监控视图。满足运维工作对不同保障工作的监控需求,为保障业务及网络的稳定高效运行提供有效的可视化监控手段。

特定业务场景监控视图

关键业务网络节点对比监控视图
关键业务网络线路对比监控视图
(4)故障分析精细化:
NPM通过对流量的采集监控、业务梳理分析、应用及网络KPI指标分析监控,提供基于业务网络为视角的一体化高效故障分析定位流程,为运维人员进行业务及网络故障分析定位提供有效数据支撑,精细定位故障节点分析故障原因,提升运维工作效率。

故障分析流程示意图
3.3 智能日志分析管理平台
长安汽车金融智能日志分析管理平台分为日志采集、日志智能存储分析、日志应用三个模块,基于大数据技术和智能算法来实现离散日志数据的统一采集、处理、存储与查询分析,实现了对海量日志的统一管理,调用链监控与追踪,安全审计与合规等功能,主要特点如下:
(1)日志异常识别
通过接入核心业务系统日志,实现了日志模式识别能力,利用聚类算法将文本中相似度很高的日志聚合在一起,提取共同的日志模式,帮助运维人员快速发现异常模式日志。

(2)调用链追踪
构建了日志全链路追踪,提供面向业务的服务拓扑展示、服务分析、全链路追踪,帮助运维人员快速分析系统性能消耗的根本原因,追踪交易链路,准确定位异常请求。

3.4 基础资源监控平台
基础资源监控平台逻辑上分为三个层次架构,包括数据采集层、数据处理层和业务展现层。主要对同城双活数据中心的服务器、网络设备、中间件、数据库、存储、虚拟化平台等产品的数十万关键指标进行了深入监控并实现了统一的可视化管理 , 能够有效预防问题的产生及快速帮助运维人员进行定位故障 , 降低运维成本。
通过对所有资源管进行数据采集,再制定特定的策略监控指标,能够帮助运维人员通过颜色快速判断设备运行情况及健康状态,保证每天的健康检查能够高效完成,提升工作效率。

四、项目过程管理
长安汽车金融智慧运维基础平台按照分模块平台进行建设,具体如下:

五、运营情况
长安汽车金融智慧运维基础平台历时1年半的系统建设,已成功上线APM、NPM、智能日志分析管理平台、基础资源监控平台等模块,逐步建立了以智能平台为主的运维体系流程。
5.1 APM
APM平台探针已覆盖核心系统共计27个应用子系统,建立了从前端客户访到后端资源中心的逻辑拓扑,构建了应用系统健康评分体系,问题定位机制体系,区别传统过滤日志、查找接口的方式,APM通过下钻数据,建立6步以内定位的手段,定位时间缩短至分钟级别。

应用拓扑

应用健康度
5.2 NPM
NPM对长安汽车金融同城双活数据中心所辖网络各关键位置流量趋势进行实时监控,包括链路流量趋势、流量成份分布、协议分布、IP地址流量分布、IP会话流量分布、IP段流量分布等多种流量进行实时可视化监控,完成了20个应用系统82个应用节点的全流量监控。针对数据中心互联网及点对点链路流量监控,共配置11个大屏展示图,双中心收集监控实时网络流量近10Gbps。

专线流量监控视图
应用状态图
5.3 智能日志分析管理平台
长安汽车金融智能日志分析管理平台每天通过对核心业务系统多达94台主机进行全方面的日志采集,包括系统日志,各类型应用日志等,共建立了17个日志模型,每日采集日志数据上亿条,流量日均超150GB。同时通过对接集成基础监控,NPM,APM,基础资源监控平台等,打通信息孤岛,将监控指标进行可视化展示,实现了核心系统的日志统一归档查询,日志异常识别等,使运维透明化,集中化。


5.4 基础资源监控平台
长安汽车金融基础资源监控平台采集了同城双活数据中心600多个目标资源,建立了10多个监控策略,当问题告警产生触发监控策略,通过短信、微信、邮件等方式快速推送给运维人员,帮助运维人员实时掌握企业IT基础资源健康状态,为业务系统高效稳定运行筑起坚固的堡垒。

六、项目成效
随着长安汽车金融业务的高速发展,信息科技在数字化、智能化战略下快速推进,同城双活数据中心IT架构体系高速发展,面对IT设备和信息系统数量的快速增长,对运维效率的需求越来越高,智慧运维基础平台的建立,极大的提高了IT运维服务处理效率,做到了故障提前预警,精准定位,根因分析,帮助公司不断优化端到端的用户体验及业务运营能力,逐步完善了智慧运维体系建设,保障了业务系统稳定高效运行。
(1)提升员工生产力:未建设智慧运维基础平台前,长安汽车金融每天上班由主机、存储、应用3名专职管理员进行1小时的小时专人巡检,效率较低、且巡检完全依赖经验,无法得到可靠性保障,现在每天只需5分钟查看监控大屏,即可快速知晓业务健康状态,提升了巡检的精确率及效率,解放了员工的生产力。
(2)提升客户体验感:长安汽车金融服务于全国4000多家经销商,通过智慧运维基础平台带来的故障提前预警,把运维处置从以前的事中、事后向事前处置的方向演进,快速的消除业务故障风险隐患,通过公司抽样调查统计,经销商满意度从去年95%提升到了5月新的98%,大大增加了客户业务体验感。
(3)节约成本:长安汽车金融智慧运维基础平台上线以来,已逐步减少第三方运维服务商人天支持,同时通过APM对应用缓慢的代码优化建议转发研发团队,大大降低了信息系统每年的运维支出费用,为公司降本增效提供了强大的动力。
七、经验总结
长安汽车金融智慧运维基础平台从2018年开始,经历了需求调研、厂商调研、金融行业客户使用参观、项目立项、建设方案论证等阶段,根据Gartner对AIOPS市场的各项报告研读,同时结合自身业务发展需求及公司“十四五”金融科技规划,制定了智能运维的发展方向。目前从不同维度做到了对海量运维数据的采集分析,后续将围绕CMDB、ITSM、智能场景等进行建设,构建一体化智能运维管理体系,平台将通过大数据智能引擎,同时借助CMDB、ITSM对IT资产进行关联,逐步形成运维流程化,监控立体化,性能可视化,发布自动化,落地智慧运维场景,优化应用系统与IT基础设施的全栈、全生命周期运维管理,提升IT基础设施的可靠性和稳定性,提高用户体验,形成统一管理、集约高效的数字化运维体系,保障公司业务连续性,赋能公司业务模式的创新发展,为打造**汽车金融科技公司保驾护航。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
日照银行:“黄海之链”供应链金融服务平台
黄海之链”平台于2021年8月18日上线,是日照银行推出的首个To B端金融服务门户网站。平台全面融合区块链、物联网、人工智能、大数据等智慧科技,将金融科技成果与实体经济场景有机结合,实现对产业链全链条、全周期、多维度金融服务需求覆盖,加速产业运行效率;通过数据要素全面运用,实现信息化、数字化和智慧管理;通过与商贸物流平台、交易市场、电子仓单系统等特色场景对接,打造“产业经济+金融服务”的数字化生态闭环,实现产业链交易全流程业务可视、数据可信、资产可控,有效解决上下游中小微企业融资难、融资贵问题。
2022第三届中小金融机构数智化转型优秀案例评选
日照银行
2022-05-23
重庆农商行:区域性商业银行智能研发运维一体化管理平台
本项目的建设,打造了基础平台级信息资产,是重庆农村商业银行以金融科技赋能全行数字化转型升级的生动案例。其一方面提高了企业科技的自主架构设计能力,保障了金融科技转化为具体业务产品的高质高效;另一方面也为银行业全面推广微服务、智能运维和系统架构升级提供了一份良好的模版和参考执行标准。
重庆农商行
2022-05-23
苏州银行:标签体系建设项目
统一标签管理系统从整体功能架构上分为特征库、标签管理、标签应用及标签服务四大模块。其中,特征库涵盖零售、公司及同业三大条线基础特征数据,为标签体系提供重要基础数据支撑;标签管理模块主要包括标签定义、审批、发布、执行、评估、下线等,实现标签的体系化管理;标签应用提供客群筛选、客群分析、客户画像等多样化客户分析工具;标签服务模块提供API接口、批量订阅及页面集成等统一多元化服务模式。
2022第三届中小金融机构数智化转型优秀案例评选
苏州银行
2022-05-23
江南农村商业银行:江南矩阵——智能特征工程
江南矩阵是基于GPU数据库,实现流批一体的特征工程平台。其中离线特征计算是借助hive/spark,完成整个数据的预处理,特征构建,特征选择,以及特征评估的迭代,同时与实时特征计算模块会进行特征融合;实时特征计算构建在flink sql基础上,完成流式任务的开发及调度管理,实时特征加工的过程中也会融入离线特征,整个平台终构建的特征会提供给建模平台进行入模。江南矩阵平台同时也实现了特征工程可配置化,以及丰富的数据源管理。
2022第三届中小金融机构数智化转型优秀案例评选
江南农村商业银行
2022-05-23
江苏银联:苏惠券——基于银行业统一移动支付APP云闪付的优惠券分布式开放平台
依托银行业统一移动支付APP云闪付,江苏银联带领外包服务公司,规划、设计、开发、上线了优惠券分布式开放平台:“苏惠券”。江苏银联将苏惠券作为江苏省银行业票券生态的核心平台,实现票券发放及服务的千人千面,与银行、政府、大型商户等实现APP或系统对接,实现票券业务的相互引流与自动核销;打通微信的生态,通过粉丝裂变等方式引入微信的公域流量;向票券渠道商等市场各方充分开放,致力于形成“引入微信公域流量、银联银行流量互导、政府资金资源扶持、商户自助发券核销、面向市场充分开放、用户畅享各类优惠”的苏惠券生态体系。
2022第三届中小金融机构数智化转型优秀案例评选
江苏银联
2022-05-23
天津农商银行:吉祥薪管家
吉祥薪管家,以互联网工资代发为核心服务,实现各类企事业单位或流动性就业群体的本行和他行工资代发业务。该产品是数字银行部“强基工程-数赢计划”的重点培育项目,不仅可助力柜面对公业务数字化转型,提高网点产能,也是我行直接触达对公客户、联动营销零售客户的重要抓手,通过此产品,可以联动我行公司、零售、普惠业务高速高质发展,大幅提升我行综合服务竞争力。
2022第三届中小金融机构数智化转型优秀案例评选
天津农商银行
2022-05-23
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构