本文来源于:2024年“鑫智奖”第六届金融数据智能优秀解决方案评选,作者:北京宝兰德
光大银行:鹰眼系统
2024-03-13 关键词:业务系统,智能运维,实时业务监控系统
3905
一、项目背景及目标
光大银行作为全国性股份制商业银行在5G、移动互联网时代,市场发展迅速,业务创新不断,业务量快速增长,后端支撑体系管理的WEB应用服务器实例有几千个,覆盖云上云下、容器、微服务等复杂场景。依赖现有运维人员人工监控和分析,故障解决手段单一、低效。引入鹰眼系统,构建业务视角、端到端和立体化的监控体系,实现业务调用链的可视化,帮助运维人员基于业务链条快速定位问题,处置故障,提升了复杂环境下,故障的处理能力和效率。
随着IT技术的发展,光大银行各核心业务系统越来越多依赖于J2EE技术进行建设和部署。随着业务量不断的增加下,目前需要管理的业务实例超过三千个的规模。这些大规模分布式部署的业务中间件,在运维监控上遇到了一些典型的问题:
1.面对大量部署的业务中间件实例,如何快速发现性能下降的服务,及时发现业务处理能力下降的服务,数据库访问存在性能问题的服务,保障业务性能。
2.如何快速定位性能问题原因,提升故障处理效率。
3.针对Java技术常见的内存、线程、网络资源使用遇到的问题,如何及时进行分析和预警。比如发现可能的内存使用问题、内存溢出问题。
4.目前已经有大量在线使用的业务系统,如何在不调整业务的情况下,以非侵入式的方式对业务系统进行监控。
5.监控系统本身如何确保自身的稳健性且不对业务性能产生大的影响;监控粒度和策略可配置,可以长期保存监控数据方便对比分析。
6.如何在系统层面对业务的异常、变化趋势进行分析,有效告警和处理。
行内前期依赖于现有监控系统和系统集成商、行里工作人员进行手工分析解决问题,故障解决手段单一且低效,多为单一业务实例维度进行点对点的问题故障处置,无法从业务维度全局把控故障范围,系统运维人员面临极大的压力。为了解决上述问题,并且从根本上改善系统运维工作的效率,提高日常运行监控和管理手段,提升业务连续性、可用性,光大银行决定采用鹰眼系统从业务系统维度进行全行业务系统的日常运行情况监控。
二、项目/策略方案
为了监控上千规模的业务中间件实例,对鹰眼系统服务端采用了分布式、去中心化的设计,充分使用大数据技术进行存储和分析。部署了10台物理机器、10台高配置虚拟机,用于本次系统的安装部署。
具体的部署架构如下图所示:

三、创新点
1.自动拓扑图分析
针对复杂部署架构的应用,鹰眼为光大提供智能拓扑功能,以直观图形化的方式展示各类拓扑图。包括应用拓扑,请求流拓扑,以及资源拓扑等一系列自动形成的拓补图。

2.全链路追踪
业务请求的全链路调用追踪,详细采集每次请求涉及的应用实例、起止时间、响应时间、结果状态、请求信息等信息,针对慢请求和异常服务等常见运维事件,提供快速分析诊断的手段及数据。



3.鸟瞰驾驶舱
驾驶舱功能,综合对系统总览、资源总览、组件总览、应用总览、服务总览等各类监控资源的总览视图进行轮播,适用于大屏监控、实时监测及运维团队快捷的把控IT系统的总体运行状态。



4.资产灵活纳管
内置依据业务系统、应用、应用实例、组件等多种模型资源快速纳管能力,支持选定模型进行批量自动纳管,后期无需人工介质,自动完成指定模型的全量资源纳管;在自动纳管基础上,增加关联纳管能力,进行指定资源纳管后,实现该资源上下游关联资源的同步纳管,简化运维人员操作,提升纳管数据准确性与完整性。

5.告警指标自由选配
鹰眼系统采用告警策略与监控指标独立管理,依据监控对象的不同,提供丰富的监控指标,各类指标均支持自定义告警级别、告警阈值、告警降噪时长等信息;此外,支持自定义告警指标,支持进行基础监控指标进行复杂计算汇聚为高级指标进行统一告警,减少无效告警数量与频率,提升告警信息准确性与真实性。


四、项目过程管理
光大银行鹰眼系统从2018年开始*****期的规划建设,目前已经进行了五期的规划和建设,从初的以人工+工具的运维模式,覆盖有限运维场景的状态,逐步演进、优化和引入新的模式和工具,在23年底覆盖云上云下、传统及微服务架构,实现全场景链路分析;打通IaaS/BPC/APM数据壁垒,实现全方位综合分析;展开精细化管理,开发测试/一线/运管工作台千人千面;并和专项诊断工具集成,丰富故障分析手段。具体的项目规划演进,如下图所示:

图-光大银行项目规划历程
五、运营情况
1.用户反馈
通过鹰眼系统对行内A类、B类、C类业务系统3000+应用实例进行全面监控,弥补了现有监控手段的不足,解决跨厂商零散监控的局面,实现了分布式环境下故障实例的快速定位,随时随地掌握系统的健康状况,故障提前预警,减少故障发生率。整个系统给运维工作带来如下效果:
①可视化强,运维人员日常可以根据大屏展示,迅速了解系统健康状态,提前预警减少故障发生率;
②精确判断集群内具体问题实例,快速解决故障,提高故障处理效率;
③实现了跨厂商统一监控管理,指标统一展现,实时反映系统性能状态,为性能优化提供可靠数据依据;
④上线变更检查,系统上线后所有服务的可用性检查,提前避免故障产生;
⑤故障告警功能与现有SMBD系统无缝集成,自动将故障告警信息发送给运维责任人,使故障*****时间得到处理;
⑥通过阶段性告警统计,数据分析,了解真实访问情况,使公司领导更及时了解到相关信息,用以决策。
⑦基于海量采集数据和大数据、AI的算法大大提高了分析的准确性,提升了运维的效率。
2.系统运营过程数据
①投产变更:主体功能交付投产、新老版本双线运营、新版性能报表投产、新版Syslog告警信息格式调整对接、Kafka集群切换等达18次。
②技术培训:新版APM个人专项培训、中间件管理员技术培训(新版)、一线运维技术培训(老版)、一线运维技术培训(新版)等达5次。
③事件处置协助:业务系统投产支持、告警事件协助分析、平台健康巡检、工单处理等达45次。
④系统纳管:系统纳管197个,接入WebLogic、Tomcat、BES及微服务模式Java进程,合计4171个,覆盖总行A类、B类、C类系统,成为行内重要的中间件分析诊断平台。
六、项目成效
光大银行鹰眼系统建设完成后,可以从多个层面带来显著的社会效益,包括但不限于以下几个方面:
1.资源效率提升
通过自动化运维工具和技术的应用,减少人工干预,实现IT资源的高效利用,有效节省企业和社会整体的IT运维成本。提升业务连续性和稳定性,减少由于系统故障导致的服务中断,保障社会经济活动的正常运行。
2.技术创新与产业升级
高效运维平台的建设和应用有助于推动信息技术、云计算、大数据分析、人工智能等前沿技术的融合创新,加快产业数字化进程,提升社会整体生产力水平。
3.人力资源优化
通过自动化运维解放人力,使IT运维人员能够专注于更高层次的技术研发和战略决策,促进人才结构升级,培养更多的高端技术人才。
4.服务质量提升
实现运维工作的标准化、流程化和智能化,提高服务质量和响应速度,提升企业和公共服务机构的服务形象,进而提高公众满意度和社会信任度。
5.安全管理强化
建立健全的安全运维体系,能更好地预防和应对信息安全事件,保护企业和用户的数据安全,维护社会稳定和网络安全环境。
6.经济效益扩散
企业运维成本的下降将有助于产品和服务价格的优化,终惠及消费者和社会大众,形成良好的社会效益循环。
总之,光大银行鹰眼系统的建设和良好运作不仅对企业内部管理和效率有直接影响,而且对整个社会的信息技术水平、经济发展、环境保护乃至社会治理等多个领域都能产生积极的影响和贡献。
七、经验总结
1.长远规划、分期建设
运维工作涉及到生产业务系统、日志、资产管理、流程工单、人员组织方方面面的内容;现代金融企业对业务系统的运行连续性、系统可靠性、可用性指标要求非常高,因此在规划运维工作时,需要有一定前瞻性和技术领先性,能够满足业务系统几年内的快速发展和架构革新,从而能够降低总体的运维成本。
运维体系的建设实施需要结合实际的现场环境、业务系统的发展情况以及实际运维过程中的痛点来通盘考虑。运维工作本身也是一项日常的企业基础工作,涉及到的组织、人员和事项也比较多,因此新的运维工具或产品体系的引入都需要平滑过渡,稳定介入,因此根据实际的需要,分批建设,有成效后进行复制落地的模式为本次项目选择建设路线。
2.分工明确,职责明晰
光大银行鹰眼系统上线后,现场交付人员和银行科技部门管理、运维人员反复讨论,沟通,针对行内的实际情况和运维工作的分工以及组织架构,定制了合理的运维角色和相关权限设置,并通过web 界面实现了千人千面的工作界面,从而理清了运维工作的职责和范围,实现行内运维工作分工明确,职责明晰,具体的重要角色和日常工作内容如下:
①中间件管理员
日常工作:系统整体健康度、系统整体服务能力、系统上下游服务状态监测、服务质量异常监测、实例维度横向对比、实例关键指标日常巡检、中间件容量统计分析、SMDB元数据校验;
故障处置:精准定位故障点、快速判定影响范围、实例维度深层分析、源码级故障定位、重大事件回溯复盘、关键指标预警分析、应用链路瓶颈分析;
②开发/测试人员
日常工作:模块性能压测辅助统计及分析;
故障处置:业务模块功能异常分析;
③应用管理员
日常工作:系统整体健康度、系统整体服务能力、系统上下游服务状态监测、服务质量异常监测、业务系统关键指标统计报表;
故障处置:精准定位故障点、快速判定影响范围、应用链路瓶颈分析;
④一线运维人员
日常工作:系统整体健康度、系统整体服务能力、系统上下游服务状态监测、服务质量异常监测;
故障处置:精准定位故障点、快速判定影响范围、应用链路瓶颈分析。
综上所述,光大银行鹰眼系统经过多年、长期的演进和投入,形成满足行内业务发展和运维工作需要的一整套监控、运维和处置体系。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
重庆三峡银行:新核心、新起点、新使命——新一代核心系统项目
重庆三峡银行新一代核心系统项目涵盖“1+8+N”60个系统新建及升级改造,推动我行技术架构、应用架构、数据架构、安全架构的全面转型升级,引入大数据、云计算、微服务、SOA、双中心双活、自动化部署、CI/CD流水线技术等前沿金融科技,对内构建具备先进性、兼容性、稳定性、前瞻性的全新分布式系统架构,对外打造产品创新敏捷化、客户定价差异化、业务流程智能化、营销渠道多元化、交易核算分离化、合约管理统一化、风险防控全面化的数字服务体系,全面支撑我行高质量发展、数字化转型的战略规划需求。
2022年度城市金融服务优秀案例评选
重庆三峡银行
2024-03-13
光大银行:实时交易监控系统
近年来,面对互联网金融业务的强势发展,光大银行聚焦五项重点业务、五大生态圈与五项基础能力,坚持做活客户、做高收入、做大负债、做强资产。在此过程中,光大银行信息科技部从科技助力业务运营的角度出发,深入挖掘运营数据价值,助力业务数字化转型,并打造光大银行业务监控项目群,建立业务实时交易监控中心,为监控客户交易隐患与保障客户财产安全提供了有力支撑。
源于FCC30+
吴勇 李友朋
2024-03-13
平安银行:“腾龙”核心业务系统
基于平安银行过往国内外几个核心系统的经验沉淀与总结,“腾龙”核心系统在设计时博采众长,在业务上不仅借鉴吸收国外核心系统高度产品参数化的特点,同时还充分支持国内电子账户、营改增、自贸区等特色业务。
2024-03-13
广东农信:票据业务系统项目
票据业务系统将票据业务操作、交易大厅功能一体化,为辖内农合机构提供票据中心业务处理平台的同时,建立转贴现运作机制,打通系统内票据流转通道,辖内多家机构可联合对外进行票据业务交易,从而形成一个既有利于全面营销,又利于集中经营、整体联动的票据运作模式。
2018第二届农村中小金融机构科技创新优秀案例评选
广东农信
2024-03-13
江苏省联社:集中作业系统
集中作业系统,旨在实现全省农村商业银行的业务标准化、系统智能化、运行集约化、流程简约化,通过重构柜台业务流程、运营条线组织流程及管理流程,对现行各家法人行柜台业务运营模式进行改造。集中上收占用网点前台大量人力和时间的部分业务到集中作业与授权中心,实行后台流水线作业与授权。
2022年第六届农村中小金融机构科技创新优秀案例评选
江苏省联社
2024-03-13
广东华兴银行:基于分布式微服务架构的新一代银行核心业务系统项目
本案例围绕分布式微服务的新型技术架构体系,构建以“产品+服务”为中心的银行核心业务系统,对核心系统的数据架构、业务架构和技术架构进行革新升级替换。业务层面,搭建统一的产品工厂模型,实现产品快速创新,采用统一计价模型,实现差异化计价;基于产品工厂、计价工厂支持运营、存款、贷款、支付结算、资金清算等业务功能,实现交易与核算分离。技术方面,面向分层的架构体系,采用分布式微服务架构,按照业务领域将核心业务系统划分为存款、贷款、公共、产品与定价、参数平台、客户信息、聚合服务等微服务,从应用架构、产品与定价、账户管理、业务流程等多维度实现快速需求响应;具备国产化软/硬件适配能力,支持性能的快速横向扩展,提供完善的开发平台、运维平台,实现系统的高扩展性和易维护性。
2023年度城市金融服务优秀案例评选
广东华兴银行
2024-03-13
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构