本文来源于:2020第四届农村中小金融机构科技创新优秀案例评选,作者:北京农商银行
北京农商银行:基于运维大数据的企业服务总线深度分析及优化机制的研究与实践
2020-11-05 关键词:大数据,农信/农商行
4894
一、项目背景及目标
企业服务总线是系统间互联互通的基础,可支持多种标准和规范,提供可靠的消息传输,其运行情况事关银行信息系统全局。企业服务总线自身节点多、接入应用服务多,当自身或接入的应用服务出现异常时,如未*****时间发现、解决,将对业务造成重大影响。全国性大型银行、股份制银行通过多年持续投入,采用了多种技术手段对信息系统进行了有效监控,并结合CMDB实现了故障的及时报警及快速定位。但对于技术力量相对薄弱的广大农村中小金融机构而言,如何立足自身现有技术能力,在成本可控的前提下,通过对各类运维数据进行融合分析、推动总线持续优化和服务治理,从而实现总线的安全稳定高效运行,是个不小的挑战。
二、创新点
本课题中,技术和管理手段相辅相成:
1.技术创新。基于ELK架构,结合行内需求进行了定制化开发,建设了日志处理平台,通过对海量总线日志的实时采集、统计和分析,建立了对总线服务的有效度量。一方面将交易情况进行可视化,不仅实现了动态实时展示,还为相关优化工作提供了数据支持。另一方面,实现了实时告警输出,可*****时间发现并处理问题。
2.管理创新。探索总线服务“度量-管控-管理”的治理机制,组建了包括应用、系统、网络及运行等各条线在内的跨处室运维团队,并与业务及开发部门紧密协作,通过多方联动实现了总线优化PDCA闭环流程。既实现了总线自身的持续优化,也积极推动了各接入应用服务的改进工作。
三、技术实现特点
1.技术架构。基于ELK,结合行内需求进行了定制化开发,建设了日志处理平台。
2.实时采集日志。根据总线日志的特点,制定匹配规则和抓取策略,并对日志中同一交易的多条日志进行了合并,实现毫秒级解析。采集日志时,为了避免对正常生产业务产生影响,采集程序支持可视化监控并采取了限流熔断措施。采集日志所用网络为我行备份网。
3.对日志进行多维度分析。根据日常运维需求,综合设计了数十张图表,内容包括多项指标,可以根据接入系统、服务/交易,展示指定时间周期的交易量、交易状态(成功率、超时率)、交易耗时等各类信息,如:
服务状态:可以查看服务的运行状态。
服务性能分析:可以查看服务数量、调用次数、响应时间(快、慢、平均)。
响应趋势分析:可以查看响应时间趋势。
服务日志查询:根据各类检索条件,可以查看详细日志。
4.生成实时报警,并对接统一监控平台。一是基于预置规则,对日志进行实时解析,生成实时报警,可通过短信、邮件等方式推送告警。二是基于分析结果,可直接定位到日志具体故障点,大大缩短日志排查时间。并对接统一监控平台,实现对报警的统一管理。三是开发报警规则管理端,运维人员可在web页面对报警规则进行动态调整,并实时生效。规则目前为:接入系统+交易码+采样周期+异常交易数量+异常交易类型。交易支持绝对数量和相对数量,异常交易类型支持超时、失败和特定关键字等。
5.实现运维大数据的融合处理。对应用日志分析数据、网络性能数据、应用性能数据、业务性能数据及动环数据各类运维数据进行有效采集及融合,为运维分析提供有效支持。
6.积极落实总线服务“度量-管控-管理”的治理机制,建立完善的系统优化流程。组建了跨处室的总线运行优化团队,根据总线自身及接入服务的运行情况,综合相关运维大数据分析,每周对总线进行一次综合评估并输出《总线运行分析报告》。根据报告确定优化方案并实施,并在新的周期持续跟进,有效形成系统优化的PDCA闭环,实现持续优化。
Plan:基于总线运行报告,确定总线优化目标及计划。
Do:执行具体优化措施。
Check:对总线运行情况进行检查,明确效果,找出问题。
Action:发布总结、检查的结果,即新一期总线运行报告。
7.进行运维大数据的智能分析。一是使用Prophet工具对总线时序数据进行分析,并对未来进行预测,作为系统性能容量管理的参考。二是通过对客户交易频率、公网IP、交易地点等信息的分析,检测客户异常交易行为,成为风控系统的有效补充。三是对总线各节点、各服务的交易失败情况进行联合分析,探索进行问题根因分析。
四、项目管理过程
1.需求分析和概要设计阶段。时间为2020年2月至3月,期间主要完成了业务需求分析、业务功能和技术架构的高层设计,提交了业务需求分析报告、技术架构和接口高层设计等文档。
2.系统详细设计阶段。时间为2020年3月至4月,期间主要完成了系统详细设计,提交了详细设计说明书。
3.系统编码、测试及上线准备。时间为2020年4月至5月,期间主要完成了日志分析处理平台的开发、测试及试运行上线准备工作,提交上线方案、系统设置等文档。
4.上线阶段。系统在两会前夕正式上线运行。
此系统在首次投产后,根据实际情况,不断进行迭代,截至2020年10月底,共完成10余次上线和优化。目前系统运行稳定。
五、运营情况
1.日志全量采集。对同城双中心30台服务器进行全量实时采集和分析,日均日志量400G左右。
2.日志聚合分析。对日志进行聚合分析,生成总线运行情况的各类报表(如服务数量、交易量、交易耗时、交易成功率等指标),获得了总线自身及各接入应用服务的运行全景图,精确掌握了各项实时数据。
3.日志精准查询。总线系统涉及服务器多,日志量大,传统查询方式费时费力。通过日志处理分析平台,可以对日志精准定位、快速查询日志,提高日志的查询和问题查询的效率。
4.对接统一监控平台。实时分析总线日志异常情况,将监控告警内容发送至统一监控平台,对监控告警进行中心级统一管理。
5.发布总线运行报告。基于运维大数据,总线优化团队定期生成总线运行报告,已发布22期,推动了多项优化工作。
六、项目成效
1.实现了对总线的有效度量。不仅提升了系统管理精细化能力,还为后续数据分析、总线优化及服务治理打下了坚实的基础。
2.实现了总线运行实时监控。目前可在总线日志输出的2秒内生成报警,并将故障点信息推送给运维人员,全面提升响应速度。
3.提升了总线服务的治理能力,实现了系统优化机制的闭环。在对总线有效度量的基础上,有效推进了总线服务的管控、管理。通过对运维大数据的深度分析,截至2020年10月末,发布运行报告22期。输出问题及建议多项,已向运行维护中心内部相关处室(应用、系统、网络和运行)、软件开发中心和各相关业务部门进行反馈,包括应用服务版本及配置问题、系统及网络问题、总线及接入应用服务的优化建议、业务操作异常等多个方面。相关问题均进行了有效跟踪,目前已关闭问题25个。
通过上述举措,保障了总线的稳定运行,提高了运行效率。以快捷支付交易为例,农信银中心组织的压测中,我行耗时由2019年的738毫秒优化到2020年的368毫秒,效果显著。
七、经验总结
通过运行维护团队自主研发的日志处理平台,对我行总线日志进行实时采集、多维度分析,实现了对总线的有效度量,初步建立了总线服务治理“度量-管控-管理”的机制。根据动态监测结果,实现实时告警及故障精准定位,提高了问题处理效率。结合运维大数据,通过对总线的“望闻问切”,生成总线运行报告,建立了总线优化PDCA闭环机制,实现系统持续优化。也为基于运维大数据的智能分析进行了积极有益的探索。
上述举措不仅保障了我行总线的稳定运行,也为农村中小金融机构关键信息系统稳定运行及优化机制进行了积极的探索和实践。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2020-11-05
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2020-11-05
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2020-11-05
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2020-11-05
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2020-11-05
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2020-11-05
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构