本文来源于:网络整理,作者:中信银行
中信银行:流量采集异构数据业务性能监控场景
2020-04-10 关键词:运维管理,采集与分析,开发运维
3749
项目背景及目标
(一)项目背景
随着信息技术的不断发展,银行业务对于信息系统的依赖越来越高,信息系统监控已经成为保证银行业务有效性与连贯性的关键。
在建立生产系统的故障发现与IT运维预警机制的同时,制定系统故障预测与故障预防的方案,提高对生产系统故障的及时发现以及预测管控能力,降低人力成本的投入等,对保证信息系统稳定运行和业务持续发展具有重大意义。
(二)项目目标
EZSonar应用性能监控系统,是华青融天研发的基于大数据技术的应用性能管理和网络性能解决方案的产品软件,它的目标是:深入业务系统运行和网络状态的黑箱,成为运维管理员的声纳,让故障根源点无处遁形。
应用性能监控系统通过对系统网络流量数据的分析,实现对业务过程的端到端监控,帮助运维团队建设性能监控平台。通过交易成功率、响应时间、交易数量、业务流量等核心指标,结合灵活的多维分析指标,对业务过程进行全面的监控,实现故障的迅速定位,有效降低故障恢复时间,提高终端用户体验。
项目方案
平台主要包括以下几类模块:数据采集模块、数据流式处理模块、数据存储模块、数据关联分析模块、告警模块、数据展示模式。
(1)数据采集:负责各类型异构报文数据采集、解密、结构化整理。
(2)数据流式处理:负责大量报文数据业务属性定义。
(3)数据存储:对数据进行分布式存储、数据归档。
(4)关联分析:业务属性关联含义映射,同时可提供海量数据的分布式搜索引擎,为用户提供准实时的搜索服务。
(5)数据可视化:提供简洁日志呈现的交互方式,如:仪表盘、报表。
解决问题:
(1)满足海量报文监控追踪的需求;
(2)解决应用系统交易报文、日志格式不规范无法串联交易全过程追踪的需求;
(3)解决行员在交易整理过程中技术门槛高,投入大产出低,精度不够容易出错的问题。
创新点
创新点一:旁路数据采集技术,数据分析更安全
使用物理交换机流量镜像的方法,将部署在银行AB两个应用之间的传输报文复制出来,再通过解码手段对报文进行解析和格式化,从而达到数据传输监听的目标。
该种方法无需在生产环境软件中做任何变更,即可实现通讯分析目标。
创新点二:报文含义映射关联技术,业务关联分析更简单
在银行业务内部流传的过程中,往往要经过十几个应用集群之间的访问,集群与集群之间往往采用不同的字段含义进行传输,比如在A-B之间传输的字段是1’,在B-C之间传输的字段是2’看似1’与2’之间没有任何联系,但实际上通过A-B之间的数据就能找到1’而是用1’就能找到2’,从而实现了跨集群之间的交易追踪。
创新点三:图形框架交易追踪技术,零技术做到数据快速终整理
对于银行技术人员,头疼的莫过交易对账,因为他们需要从上亿笔交易中梳理交易传输规范,参照交易类型进行逐条核对,而在对照的过程中还会存在,入门条件高(需要技术培训),投入工作量大,效率低下等问题。
通过该创新点,系统提供交易追踪图形框架,只需要输入要追踪交易的卡号,身份证号,手机号等信息,就可以快速帮助人工梳理海量交易数据,实现了低门槛、速度快、精度高等目标。
创新点四:异构报文支持,打破了监控系统对于业务系统数据传输规范的依赖
在银行交易传输过程中,每种交易采用不同类型的报文传输,如http、xml、MQ、sql等,交易与交易之间并无统一的报文规范,因此对于不同种类的异构报文类型进行解码,形成统一的结构整理输出,用于大数据分析使用是很多家银行客户希望解码程序自动判断的而不是基于人工判断核对。
当前华青公司的探针程序已经能够识别高达几百种不同类型的报文规范,并能够快速识别判断报文类型,解析出符合统一规范的交易数据。
技术实现特点
(1)采用先进大数据架构
Kafka+Elasticsearch+AI算法;
(2)旁路应用报文采集技术
交换机流量镜像技术,无需修改交易系统;
(3)旁路应用报文解密技术
实现高达几百种异构报文自动识别解码,并统一输出用于分析;
(4)报文分析应用含义映射关联技术
实现AB、BC交易节点关键词识别串联;
(5)图形框架交易追踪技术
采用web框架,只需要输入时间、身份证号、手机号、卡号就能追踪任何时间段和交易节点之间传输的全部交易;
(6)平台成熟稳定、性能高效,具备冗余、集群、负载均衡架构
全部软件支持分布式部署模式,银行常用两地三中心部署;
(7)满足技术延展性需求,支持不同类型的交易报文关联追踪。
项目过程管理
(1)应用梳理(2周)
接到行方实现需求后,团队通过资料收集、访谈等方式理解目标系统的物理部署拓扑图、系统架构图、协议规范等基础信息,给出需求分析可行性结果。
(2)业务报文确认(2天)
通过调研和梳理应用架构,设计网络镜像采集点,并进行样本数据采集和分析,找到报文中与业务环节相关联的字段进行提取。
(3)程序开发(2周)
通过理解客户业务追踪场景进行定制化场景开发。
(4)程序测试(1周)
程序现场测试,通过匹配关联业务模板,对已经提取的样本字段进行串联测试。
(5)联调环境部署(2天)
准生产环境场景插件部署,客户场景确认。
(6)生产环境迁移(2天)
将联调环境进行迁移至生产环境,并准备对应交付物。
(7)环境交付(1周)
将需求说明书、设计说明书、测试文档、部署文档、维护文档、培训文档等必要交付物交付客户,并通过培训的方式交付给客户使用。
运营情况
(一)推广应用场景
(1)重点业务全流程监控
系统需支持重点业务全流程的监控,能帮助运维人员梳理整个业务逻辑,不仅仅能直观展现整个业务系统的运行状态,并且还能定位是何系统调用出现异常情况,辅助运维人员实现对故障系统进行快速定位。
(2)服务评级、体验评分
系统支持业务系统用户体验场景评分,可以从用户体验的角度出发,衡量系统的体验满意度情况,提供满意、容忍、失望等体验级别,帮助运维人员从体验角度服务于用户。
在大量业务交易记录当中,支持指定时间内,依据交易类型、交易渠道等多维度筛选,并且提供交易详细指标导出等功能,帮助运维人员对交易数据实时分析,协助交易数据上报。
(3)节日保障和业绩实时展现
系统支持重大节日(双十一、双十二、618、年终大促)的场景监控。
可以从节日保障的角度,通过自定义交易面板,监控在线的用户数、交易金额、交易笔数等,方便从业务角度实时感知节日的保障成果。
另外,支持不同的运维场景(如灾备切换、系统上线等),通过完全自定义方式,实现基于任意监控指标的定制仪表盘,帮助业务保障人员,对节日重保业务的实时动态交易监控。
(二)应用效果
(1)支持多种类型的报文旁路解码,包括数据加解密、数据规格整理分析、方便项目运维人员对交易报文内容进行分析;
(2)统一的报文存储,项目运维人员可使用可视化框架对报文各类字段进行不同层面的钻取;
(3)实时分析报文数据,配合立体式告警机制多维度形成分析报告;
(4)简单的使用入口场景,配合权限管理系统,实现零技术交易关联分析;
(5)关联复杂应用业务场景,快速定位复杂应用场景下的交易问题和风险。
项目成效
通过建设该项目,可有效打破监控系统对于业务软件规格本身的输出依赖,快速实现业务全链路交易追踪的的效率,真正做到零技术客户使用场景:
成效一:旁路实时报文采集,通过探针解码程序适配各类异构报文,通过整理后集中存储分散在各服务器上的交易传输信息,并可随时进行回溯、避免出现问题无法回溯。
成效二:通过关键字检索和别名映射的方式,快速关联不同业务链路之间的字段含义,实现全链路交易参数查询。当想查询某笔交易的时候只需要简单的了解客户的身份证号、手机号或者银行卡号,就能够通过界面的关联跳转操作,把某一时间段内,客户发生在银行内部的全部交易展现追踪出来,并且通过详情查看快速定位客户交易失败或交易行为类查询。
成效三:通过关键字和频次的告警规则,实现基于交易故障的实时告警,对现有交易监控的交易流量提供有益的帮助。
成效四:通过所见即所得的框架使用界面,实现零技术使用场景,降低了人员投入。
成效五:通过角色和权限的划分,确保数据访问性,保证各系统管理员只能看到自己系统相关的数据内容。
成效六:界面操作简便,不仅可以提供给运维团队使用,也可提供给科技开发人员使用。
经验总结
华青融天基于大数据架构的EZSonar性能交易分析平台,满足银行对于应用系统智能监控中的业务维度转换和监控短板,通过各类报文数据维度,实现业务思路转换,在定位故障的同时,快速实现对业务交易的问题影响和追踪。
还满足银行行业对于数据监管需求,通过统一的大数据平台提供可视化工具,实现业务人员零技术基础跟踪交易数据,达到零风险可管控的目标,大大降低了监控软件自身对业务软件规格改造的需求,使得数据分析整理追踪类工作更简单高效。
项目实施
华青融天(北京)股份软件有限公司
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
广东农信:自动化测试平台建设项目
随着广东农信的业务快速增长,软件产品的广泛使用,使客户对软件产品质量的要求不断提高,作为软件质量的重要保证,软件测试越来越显示出它的巨大优势。
2019第三届农村中小金融机构科技创新优秀案例评选
广东农信
2020-04-10
山东农信:集中运维监控平台项目
为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。
2018第二届农村中小金融机构科技创新优秀案例评选
山东农信
2020-04-10
福建农信:云平台“农信云”项目
随着福建省农村信用社联合社(下称 “福建农信”)规模不断扩大、业务不断增加,应用系统、设备、数据中心空间能耗都不断增加,IT运维各方面都面临种种挑战。
2017首届农村中小金融机构科技创新优秀案例评选
福建农信
2020-04-10
贵州农信:IT可视化运维管理体系建设方案
为切实满足业务连续性及监管部门要求,确保IT系统安全、高效、稳定运行,我社在观山湖数据中心建设过程中同步启动了IT可视化运维管理体系建设。
2019第三届农村中小金融机构科技创新优秀案例评选
贵州农信
2020-04-10
浙江农信:运维一体化管理平台
一体化运维平台的总体构架包括资产管理、自动化运维模块、任务管理、系统管理、单点登录等核心模块
2017首届农村中小金融机构科技创新优秀案例评选
浙江农信
2020-04-10
青海农信:基于产品化云平台实现IT利旧和云计算创新实践
面对云计算、大数据等新型IT技术的蓬勃发展,需要选择一款适用的云平台实现高投入产出比,同时具备持续服务能力、全局高可用能力、虚拟化能力、灾备能力等能够保障业务的不断拓展和安全。
2018第二届农村中小金融机构科技创新优秀案例评选
青海农信
2020-04-10
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构