本文来源于:2019第三届农村中小金融机构科技创新优秀案例评选,作者:山西农信

山西农信:立体化运维支撑体系实践

2019-10-18 关键词:农信/农商行,数据中心,运维管理,基础设施,开发运维4503

项目背景及目标

随着我社业务系统的不断建设,传统运维方式已无法满足我社的运维发展要求。同时由于我社存在监控维度单一、监控深度不足、系统配置灵活性不够、及缺乏自动化操作的相关工具和技术手段,导致运维经验积累不足,无法对常见的运维操作、数据使用等方面的风险做到全面防控。因此构建一个以大数据平台为基础架构,有效整合及补充我社各监控运维系统成为当前工作的当务之急,并终实现运维管理的一体化、自动化、智能化,流程化,实现运维问题的及时发现,快速定位和解决,彻底改变我社运维工作的被动局面,提升运维工作效率。

 

建设目标如下:

 

1.加强运维大数据分析,利用运维大数据加强业务风险防控,推动业务流程优化并支持业务创新。

 

2.强化系统风险和故障的早预警、早定位和早处置。

 

3.提高基础资源和应用部署的自动化水平,实现快速交付、动态调整、弹性部署,降低人工操作风险。

 

4.提升交易过程监控,实现应用层面交易全流程、全节点监控全覆盖,结合应用系统交易特性及相关数据的分析对比。

 

5.强化容量管理,做好相关资源的动态规划,预防非计划性、突发性的容量瓶颈问题发生。

 

6.强化运维、开发、安全、风险管理的信息共享和一体化协作,提升多方联动能力。

 

项目方案

立体化运维支撑体系采用“智”行合一的建设思想,以大数据为基础,运维系统整合为方法,通过智能化、自动化、数字化、服务化,构建集配置中心、告警中心、管理中心、控制中心为一体的新一代运维体系,项目规划图如下:

 

项目总体规划图

 

物理架构:系统采用B/S三层架构设计,支持Chrome浏览器访问,全中文界面,支持在物理机、虚拟机上部署。系统Web端访问无须安装任何客户端软件及JAVA插件等,即可实现全功能展示。整个物理架构采用OSGI模块化、插件化、参数化、服务总线化、通讯与业务处理分离的架构理念设计,运行节点无状态的模式,提供服务的集群化部署。在出现单点失效时能依赖负载均衡迅速进行失效转移,也可以在失效节点失效恢复后,加入到原来的集群中,同时在业务量的高峰期或者低峰期,得益于AIM平台运行节点的无状态特性,可以动态的增减节点,具有高度可伸缩性,使资源的使用率发挥大化。系统支持硬负载和软负载,硬负载支持F5和负载均衡A5。支持主从模式和集群化部署,满足双中心、多中心扩展部署,以支持双中心双活、跨中心应用的物理架构。

 

业务方面:项目通过建设基础监控平台、运维指标可视化系统、日志监控分析系统、支付专项监控平台,持续完善监控平台,以“不漏报、不误报”加强“监”的能力;建设流程平台、CMDB配置库,完善“管”的能力;建设自动化运维管理平台、操作平台,结合运维大数据平台、集成管理平台、集中告警处理平台等分析系统,通过监控分析、智能学习补充的“控”能力, 逐步实现智能化的主动预测、故障自愈、无人值守。

 

应用架构图

 

技术方面:系统使用大数据技术、服务集成技术、代理采集技术、智能基线技术等,结合可视化技术,对我社业务系统分别从基础软硬件资源、应用系统性能、应用及资源日志、场景化运维等方面进行补充监控,实现对业务系统的全方面监控和丰富的场景视图,满足多用户、多角色的使用需求。

 

实施方面:项目由山西省农村信用社联合社省联社规划,科技部门牵头并负责实施。立体化运维支撑体系的实施配合省联社项目群实施的计划,采用分阶段、迭代建设的方式。

 

创新点

1.方案创新点:项目采用“智”行合一的建设思想,以大数据为基础,运维系统整合为方法,通过智能化、自动化、数字化、服务化,构建集配置中心、告警中心、管理中心、控制中心为一体的新一代运维体系。通过建设基础监控平台、运维指标可视化系统、日志监控分析系统、支付专项监控平台,持续完善监控平台,以“不漏报、不误报”加强“监”的能力;建设流程平台、CMDB配置库,完善“管”的能力;建设自动化运维管理平台、操作平台,结合运维大数据平台、集中告警处理平台等分析系统,通过监控分析、智能学习补充的“控”能力, 逐步实现智能化的主动预测、故障自愈、无人值守。

 

2.架构创新点:系统使用微服务框架、分布式存储技术,采用模块化、插件化、参数化、服务总线化、通讯与业务处理分离的架构理念设计,提供服务的集群化部署。系统支持主从模式的部署和扩展方式,满足双中心、多中心扩展部署。

 

3.技术创新点:系统使用大数据技术、服务集成技术、代理采集技术、智能基线技术、可视化技术等,对我社业务系统分别从基础软硬件资源、应用系统性能、应用及资源日志、场景化运维等方面进行补充监控,实现对业务系统的全方面监控和丰富的场景视图,满足多用户、多角色的使用需求。

 

技术实现特点

1.大数据技术:数据数据平台采用大数据技术软件及框架,构建从数据采集、数据处理、分析一体化、可视化数据展现到应用管理的全流程数据服务体系。

 

2.可视化技术:由数据采集、处理和前端可视化展现组成,前端可视化展现和交互基于HTML5+CSS3的主流web前端技术,应用可视化组件技术,移动可视化技术,实现数据动态效果呈现,以及大屏场景的切换、钻取等交互操作,满足ECC大屏、PC端、移动端协同展示。

 

3.服务集成技术:服务集成管理平台基于SOA思想,使用基于Web服务的治理方式、强大的通讯协议转换、报文适配等集成技术,建设基于运维的服务总线,逐步实现运维服务的集中管理和分级服务。

 

4.数据分布式存储技术:平台采用深度改造的MyCat和开源的mysql数据库组成分布式数据库,实现分库分表,读写分离及高可用,从总体上提高了系统的负载能力。

 

5.代理采集技术:代理平台Agent是基于金融业务平台架构,采用Java技术,支持多种采集方式,具备支持跨平台部署、实时采集、自动接入、自监控管理等特性。

 

6.智能基线技术:建立基线模型,使用线性回归算法、AdaBoost算法、AR算法等,根据历史指标数据的规律性,经过机器学习实现以时间维度、空间维度等模型,建立起一套指标动态定义的能力,实现智能基线预警和预测。

 

项目过程管理

项目的实施配合省联社项目群实施的计划,严格按照总行项目管理相关制度,从计划、质量、财务等多方面进行规范化管理,采用分阶段、迭代建设的方式,至2019年8月底,完成全部项目功能的投产及使用。主要经历了以下几个阶段:

 

1、需求分析和概要设计阶段

 

此阶段时间段为2018年10月至2018年12月,其间主要完成了业务需求分析、业务功能和技术构架的高层设计。提交了现状需求分析报告、各功能模块的高层设计、技术构架和接口的高层设计等文档。

 

2、系统详细设计阶段

 

此阶段起始时间为2019年1月至2019年2月,其间主要完成了系统详细设计工作,提交了立体化运维支撑体系系统详细设计说明书等文档。

 

3、系统编码、测试和上线准备阶段

 

此阶段起始时间为2019年3月至2019年6月,其间完成了立体化运维支撑体系系统客户化开发的编码、测试以及上线准备工作,提交了立体化运维支撑体系系统测试报告、上线方案、系统设置等文档。

 

4、上线试运行阶段

 

此阶段起始时间为2019年7月至2019年8月,其间完成了项目的试运行,并在省联社内部进行推广使用,并根据试运行的情况,为推广实施提出了优化需求。

 

5、推广实施阶段

 

此阶段起始时间为2019年9月,全面进行推广使用。

 

运营情况

项目实现了对我社22套重要信息系统监控及运维管理,并在我社信息科技中心和资金清算中心使用。其中CMDB配置库完成了150+个CI分类、63个CI模型和1300+CI属性项,涵盖了应用系统104套、服务器800+套、数据库96套、中间件79套和230多套网络设备,实现了IT软硬件资源的电子化、可视化管理;可视化展示平台提供了30多个PC端运维监控场景和4个ECC主题场景大屏,满足不同角色、不同人员的日常运维需求;集成管理平台和事件管理平台集成对接了我社7套监控运维产品、200多套网络设备以及短信和邮件系统,实现了事件的集中展示与处理;自动化运维管理平台已接入我社16个业务系统和各类设备500多台,巡检指标覆盖操作系统、数据库、中间件、路由器、防火墙、硬件等11大项400多个指标项;支付专项监控指标80余项,其中涵盖了二代支付系统、二代农信银系统、中小金融系统的支付数据指标40余项、信息数据指标20余项、清算10余项;日志监控分析系统每天日志量接入量将近500G,建立了300多个业务分析指标,80多个告警监控,搜索10亿条日志数据只需10秒左右。

 

截止目前,系统运行状况良好,系统操作界面比较友好,响应速度快、功能完善,满足日常的使用需求,达到了预期的效果。

 

项目成效

(一)保障系统安全,促进业务发展

 

项目整合了我社现有监控系统,对我社22套重要信息系统和300余台服务器从软硬件资源、日志、进程端口、应用性能、业务等维度进行补充监控以及从业务角度对支付业务提供专项监控。监控对象的 “全”,监控范围的“广”,监控内容的“专”,真正实现了重要信息系统的全方面监控。

 

(二)精准定位问题,提高运维效率;

 

项目建设成功后,大幅度提升系统监控效率,告警发出由原来5分钟缩减到1分钟,同时具备一定的预警功能,运维人员收到告警或预告警后,可以立即通过平台进行异常事件的排查与处理,提升故障响应效率300%,提高异常事件处理效率至少30%以上,减轻系统故障带来的负面影响,保障信息系统稳定运行,促进业务发展。

 

(三)改变运维方式,解放运维生产力。

 

巡检指标覆盖操作系统、数据库、中间件、路由器、防火墙、硬件等11大项400多个指标项,单次巡检较人工节约30分钟,月累计巡检2040次,节省1020人工时;同时通过梳理批量的流程及操作内容,实现了批量任务的一键式及自动化批量结果监控,大大提升了批量的效率和业务可用性,日均调度执行3000次,缩减80%的人工操作时间,系统差错率从5%降低到1.5%;运维工具箱实现了运维工具的生产/消费的流水线作业管理和生产事件的快速诊断分析,大大提升了事件处置效率,截止到今年8月管理员对生产事件的自主解决率从年初的14%提升到55%;运维人力的投入也由之前的46人缩减为目前的31人,改变了传统的运维方式,释放了运维的压力,解放了运维生产力。

 

(四)提供数据支撑,支持业务决策

 

项目建设了业务专项监控和应用监控,补充了业务监控的短板,同时整合了我社监控系统、业务系统、数据仓库等系统数据,完成了信息系统的主机资源、应用性能、业务流水、业务运营数据的统一管理及集中展示,提供了专业的业务运行及运营视图,为业务系统的后续发展规划提供数据支持,帮助业务部门进行决策。

 

经验总结

项目以智能化、自动化、数字化、服务化为驱动,通过运维数据整合、服务整合、可视化整合、分析整合、操作整合形成了基于数字化和自动化的运维决策与支撑能力,彻底打破运维信息孤岛、告警风暴、经验式运维及人工运维的痛点与问题,让运维体系中的各系统互联互通,实现高效的协同运维过程,完成被动式运维向主动运维及运营的转型。实现了监控的对象和内容“全”、数据中心的事件预警和告警“快”、监控事件定位“准”和运维数据可视化维度“广”。

 

从我社的实际应用效果来看,起到了如下作用:

 

*****,运维值班人员可以*****时间通过大屏主动掌握数据中心的运行情况,改变了过去需要从基层营业网点或第三方电话渠道被动得知各系统的运行情况。既方便了值班人员也保证了事件*****时间得到处理。

 

第二,运维人员在进行维护时,能*****时间定位到事件发生在相应的应用系统的节点位置和生产事件的对象,再通过该节点的日志定位到事件的根本原因,而及时处置问题,大大缩短了处置事件的时间,提高了效率。

 

第三,很多日常巡检任务可以通过平台来进行,目前实现我社22套重要信息系统的巡检自动化。

 

第四,促进了各应用系统和资源配置的优化,在对告警事件分析的基础上完善和改进应用系统。

 

 

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2019-10-18

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2019-10-18

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2019-10-18

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2019-10-18

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2019-10-18

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2019-10-18

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行
  • 数据中心
  • 开发运维
  • 运维管理
  • 基础设施

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构