本文来源于:2019第三届农村中小金融机构科技创新优秀案例评选,作者:陕西农信
陕西农信:智能化运维系统建设项目
2019-10-22 关键词:人工智能,农信/农商行,运维管理,开发运维
4230
项目背景及目标
项目背景:
经过数年的建设,我社已经初步建成了监控系统、流程系统、资产配置系统、周期自动化系统等多个运维管理系统;初步做到了故障发现、故障定位、故障跟踪,以及事件管理、问题管理、变更管理和简单的配置管理;在每日批量调度和灾备系统切换方面,通过作业自动系统实现了自动化调度,初步具备了一定的监、管、控的能力。随着我社整体IT信息系统的发展,以及新架构、新技术的应用,IT环境变得更加庞大和复杂,运维管理面临的问题更加突出,各个运维系统之间没有进行有效的互联互通;专业化监控还不完善;运维流程运转不畅;各个系统所保存的历史数据得不到有效利用,无法对运行决策提供足够的支撑;随着运维管理技术的进步,原有的运维系统在监控维度和深度、流程支撑、自动化调度等多方面还需要提升。
项目目标:
1、建设覆盖整个数据中心的运维数据中心,实现告警事件与性能数据的整合,运维数据与运维流程的联动;
2、整合现有监控系统,包括基础监控、应用监控、环动监控及其他监控采集系统;
3、建设强大的告警事件处理中心,实现事件的关联、压缩、抑制、升降级等功能;
4、实现各个运维系统之间的互联互通,通过流程系统,实现监控系统、配置管理系统及周期自动化系统的数据共享,以供日常运维决策;
5、建设完善运维数据分析模块,实现故障根源分析、基线管理等智能数据分析功能。
项目方案
智能化运维系统整体分为三个逻辑功能层,分别是采集层、处理层和消费层。采集层通过各种采集方式和数据传输总线实现对运维数据横向到边,纵向到底的信息采集全覆盖,采集层对应智能化运维系统中采集模块和数据总线模块的建设,采集模块实现了第三方系统的快速接入,根据性能和告警接入规范,可对接任何符合规范的运维子系统或自运维系统;处理层统一管理由各个运维子系统发送上来的事件以及性能数据,并结合CMDB进行统一的处理与分析,及时发现故障,并针对性开展业务根源分析与定位,实现对业务影响的感知与量化。并预留接口负责将数据进行第三方传递。通过传输总线,实现事件源与事件处理功能模块间的可靠的数据交换,以及灵活的数据消费配置。处理层对应智能化运维系统中的智能监控总控中心、性能数据库、运维分析模块的建设;消费层则通过各种方式快捷高效的进行人机交互,实现具备快速解决问题能力。变现各种运维场景,包括基线管理、关联分析等运维场景,同时包括运维展现、实时报表、短信等对接消费使用。
在集成方面,采集层采用的采集模块使用开放的对外接口,对告警和性能都有相应接入规范,便于第三方系统的接入,采集模块性能采集使用dubbo技术实现,支持微服务的扩展,数据总线主要通过可扩展的、分布式的ActiveMQ部署方式进行告警的统一收集;处理层使用分布式ES对性能数据进行汇聚、使用HSQL对实时告警进行汇聚收集、使用MySql存储历史告警,通过核心数据分析模块对来自ES性能、HSQL告警、CMDB配置数据等多源头数据进行综合分析,同样采用dubbo微服务方式(支持扩展),为数据消费提供分析后结果展示,例如性能基线、关联分析等场景的展示提供分析数据;消费层主要是对数据的可视化、分析数据的使用、外部接口的数据提供等功能。
为实现统一管理、智能运维,智能化运维项目的建设遵循先进性和成熟性、平台可扩展性以及开发性和标准化三大原则,将各运维子系统实现互联互通,打破数据藩篱,并以流程平台为依托,以CMDB为运维数据基石,从运维整个生命周期活动为基础,从告警产生、工单生成、工单分派、工单关闭、告警关闭等形成运维闭环达到运维的全生命周期管理。实现平台间的联动,实现监控系统、配置管理系统及周期自动化系统的数据共享,各类运行报表的开发实现为日常运维决策提供了依据。运维数据的场景化使用,支持不断丰富的运维场景扩展。
创新点
1、智能化运维系统平台使用分布式高可用部署,使用微服务架构设计,数据存储使用ES分布式部署,支持良好地动态扩展。
2、制定了企业级告警和性能数据接入标准规范,所有接入的第三方平台或模块需遵守规范进行接入。项目建设按照接入规范整合既有各运维平台,包括原Tivoli基础监控平台、APM应用监控平台、专业级数据库监控平台、日志分析系统,保证了投资的有效性和延续性。
3、以CMDB为运维基石,对各运维系统的配置数据、告警数据、性能数据进行融合,通过对运维静态指标数据与动态性能数据进行整合,实现各运维系统之间的互联互通,将各项运维工作进行有机的联动。
4、以应用系统为单位,将分散在各运维系统中的数据进行整合、分析、展示,通过系统画像等运维场景的实现,对应用系统进行多维度描述展示,可直观整体的把握系统健康状态。
5、通过数据支撑与运维场景的深度结合,不断挖掘和发挥运维数据的潜在价值,依托运维数据及运维流程,将运维工作进行高效合理的落地,提高运维处置效率。
技术实现特点
实现配置数据的统一,基于CMDB配置管理系统,同步相关数据,作为平台的配置数据使用,提供事件丰富和节点采集以及拓扑展现的数据来源,使用Mysql集中存储;
实现告警数据的统一,汇聚收集的告警包括Tivoli基础监控告警、APM应用监控告警、日志告警、专业级数据库告警、运维自监控系统告警、配置告警、基线告警等监控系统系统的告警,实时告警在HSQL中存储并实时展现,历史告警在Mysql中存储;
实现性能数据的统一,收集了Tivoli基础监控性能数据、APM应用监控性能数据、基于日志的APM应用监控性能数据、专业级数据库监控性能数据、运维自监控系统性能数据,提供了规范接口,使用Elasticsearch列式数据库存储,提供快速的搜索引擎,供数据消费使用。
通过高可用架构提高系统健壮性,重点采集模块采用了使用微服务dubbo技术实现的模块,通过zookeeper调度实现高可用,能保证系统的高可用性。性能运维数据存储采用了ES分布式架构处理,实现数据的冗余,提供服务的延续性保障。
项目过程管理
智能化运维系统项目在建设初期,对需求做深、做细、做实,全面分析,突出重点,积极推进需求工作规范化;制定项目建设计划,明确各阶段里程碑时点并进行各项工作的进度跟踪;风险与问题的管理前期依据工作经验,分析项目建设过程中可能遇到的风险,合理规避,在项目建设中及时根据实际情况分析近期可能出现的项目建设风险,建立问题记录表,对问题能够有效识别并按照闭环管理要求开展管理工作;版本管理方面严格执行版本管理流程的具体步骤,并对发版进行了登记,保证了对程序版本的有效管控;变更遵守运维流程管理相关要求开展变更风险评估、变更关联影响等分析活动,按照变更申请、变更审批、变更发布和变更执行等流程落实工作,保证变更管理工作要求的严肃性和客观性,控制变更的风险及影响;沟通管理方面,编写周报和相关会议纪要,制定并落实了项目组沟通管理规范。周例会上提出需要各方资源协调的问题;建设过程中严格执行省联社信息科技相关安全、运行管理等方面的管理要求,努力提升项目产品质量、系统安全水平等,从而保证了系统上线的平稳运行;在安全管理方面上线前完成项目的安全评估工作,并对生产服务器及操作系统进行了安全漏洞扫描,使之符合上线要求。
运营情况
智能化运维系统平台自2019年4月16日正式进入系统运行阶段,运行期间,系统运行整体表现平稳、各项服务功能正常有效。
智能化运维系统本身即为监控系统运行维护主体,实现对整体IT环境的监控和告警;系统主要为运维查询展示分析类功能,通过代理或者采集接口实现对整体IT环境实现监控,影响范围较小(自身),本身为运维系统主体。智能化运维系统目前整体部署在虚拟机环境中,虚拟机环境中目前是弹性扩展,根据实际运行情况做扩容调整;上线运行至今,6台应用服务器CPU平均使用率小于10%,内存使用率平均在20%~25%之间。数据库服务器CPU平均使用率在2%~10%之间,数据库存储空间状态、使用率、命中率等各项关键指标正常,数据分析平台存储每天增长10G基础数据,系统占用网络带宽稳定,基本在8M以下,处于正常范围。符合我社信息系统建设远期规划要求。
智能化运维统使用对象多为行内运维人员及运维管理人员。运维人员通过使用智能化运维系统对日常的系统运行查看、告警查看、性能分析、关联分析等智能化核心功能,在查询系统运行状态的同时,能够自由制定出符合运维人员自身运维习惯的运维场景视图,从而辅助问题的诊断。管理人员定期通过运维数据综合的应用,能够对行内容量、资源、事件、问题、变更等各类运维趋势进行预判,以实现“治未病”的工作目标。
项目成效
1、实现了一体化智能运维门户的建设,做到运维操作界面的统一。提供了开放的接入规范和机制,实现了包括ITIL运维服务流程管理系统、CMDB配置资源管理系统、专业级数据库监控系统、周期调度管理系统等运维系统的单点登录功能及其权限设置的统一管理。
2、实现了运维数据的汇聚统一,整合汇聚了各运维平台的事件、性能和配置等运维数据,实现了部分自运维监控系统的数据采集及纳管,如专业级数据库监控系统,互联网金融自运维监控系统等,制定了标准的接入规范,为其他自运维系统快速接入提供指导。
3、从应用系统的角度基于整合的运维数据实现的对应用系统的多维度分析、展现和关联,横向打通运维通道,实现一体化运维的目标,同时用户可定制自主的运维界面,实现场景化运维;
4、建设完善了告警事件处理中心,实现事件的关联、压缩、抑制、升降级等功能;
5、建设了运维数据分析模块,实现基线管理等智能数据分析功能,以及打通各运维子系统的数据综合应用,并提供了丰富的报表功能,为运维数据关联分析提供可视化使用场景。
经验总结
1、将工程师从繁重的运维工作中解脱出来,降低运营成本和提高服务质量;
2、能运用科学和客观的手段衡量业务系统的健康状况,给决策分析提供充分的数据支持;
3、提供运维标准化接口和相关规范,推进和丰富运维管理的标准化和规范化管理;
4、有效加强运维操作和管理的规范化与合规性;
5、设计上考虑扩展性与高可用等技术,支持系统业务能力的动态扩展以及应用使用场景的扩展,满足和丰富了个性化运维场景的需要。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2019-10-22
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2019-10-22
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2019-10-22
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2019-10-22
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2019-10-22
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2019-10-22
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构