本文来源于:2018第二届农村中小金融机构科技创新优秀案例评选,作者:山东农信关键词:农信/农商行,数据中心,运维管理,开发运维
山东农信:集中运维监控平台项目
2018-11-04
11263
项目背景及目标
目前山东省联社已经建立了“两地三中心”运维管理体系,异地运维面临着监控系统分散、报警效率不高等一系列问题。为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。
项目方案
集中运维监控平台是运维管理基础的核心平台,通过收集各专业监控工具采集的应用、数据库、中间件、服务器、存储、网络和机房动环的监控数据,进行统一管理和实时关联分析,快速有效地定位故障告警根源,提高故障诊断的效率,从而构建不同层级、不同部门间协同解决问题的平台,成为应对突发事件,支持领导决策的一种重要手段。通过对各类监控数据的分类和标准化处理,从而在一个平台上对所有监控数据的有效管理和综合呈现,实现了运维管理可视化、可量化和自动化,有效实现ITIL落地过程中的重要步骤。
监控对象层:是被管理对象的集合,是系统平台所管理的IT基础架构,如基础设备、动力系统、环境系统、主机系统、数据库、应用、中间件等,涵盖一切与IT管理相关的管理对象。
采集层:通过多种技术手段实现对IT基础架构对象的各种管理数据(如关键性能指标KPI等)的采集,如资产(运维)、事件(故障)、性能(容量)、配置(运营)、策略(人工录入的运维资料),为管理平台提供必要的、标准化的数据。
功能层:提供各种管理数据的处理逻辑和策略。如图所示,在这层面系统还提供对其他系统集成互访的接口平台。对外接口平台是与其他系统(如资产系统)数据共享的独立自治平台,是系统平台接口标准化的统一,从功能上使整个平台信息与外部系统信息形成联邦制数据体系。
展现层:提供经处理后各项数据的呈现,并对外提供监控服务台的管理功能,是管理人员运维工作的界面,也是管理信息和录入接口,提供告警查询与配置、运维可视化视图、平台管理等多项功能。
外部系统接口:按照要求与外部系统建立互通互连机制,对外提供相应接口,对内提供外部信息源的丰富和动态引用。外部系统接口是对外沟通通讯的统一接口平台,提供各种所需接口的统一管理,如提供Syslog、Trap、UDP Sockets、API、Jason、JMX、数据库、文件日志等的业务标准接口方式。通过外部系统接口,可以与现有的流程管理平台进行紧密集成,如自动生成工单、自动获取工单状态和相关日志等操作。
创新点
1. 制订运维监控数据标准要求,提升数据治理水平
监控数据标准是集中运维监控平台的基础,山东农信以银监会发布的《数据标准化规范》和《数据采集接口技术规范》为基础,结合实际运维情况,制订了《山东农信标准化监控指标体系》和《山东农信运维与业务交易数据集成规范》。
2. 构建监控大数据平台,增强运维数据服务能力
监控大数据分析平台是集中监控平台的核心,山东农信以《山东农信运维与业务交易数据集成规范》为依据,部署了60个节点的分布式数据处理集群,实现了19套运维监控工具和14套重要金融业务系统的数据集成,数据内容涵盖业务、交易、配置、性能、告警等不同类型的监控数据。
3. 探索智能化运维模式,逐步向主动式IT运营模式转变
智能化运维是集中监控平台的发展方向,运用自动化学习、数据挖掘技术,通过建立应用系统可用性主动探测机制,以及依托标准化指标体系建立的性能预测,使用“动态阈值”与“故障分析”技术帮助运维人员发现潜在的运维风险,同时提高性能阈值的准确性,降低告警误报数量。
4. 创新场景化运维模式,有效提高突发事件应急决策效率
场景化运维是集中监控平台实现精细化管理的有效手段。场景化运维模式依托集中监控平台的数据整合优势,为不同管理角色提供一站式各类IT管理要素,将以往分散的运维工作环节集中在一起,极大缩短了故障应急处理时间。
技术实现特点
本次集中运维监控项目在建设开发实施过程中,为了适应山东农信科技架构生产环境和业务特性,在技术实现方面主要有三个特点:
1. 采用两地多中心分布式部署,数据集中处理的架构
随着山东农信转山西路数据中心的启用,“两地三中心”运维管理架构初步形成,为实现一体化运维监控模式,集中运维监控项目采用“分布采集、集中分析,集中管理、统一展现”的部署架构,为保障生产业务数据的正常传输,除告警数据需实时传输,其余监控性能、配置、交易统计等数据,采用分时传输方式,遇到网络带宽拥挤的情况下,能够自动缓存数据,保证数据的完整性。
2. 分布式实时内存数据计算与存储集群
针对数据分析要求,本项目使用了分布式实时内存数据计算和存储集群,可通过横向扩展的方式来提升实时数据处理能力。基于初期的调研结果,本次项目集成19套监控工具的性能、告警与配置数据,同时集成14套业务系统的交易日志、应用告警数据,日均数据7000万条,高峰期TPS达到2000。集中运维监控平台项目在两地三中心总部署了60个计算与存储节点,可以支撑实时计算和热数据存储需求。
3. 高可用技术架构
集群高可用:整个系统都采用高可用架构,避免单点和性能瓶颈节点。通过横向扩展能够动态扩展系统性能和吞吐量,同时增加系统可靠性。
虚拟化高可用:集中监控平台项目部署在运维支撑云平台上,避免了单机物理故障带来的运行风险,在单个虚机出现问题时自动实现资源漂移。在项目部署成功后,对系统做镜像备份,在程序出现问题后,直接恢复虚机镜像文件,可将故障解决时间降到低。
项目过程管理
集中运维监控平台项目采取分阶段方式实施,*****阶段主要实施内容为整合现有监控系统数据,将转山西路数据中心、伯乐路数据中心及黄岛数据中心(包括同城中心)基础监控数据集中展示,通过统一的管理视图对机房环境、应用系统、主机设备、网络环境进行集中展现和报警,制定完成统一的标准化接口为新建监控系统的接入提供标准,初步建立集中运维监控平台的采集层,为构建“两地多中心”的集中运维监控奠定框架基础;第二阶段主要实施内容为逐步将应用、存储等监控数据进行整合,构建以CMDB为核心的IT环境支撑架构和告警关联分析,实现与服务台和IT服务管理等系统的对接,实现自动基线和自动问题分析定位,能够支持在“两地多中心”的单点登录和手机移动端页面展示,初步建立了以IT视角和业务视角相结合的整体运营监控体系。
项目阶段 | 时间 | 任务描述 | 主要交付物 |
项目启动 | 2017.3.6-2017.3.10 | n 甲方办理乙方进场手续; n 甲方牵头组织成立项目组,明确各成员职责; n 甲乙双方协商制定项目管理计划; n 甲方组织召开项目启动会; | 《项目启动报告》 《项目管理计划》 |
需求调研 | 2017.3.13-2017.3.24 | n 甲方组织乙方开展需求调研工作; n 乙方根据需求调研的结果,编写用户需求规格说明书; n 甲方组织对用户需求规格说明书进行评审; | 《用户定制需求规格说明书》 |
系统设计 | 2017.3.27-2017.4.21 | n 乙方基于用户需求规格说明书编写系统设计文档; n 甲方评审系统设计文档; | 《IT监控系统概要设计说明书-定制需求》、《IT监控系统详细设计说明书-定制部分》 |
开发测试 | 2017.4.24-2017.6.9 | n 乙方根据项目需求、设计文档,按计划完成代码开发; n 乙方组织代码走查,并书面记录走查情况形成报告;甲方进行代码抽查; n 乙方组织完成单元测试,并编写单元测试报告。 | 《单元测试报告》 |
需求调研 | 10工作日 计划时间为:2017.6.12-2017.6.23 | n 甲方组织乙方开展需求调研工作; n 乙方根据需求调研的结果,编写用户需求规格说明书; n 甲方组织对用户需求规格说明书进行评审; | 《用户定制需求规格说明书》 |
系统设计 | 10工作日 计划时间为:2017.6.26-2017.7.7 | n 乙方基于用户需求规格说明书编写系统设计文档; n 甲方评审系统设计文档; | 《IT监控系统概要设计说明书-定制需求》、《IT监控系统详细设计说明书-定制部分》 |
开发测试 | 40工作日 计划时间为: 2017.7.10-2017.8.25 | n 乙方根据项目需求、设计文档,按计划完成代码开发; n 乙方组织代码走查,并书面记录走查情况形成报告;甲方进行代码抽查; n 乙方组织完成单元测试,并编写单元测试报告。 | 《单元测试报告》 |
统一测试 | 20工作日 计划时间为: 2017.8.28-2017.9.22 | n 乙方组织完成系统测试,制定系统测试计划方案、用例,执行测试用例并编写测试报告; n 乙方通过甲方组织的用户验收测试、集成测试等测试项目; n 甲方组织对测试报告进行评审; | 《系统测试方案与计划》、《系统测试用例》、《系统SIT测试报告》、《系统UAT测试报告》 |
上线试运行 | 30工作日 计划时间为: 2017.9.25-2017.11.17 | n 乙方制定系统上线计划; n 甲方组织系统操作人员进行培训; n 甲方提供生产环境的硬件资源,乙方在生产环境中部署系统; n 甲方负责开展系统上线审查; n 乙方负责整理试运行中出现的问题,及时修复出现的问题并组织回归测试; n 乙方编写系统试运行总结报告; | 《IT监控系统上线方案》、 《IT监控系统安装部署手册》、《IT监控系统运维手册》、《IT监控系统用户手册》、《试运行问题报告和问题跟踪表》、 《培训教材》 《系统试运行总结报告》 |
项目实施验收 | 30工作日 计划时间为: 2017.11.20-2017.12.29 | n 甲方配合乙方完成项目验收 n 乙方向甲方提交项目验收相关报告 | 《项目实施验收报告》 |
项目运行维护 | 一年 计划时间为: 2018年1月1日-2018年12月31日 | n 乙方每月实施一次监控系统健康巡检,并提供相关巡检报告 n 乙方负责解决平台日常问题及故障,并提供相关报告 n 乙方在运维期结束前,向甲方提供平台问题汇总及优化建议报告 n 乙方向甲方提供项目终验报告 n 甲方配合乙方完成日产运维及项目终验 | 《项目月度巡检报告》,《项目故障处理报告》,《项目问题及优化建议报告,》《项目终验报告》 |
运营情况
集中运维监控平台成功上线后,极大提升了山东农信的运维监控水平,本项目初步运用自动学习、数据挖掘等技术,建立了应用系统可用性主动探测机制,以及依托标准化指标体系建立的性能预测,使用“动态阈值”与“故障分析”技术帮助运维人员发现潜在的运行风险,同时提高性能阈值的准确性,降低告警误报数量。
1.动态阈值与故障分析。帮助运维人员发现潜在的运行风险,同时提高性能阈值的准确性,降低告警误报数量,一线运维团队可以及时将故障消灭在萌芽状态,能够将精力更有效的集中在重要问题解决过程中。2018上半年月均5级告警数量同比下降86%,有效保障了业务系统运行的可靠性与稳定性,初步实现了传统被动运维向主动运营模式的转变。
2.运维场景可视化:打通IT服务管理平台与集中监控平台数据接口,将系统配置数据和集中监控数据进行整合,构建包含业务架构、交易、性能、告警等多维数据分析模型,实现了IT与业务系统的数据全面结合、处理和分析。通过可视化技术展现各业务系统的架构视图,方便维护人员直接查看系统运行状态,例如当前系统可用性探测指标、核心模块交易成功率和响应时间,故障分析结果与关键性能指标,为系统故障排查提供直观、形象的可视化场景支撑。2018年上半年月均故障平均应急处理时间同比下降了83%,有效提高了突发事件应急决策效率。
项目成效
集中运维监控平台作为一体化运维的基石,遵循“小工具、大平台”建设理念,基于本项目制订的监控数据集成标准与规范,以大数据平台为核心,有效整合山东农信现有19套监控工具与14套重要金融业务系统的多维监控数据,形成了标准化、多维度、多类型的监控大数据平台,一方面满足了“运维一体化”管理工作要求,实现多数据中心的集中监控,另一方面为一体化运维模式向智能化运营模式发展奠定了坚实的数据基础。
1. 提升山东农信的监控数据治理能力
目前山东农信运维监控数据治理正处于起步阶段,通过本项目制订了若干监控运维数据标准,包含《山东农信标准化监控指标体系》与《山东农信运维与业务交易数据集成规范》,有效提升山东农信的数据治理能力。
2. 提高了山东农信监控数据的共享能力
集中运维监控平台将山东农信两地多数据中心的监控工具与重要金融类业务系统的数据实现了有效共享,打通了数据孤岛,实现了监控系统性能、告警和配置数据共享,为建立山东农信运维监控大数据平台奠定了坚实的基础。
3. 探索智能化运维模式
基于一阶段项目积累的海量监控数据,针对趋势预测的计算要求,引入线性回归算法、随机森林等多种算法,实现了“动态阈值”与“性能预测”功能,并成功运用在告警配置、性能报表、可视化视图等功能模块,提升了一线运维工作效率。
经验总结
1.项目管理工作总结
本次项目建设过程中,为保障规划顺利实施,项目组按照“统筹规划、分步实施、评估调整、强化考核”的管理策略,加强实施调度,强化沟通合作。项目组由数据中心主任牵头,建立由不同部门领导组成的协调委员会,协助跨部门组织协调,并且通过解读、培训和专题研讨方式开展宣导工作,促进形成各部门共识,消除认知误差,形成统一工作目标,同时督导工作质量与进度,有效保证了项目进度。
2. 数据集成工作总结
数据集成工作是本项目一阶段的工作重点,在数据中心主任的协调沟通下,我们分别与部门领导沟通协调,分别与各系统的运维管理和厂商技术支持进行访谈,基于访谈结果形成了《调研文档》和《山东农信标准化监控指标体系》、《山东农信运维与业务交易数据集成规范》,为下一步数据集成奠定了良好的规范。
3. 知识转移与运营推广工作总结
项目组编写形成完善的《集中监控平台操作手册》、《集中监控平台运维手册》和《集中监控平台管理员手册》,进行了多次现场项目培训。同时项目建设方保留开发组的两位开发人员负责项目运营期间的运维工作,有效推动集中监控平台的知识转移和运营推广。
本文由2018年度农村金融科技创新优秀案例评选组委会授权发表,转载请注明出处和本文链接。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2018-11-04
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2018-11-04
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2018-11-04
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2018-11-04
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2018-11-04
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2018-11-04
观点