本文来源于:鑫智奖·2024第五届金融机构数智化转型优秀案例评选,作者:常熟农商银行
常熟农商银行:智能告警平台建设项目
2024-06-12 关键词:农信/农商行,智能运维
1372
一、项目背景及目标
政策背景
人民银行、银保监会等监管部门近年陆续发布了《金融科技发展规划(2022年-2025 年)》和《关于银行业保险业数字化转型的指导意见》等规划指导文件,文件中明确提出“加大数据中心基础设施弹性供给”、 “加强故障自愈,不断提高运维智能化水平”等要求。
立项背景
近年来,我行持续响应国家号召并顺应行业发展趋势,积极开展数字化转型工作。随着我行数字化转型的不断深入以及业务的不断发展,也对我行IT架构提出了更高的要求,业务系统和应用数量呈现指数级的增长。随着新型应用也不断涌现,传统的监控平台遭遇了严峻挑战,面临着监控对象的推陈出新、监控指标数量增长、个性化、精细化等更多的需求出现。
项目目标
本次项目中旨在整合行内第三方监控工具,对全行控告警事件进行统一管理监。平台通过提取监控对象、监控指标等关键信息,结合CMDB对相关联的告警信息进行合并压缩,实现告警压缩降噪;通过推行告警等级分类和告警事件处置流程实现告警事件全生命周期管理;同时加强与运维中台、自动化发布平台、CMDB等系统的联动,进一步提升我行运维能力。
二、创新点
告警压缩:
基于规则和智能算法对海量的、持续的冗余消息进行告警压缩和告警合并,抑制告警消息的数量,减少告警消息的频率,降低冗余告警消息对运维工作的干扰,提升运维工作的效率。

告警压缩:将告警消息按照压缩字段压缩为警报的过程叫做告警压缩。
告警合并:将警报按照合并字段合并为事件的过程叫做告警合并。
告警订阅:
摆脱传统运维监控用户被动接手告警的方式,用户可通过指定监控要素,主动订阅或屏蔽相关告警信息。

事件标签:
变更标签:联合自动化发布平台,在应用系统发生变更和完成变更时主动推送变更标识给智能告警平台,平台根据应用系统变更状态,将在变更时间段内对应应用系统的告警添加“变更”变签。
周期标签:告警周期时长统计范围为1-31天,并根据周期时长设置不同的buff,当有告警生成时由平台计算过去70天内的告警,给满足周期条件的告警事件添加“周期”标签,同时将该周期内的告警进行关联展示。

移动端运维:
平台提供适配移动端的H5页面,通过单点登录技术将其集成在我行内部沟通协作平台(蓝信),用户利用该功能快速进行告警分析和告警处置。

告警时间线:
当告警事件的合并规则为告警压缩/合并时,在事件详情页显示时间线页签。告警事件的时间线展示了事件内警报生命周期内的状态变化情况,可以用来初步判断告警的根因情况。

事件的时间线展示以下信息:

警报列表展示每个警报在生命周期内的状态变化情况。不同的颜色分别表示不同的告警等级。
时间线上的点代表告警级别发生变化的点,当告警消息的状态变化时,时间线上展示状态发生变化的点(如果时间线上的告警消息状态相同,则仅会显示一个点)。
单击警报时间线上的点,展示该时间点对应的告警消息的内容。

三、项目技术方案
系统架构
智能告警平台系统整体部署在VMware虚拟平台上,平台基于微服务架构设计,通过应用服务集群化、数据库集群化、中间件集群化,实现平台整体高可用。

技术架构
原始告警接入:支持API、syslog、SNMP等接入方式。
事件丰富:结合CMDB,通过IP地址映射应用系统名、统一告警等级、智能告警标签等。
事件生成:通过应用系统名对告警进行合并,通过告警对象、检查项对告警进行压缩。
事件推送:推送规则分为告警开启、告警升级、告警关闭、告警静默,通知分为邮件、蓝信、短信和电话。
告警处置:收到告警通知的用户可以进行告警接手、转发、转派、解决等操作。

四、项目过程管理
项目各阶段的实施周期
1. 需求分析阶段:2023-10-07 ~ 2023-10-22
在需求收集过程中一方面在科技部内部发起调研,了解一线运维同事对监控告警方面的需求和痛点,另一方面结合行内智能运维发展战略,全面了解不同用户需求、确定产品功能和性能要求。
2.设计阶段:2023-10-22 ~ 2023-11-05
结合需求文件,合理进行系统架构设计,通过模块划分确保系统具备良好的扩展性、维护性和高可用性;注重用户体验,在用户界面和交互设计时注重直观性和易用性,同时提供一些个性化设置。
3.开发阶段:2023-11-06 ~ 2023-12-17
得益于前期良好的需求分析和架构设计,在项目开发过程中未出现需求偏离情况。通过合理分配开发资源、沟通协作版本控制等方式,有效保证了开发进度和质量。
4.测试阶段:2023-11-13 ~ 2023-12-24
在测试过程中我们通过单元测试和集成测试组合的方式:在前期先进行功能模块单元测试,确保各个模块功能正常;在中期根据实际情况进行功能模块集成测试,对于告警解析、告警处置等关键接口,在集成测试后再次进行单元测试,防止因集成而引入新问题;在后期对单元测试和集中测试过程发现的问题,在问题修复后组织回归测试。
5.部署阶段:2023-12-25 ~ 2024-01-07
部署阶段主要工作集中在智能告警平台部署后的第三方监控平台告警对接和调试。
6.试运行阶段:2024-01-08 ~ 2023-02-26
试运行阶段工作主要分为两方面:1、持续观察智能告警平台运行状态,检查各个功能模块性能和稳定性,确保告警事件接收、处置、关闭等环节正常工作;2、为用户提供平台使用培训,收集用户反馈意见,了解他们在使用过程中遇见的问题和建议,积极对平台进行必要的调整和优化。
7.项目验收:2024-02-26 ~ 2024-03-31
发起项目结项会议,组织相关人员进行项目验收,确保系统满足需求和质量标准。
8.维护阶段:2024-04-01 ~ 长期
长期进行,以确保系统的稳定性和可靠性。
五、运营情况
智能告警平台目前已完成BPC、APM、zabbix、数据库、网络等40多个第三方监控平台对接工作,近30天日均处置194启监控告警事件。
六、项目成效
经济效益:
1. 成本节约:通过实时监控和告警,能够及时发现和解决问题,避免设备故障或系统故障导致的生产中断,降低维修成本和停机损失。
2. 提高效率:帮助运维人员快速定位和解决问题,减少故障处理时间,提高工作效率,从而增加整体产出。
3. 资源优化:基于平台提供的数据分析和洞察,可以合理分配资源,避免资源浪费和不必要的投入。
4. 降低风险:及时发现安全威胁和潜在风险,采取措施进行防范和应对,减少可能的经济损失。
5. 决策支持:为行内决策提供实时数据和关键指标,帮助管理层做出更明智的决策,提高经济效益。
社会效益:
1. 提高服务质量:确保系统的稳定性和可靠性,提升服务质量,增强用户满意度,提升企业在市场中的竞争力。
2. 促进信息化发展:推动企业和组织的信息化建设,提高整体运营水平。
3. 推动行业发展:为行业提供示范和借鉴,促进相关行业的技术进步和发展。
七、经验总结
在过去的半年里,我们完成了监控告警管理平台初期建设工作。在项目实施过程中,我们充分认识到团队协作、沟通协调的重要性:团队成员之间密切配合,充分发挥各自的专业优势;与相关干系人保持良好的沟通,及时解决问题。未来,我们将继续完善和优化监控告警管理平台,提供更好的监控运维服务和支持。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2024-06-12
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2024-06-12
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2024-06-12
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2024-06-12
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2024-06-12
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2024-06-12
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构