本文来源于:网络整理,作者:

某大型股份制商业银行:智能运维项目

2020-04-11 关键词:人工智能,运维管理,开发运维3678

项目背景及目标

近年来,信息科技系统的应用架构快速演进,架构复杂性与日俱增。如何在数字化新形势下打造更为高效、准确、智能的运维体系,是科技运维部门亟待回答的问题。


从技术角度看,运维行业目前进入了智能化阶段,同时也面临挑战:一是数据挑战,运维数据种类繁多,结构多样;二是技术挑战,运维场景的复杂性造成一般机器学习算法无法奏效;三是人才和组织挑战,竖井式的中心化组织结构形成了天然的数据和信息阻隔,另外智能运维人才匮乏。


建设目标

本项目致力于综合运用大数据和人工智能技术,以“数字驱动运维”为理念,立足实际运维场景,从数据治理、智能运维技术、管理流程和人员组织等方面入手,研究实践智能运维体系,全面提高IT系统智能化管理水平。具体建设目标如下:


(1)运维数据规范化:数据是智能分析的基础,规范化的数据则是项目成功的关键因素;


(2)数据和算法集成化:数据和算法是智能运维的两大核心,数据和算法集成有利于充分挖掘数据价值;


(3)运维决策智能化:研究先进的智能运维算法,解决运维决策中的难题;


(4)组织结构虚拟化:虚拟化组织在运维开发和智能运维场景推广方面具有优势;


(5)场景服务可视化:可视化交互能发挥智能运维算法的大价值。


项目方案 

本项目从体系设计、数据建模和算法研发等几个方面出发,围绕智能运维体系进行项目建设,基于当前运维管理特点和数据管理现状,实现了覆盖多场景的智能运维算法。面向故障预警和故障定位场景,集中解决固定阈值监控准确性不高和故障排查过多依赖人工经验的问题,构建数字化转型进程中商业银行智能运维体系,全面提升科技运维智能化水平。


松耦合体系设计

本项目采用分层的松耦合设计,各层之间彼此独立部署、独立运行,通过接口完成数据互通,保证关键组件的横向可扩展性。


展示层:提供数据展示和告警展示能力,包括仪表盘、告警事件、日志分析等功能;


接口层:提供统一API供数据获取、任务调度、拓扑管理和算法调用;


智能分析层:提供任务管理、资源调度和算法管理功能,提供多项算法供场景调用;


数据处理层:提供实时计算和离线计算两种数据计算能力;


数据存储层:按照数据类型的不同,提供文档数据存储、时序数据存储、数据缓存、模型存储和归档数据存储;


数据接入层:提供高性能的消息队列用于数据接入;


统一运维数据建模


在数据分布方面,非结构的日志数据分散在每一台生产的主机上,时序特点的性能数据通过集中监控平台的agent和采集机进行了初步汇聚,半结构化的交易数据通过网络旁路技术采集,结构化的管理流程、配置数据、自动化数据等分散在不同的系统当中。


针对上述问题,项目组通过数据集中接入、集中建模的方式,建立体系化的运维数据模型。通过集中接入和集中建模,降低了智能化场景分析过程中的数据准备复杂度,减少数据采集与处置过程耗时,加速了各类智能化分析场景的落地效率。


智能故障预警,包括业务指标异常检测和日志异常检测。


业务指标异常检测

业务指标异常检测使用机器学习算法对具有固定时间间隔、一定时序或者周期特征的业务关键指标(如交易量、响应时间、成功率)数据进行训练并获取指标特征,由智能算法实时识别出异常点并向IT运维人员发出预警。


日志异常检测

无需人工配置,基于AI机器学习进行日志自动解析,对非结构化日志数据进行结构化处理,提取模板和特征变量解析。根据历史日志构建模板库和可视化,并根据模板进行日志在线解析,同时进行实时的异常检测,从日志中及时发现故障。


智能故障定位,包括业务明细多维定位、调用链根源系统定位和机器指标定位。


业务明细多维定位

由已知的异常告警触发,从故障业务系统异常时间段的大量交易明细中,分多种属性维度统计后进行异常检测,并且根据候选根因集的指标变换率和包含关系等进行排序,终确定异常根因集。


调用链根源系统定位

调用链根源系统定位利用调用关系数据,排查业务系统产生故障时相应调用关系系统,定位故障的可能根源系统,解决运维人员需要逐个排查的痛点。


机器指标定位

机器指标定位由已知的业务异常警告触发,从海量监控实体及其性能指标中,排查出异常的实体并自动分类排序,将严重异常的实体排序在前面,方便运维人员排查并快速定位问题。


创新点

本项目着眼于商业银行数字化转型背景下的运维转型和发展,具有如下创新点和先进性:


1、先进的智能运维算法。本项目中的智能运维算法在传统的机器学习算法的基础上,实现了一套系统的、可以解决复杂运维场景诸多挑战、并可实际投产的智能运维算法方案。算法方案具备普适性强、简单易用、高可用、高性能、可扩展的特点。


普适性强:以业务指标异常检测算法为例,可以自动适配生产环境下大量不同类型指标,准确检测多种形式的异常;


简单易用:算法融合了大量行业场景落地实践经验,采用无监督的机器学习算法,无需人工进行任何配置和数据标注即可工作;


高可用:不受实际数据缺失、中断影响,使场景面临不同质量的数据时均能保证可用性;


高性能:单核支持40次/秒的检测性能,普通24核服务器能并发检测86400个分钟粒度的指标,秒级给出检测结果;


可扩展:底层组件支持横向扩展,可以根据数据接入需求增加或缩减计算节点数量。


2、高质量、高性能、高效率、低门槛的运维数据治理框架。


高质量:采用明确主数据源、制定标准、建立规则、发现问题、解决问题、深入纠改的数据治理工作思路,并通过数据治理模块,持续提高运维数据质量。


高性能:基于主流开源技术组件,实现了秒级实时数据处理,为智能化场景的落地提供性能保证。


高效率:通过对各类运维数据进行预处理和建模,减少了实际运维分析过程中数据采集与加工处理过程的耗时,提高智能场景的分析效率。


低门槛:在实现标准机器学习算法的基础上,实现了运维智能算法库,降低了数据分析与挖掘工作的门槛,使分析人员更加专注于运维场景本身的建模和落地。


3、新的人才培养和团队建设思路。项目组与必示科技合作共同研发智能运维算法,培养银行需要的智能运维人才,同时借鉴Devops和Google SRE理念,积极探索采用敏捷跨条线虚拟团队的模式,培养运维开发工程师,逐步推进运维职能重心向运维开发转移。


技术实现特点

1、松耦合架构设计:本项目采用松耦合的架构设计方式,系统各层级之间、各个模块之间相互独立,例如不同的算法模块可以集成使用,也支持单独部署,保证在项目建设内容选择和项目集成方面均有足够的灵活性。


2、无监督学习算法:本项目采用无监督学习的算法实现智能运维场景,各类运维数据不需要进行人工标注,算法的运行分析不依赖于数据标签,节约了大量运维人力。


3、算法泛化能力强:本项目实现的智能运维算法具有高度的模型泛化能力,能适配更多特征类型的运维数据,以业务指标异常检测算法为例,算法内置多种具体的异常检测方法,由特征描述器对接入数据的特征进行分析,根据其关键特征的不同选取适合的算法组合来训练生成检测模型,以适应不同指标数据的波动特点,保证检测结果的准确性。


4、通用型组件选型:本项目在底层数据处理方面选用大数据领域通用、成熟、开源的分布式组件进行封装(例如Kafka、Spark、ElasticSearch等),可以直接复用行内既有的大数据平台相关组件,避免能力重复建设,实现项目的快速落地。


5、标准化系统接口:本项目采用高度标准化的RESTful API和数据格式针对系统间的接口进行封装,遵循行业通用的接口规范,实现简单快捷的系统对接,有效的降低数据接入成本。


项目过程管理

本项目遵循循序渐进、充分调研和研究、理论和实践相结合的理念,高质量完成项目任务。


*****阶段 调研

调研工作历时1个月,调研内容如下:


(1)调研用户银行运维现状和对于智能运维的场景化需求。


(2)调研国内外与智能运维相关的规范、标准、技术、佳实践等。


(3)调研同行业智能运维研究和落地现状。


第二阶段 体系研究

体系研究工作历时1个月,内容如下:


(1)确定智能运维体系目标,并适当分解。


(2)确定智能运维算法理论模型。


(3)确定智能运维体系架构。


第三阶段 体系建设

体系建设工作历时1个月,在试点应用过程中,又进行大量的改进和调整。


(1)组织机构、人员、制度、流程、规范的建设健全工作。


(2)培训课程的准备工作。


(3)启动数据标准化和数据治理工作。 


第四阶段 算法和平台开发

在体系架构确定以及人员准备好后,项目组立刻展开机器学习算法落地和场景化开发工作,开发工作采用敏捷开发模式,历时5个月,并在试点中开始使用。


第五阶段 应用试点

本项目采用试点示范的方式,按照应用场景选择不同的试点对象进行。例如,智能故障预警与分析场景在生产环境选取了包括核心系统、总线系统、产品系统和渠道系统等52套重要信息系统进行试点。


第六阶段 总结和推广

项目总结和推广工作历时2个月,对项目建设过程进行经验总结,梳理整个过程中面临的困难和对应的解决手段,并对项目进行推广,广泛收集用户反馈意见,接入更多运维数据,持续优化项目交付成果。 


运营情况

1、项目推广应用:截止目前,本项目共接入数十套业务系统,机器指标近万个,服务指标超过一千个,日均日志量数十T,有力地支撑着各信息系统的稳定运行。


2、智能故障预警案例:业务系统压测

为应对促销季业务高峰期压力,在某业务系统生产环境进行了两轮压力测试,*****轮测试规模较小,交易成功率和响应率有所下降,但并未触发的固定阈值告警规则,因此没有产生固定阈值告警,而智能检测算法则很灵敏的捕捉到了上述业务指标的异常波动并准确产生了告警。


第二轮测试规模较大,交易成功率和响应率均有大幅下降,相比固定阈值的监控方式,业务指标异常检测算法可以提前2分钟发出告警。


3、智能故障定位案例:某业务系统异常

在一次故障事件中,智能运维平台发现多个系统同时产生告警,系统响应率低和响应时间延长,短时间内产生了很多条告警。


通过调用链根源系统定位分析,算法自动构建出故障传播链条,发现某业务平台位于故障传播链末端,很可能是故障源头。同时自动故障定位结果提示,该业务平台的一台双活数据库的CPU使用率在故障前急速下降。经过事后分析,该双活数据库的一个bug导致其节点状态异常,进而影响应用服务,随后传播给与其相关联的其他系统。


与此同时在本次故障事件中,业务指标异常检测算法比固定阈值告警提前发出了告警;故障定位算法快速、准确的找到了根源系统和异常指标,有效缩短了人工排查耗时;业务明细多维定位算法则帮助运维人员从系统、服务、返回码各个维度评估故障影响范围,从而采取相应的止损措施。终该故障在数分钟内恢复,达到故障处理时效要求。


项目成效

依托治理完善的运维数据和分析能力,各敏捷开发团队在此基础上开发了面向各种运维场景的智能化应用,在项目推广过程中,取得了良好的效果。


智能故障预警与分析

在智能故障预警与分析场景中,通过实现关键指标异常检测、自动故障定位和故障影响分析“三步走”策略,故障持续时间大大缩短,分析试点期间的运维时间报告发现,试点期间故障恢复时间有效缩短。具体来说,在故障预警环节,相比于传统固定阈值告警,智能故障预警能更加准确、灵敏地发现异常事件,提升故障发现的准确率;而在故障定位环节,相比传统依赖运维人员经验的故障分析方式,基于算法的故障定位方式大幅缩短了故障根源定位的时间,对快速恢复业务起到了有力的推动作用。


智能运维人才培养

为确保智能运维体系的顺利推广,提升全行对于智能运维体系的重视和认识,对相关部门人员进行了智能运维相关理论技术培训,并组织了考试,考试合格率接近100%。通过上述培训和考试,对各相关人员对智能运维体系的认识有极大的提升。


经验总结

1、数据质量是智能运维场景落地的基础

本项目在利用机器学习算法进行故障预警和故障定位时依据的基础数据包含CMDB数据、集中监控数据、业务指标数据等,故障预警和故障定位的准确程度很大程度上依赖于其他系统供给的运维数据的全面性、准确性和翔实程度,比如集中监控和业务指标数据是否覆盖各项指标、采集间隔是多少、指标数据的实时性如何、有无时间延迟、有无数据缺失等,数据质量的高低直接影响着智能运维场景落地的效果好坏。未来项目组将根据每个场景具体的实践结果,针对不同数据提出具体的进一步要求,不断提高故障预警和故障定位的准确性。


2、智能运维场景要结合自身运维现状

对于智能运维场景的建设,不能好高骛远,需要从自身数据管理现状和运维管理特点出发进行场景设计和落地,依据现有运维工作的痛点来挖掘场景需求,按照充分调研和循序渐进的理念,稳步推进现有智能运维场景的落地和更多场景的规划工作。唯有如此,智能运维项目从设计、落地到推广等各个阶段才能实现更好的效果。


3、人工智能并非无所不能

在人工智能技术飞速发展、对各行各业影响日益加深的今天,我们对人工智能在运维领域所能发挥的作用也有着十分热切的期待,希望人工智能可以解决传统运维方式面临的全部难题。但通过智能运维项目的实践,我们必须明白人工智能并非无所不能,而智能运维场景的构建也要结合过往积累的专家领域知识,使算法和经验充分结合、互相补充、各尽其能,才能达到良好的项目落地效果,循序渐进,日趋完善和成熟。


项目实施

北京必示科技有限公司

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2020-04-11

广东农信:自动化测试平台建设项目

随着广东农信的业务快速增长,软件产品的广泛使用,使客户对软件产品质量的要求不断提高,作为软件质量的重要保证,软件测试越来越显示出它的巨大优势。

2019第三届农村中小金融机构科技创新优秀案例评选 广东农信 2020-04-11

深圳农商行:智能柜台

为积极贯彻落实金融产品创新及普惠金融理念,给客户提供更加便捷高效的金融服务,全面提升客户体验,综合上述因素,我行在优化运营业务流程、深化网点转型的基础上,着手开发创新型智能柜台系统。

2020-04-11

广东农信:超级柜台项目

超级柜台正成为网点转型创新中的一道靓丽风景线,打破了传统的银行业务处理流程,实现绝大部份个人客户非现金业务的快速处理,彻底改变了银行柜面业务流程填单多、签名多、流程较繁琐的现状。

2018第二届农村中小金融机构科技创新优秀案例评选 广东农信 2020-04-11

山东农信:集中运维监控平台项目

为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。

2018第二届农村中小金融机构科技创新优秀案例评选 山东农信 2020-04-11

福建农信:云平台“农信云”项目

随着福建省农村信用社联合社(下称 “福建农信”)规模不断扩大、业务不断增加,应用系统、设备、数据中心空间能耗都不断增加,IT运维各方面都面临种种挑战。

2017首届农村中小金融机构科技创新优秀案例评选 福建农信 2020-04-11

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 人工智能
  • 开发运维
  • 运维管理

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构