本文来源于:金融业数据中心建设实践报告,作者:华夏银行
华夏银行:华夏同城双活机房网络建设及搬迁实施项目
2023-07-24 关键词:数据中心,基础设施,灾备建设
2804
一、项目背景及目标
1.项目背景
华夏银行信息科技部紧紧围绕总行“智慧金融,数字华夏”的愿景和“建设**只会生态银行” 的战略目标规划部署重点项目工作,随着总行业务的快速发展,现有同城灾备机房的容量和基础设施环境已无法满足IT基础架构发展的需求,华夏银行于2022年启动实施了新同城灾备中心机房(以下简称“新机房”)的建设和搬迁工作,作为此次项目的配套工程,华夏银行在一年时间内先后完成了新机房的网络设计、建设以及网络搬迁实施工作。
2.项目目标
1)采用标准化、模块化架构设计,引入面向应用的设计理念,按既定计划完成新机房网络的建设工作,旨在建设具备高效交付能力的数据中心网络。
2)新机房网络须保障各应用系统多批次、原IP地址搬迁,并确保搬迁期间各应用系统稳定运行。
二、创新点
1.新机房互联网DMZ区采用数据中心SDN技术实现了互联网区网络资源池化,降低网络部署成本的同时又提升了网络部署效率。
2.新机房带外管理网通过采用SDN技术解决了机房搬迁所带来的跨楼层大二层问题。
3.通过建设北京同城二层环网,实现各应用系统多批次、原IP地址搬迁以及跨数据中心同网段的稳定运行。
4.自研网络Pingmesh系统实现对机房各区域网络通信质量的实时监控,基于流量分析系统研发网络流量可视化产品,部署在新机房网络DMZ区,实现基于域名的网络流量可视化监控,确保搬迁期间重要业务系统网络异常问题的快速根因定位。
三、项目技术方案
1.新机房网络技术方案
华夏数据中心网络整体采用两地三中心的架构,总体架构如下图:

此次新机房规划替换现有同城灾备中心,基于华夏银行网络架构标准并结合业务需求,新机房网络总体规划10个模块,具体网络功能区域设计如下:

新机房网络架构按照模块化原则划分为广域网互联区、数据中心核心交换区、测试网(区)、互联网区、外联网区、核心业务系统区、关键业务区、容器云网络区、支持网、运维管理网(区)共计10个区域。
数据中心分区主要根据业务功能划分,功能分区的不同主要体现在业务的不同,因此以“业务分类”为主,分区标准分为网络设备逻辑隔离和物理隔离两个维度。
基于上述网络功能区域规划,新数据中心网络架构设计如下:

数据中心网络整体路由规划如下:

此次机房搬迁涉及应用系统多,存在同一系统/平台多批次搬迁的情况,且应用系统须保留原IP地址搬迁,为保障上述搬迁需求,华夏银行设计搭建了北京同城数据中心二层环网,主要解决2点搬迁痛点问题:
1)应用系统多批次搬迁的场景下,实现系统跨数据中心的平滑迁移。
2)搬迁期间新旧两个灾备中心之间网络链路故障时,业务流量实现自动切换绕行,确保搬迁期间业务稳定运行。

为优化新机房网络和系统运维管理能力,新机房网络对运维管理网进行了优化设计,主要由带外管理网、运管服务器区和ECC区接入三个子网构成,具体网络架构设计如下:

各分区主要承载业务流量规划如下:
带外管理网
•网络设备、服务器BMC的监控、日常运维、网络自动化。
•业务系统监控管理和虚机管理通过支撑网接入,支撑网通过数据中心大核心与运维管理网互通,运维管理网出口部署防火墙。
运管服务器区
•所有运维管理类的服务器统一接入至此区域。
ECC接入区
•机房操作间、运维管理接入。
相较原有灾备机房,新机房容量有较大增长,存在同一业务/平台跨楼层、多机房模块部署的情况,此情况将导致带外管理网二层域过大的问题,新机房带外管理网通过采用SDN技术完美解决了上述问题,同时实现了SDN控制器与交换机产品的解耦,消除了SDN技术被单一厂商捆绑的风险,带外管理网架构设计如下:

此外,考虑到运维管理网架构相对复杂,此次对运维管理网安全控制进行了优化设计,通过虚拟防火墙技术将运维管理网各子区进行隔离。

1)部署第三方防火墙和负载均衡设备旁挂至区域核心交换机,防火墙/负载均衡采用HA部署方式,以保证网络的高可用性。
2)负载均衡系统通过静态路由引流,目的地址为VIP路由下一跳,负载均衡互联地址。
新机房在互联网DMZ区设计时考虑到面向应用的高频运维和交付场景需求,通过采用SDN技术实现了互联网区网络资源池化,降低网络部署成本的同时又提升了网络部署效率。
互联网DMZ区网络架构设计如下:

通过在互联网DMZ区部署SDN,将DMZ七层设备池化,可实现负载均衡、SSL卸载等七层设备灵活调度、无缝扩展和物理位置解耦,交换机PBR由SDN控制器统一管理,可有效降低运维管理难度,有效提升网络运维效率。
互联网DMZ区流量模型如下:

此次新机房网络关键业务区采用硬SDN的技术方案,与原灾备机房网络环境保持一致,满足业务平滑迁移的需求。根据所部署业务需求,关键业务区网络共划分7个业务子分区,分别部署在新机房的三个机房模块,网络采用两层Spine-Leaf架构,Leaf交换机分别上连至两台Spine交换机,所有其他设备包括服务器、负载均衡、防火墙等外设均连接至leaf交换机,整网采用Muliti-Pod结构,每个机房模块作为一个Pod,三个机房模块之间用IPN设备进行互联,三个机房模块通过IPN网络在Fabric内实现大二层功能,关键业务区网络整体架构如下:

2.新机房网络监控
新机房在网络规划和建设方面已充分考虑后续搬迁需求,网络架构可支撑整机房应用系统多批次搬迁,华夏银行在机房网络搬迁阶段,重点加强网络监控体系建设,确保对搬迁过程中的网络运行状态实时感知以及后续机房投产后的运维需求,除部署现有网管、监控等产品外,同步自主研发网络Pingmesh系统对机房各区域通信质量进行实施监控,同时基于流量分析系统针对DMZ区用户访问的关键系统研发网络路径可观测产品,实现基于域名的业务系统流量可视化监控,上述产品重点说明如下:
1)网络Pingmesh系统
Pingmesh系统是一个用于数据中心网络延迟测量和分析的大型系统,利用所有服务器启动TCPPing,以提供大网络延迟测量覆盖率并形成多层次的完整图表,系统采用松散耦合式架构,系统主体由Pingmesh Controller、Pingmesh Agent、数据聚合存储和分析三个模块构成。
系统架构如下:

华夏银行Pingmesh系统通过API接口对接网络自动化系统,获取网络拓扑信息,并结合分段Ping的优化算法,实现快速定位网络故障区域。监控告警方面,华夏Pingmesh系统具备对接行内智能分析引擎并通过机器学习算法生成动态阈值的能力,以大程度降低网络误告警的情况。
在机房搬迁过程中,Pingmesh系统作为网络监控重要手段,较大幅度提升了网络问题快速发现的能力,提升了网络监控保障能力,Pingmesh系统应用情况如下图:

2)DMZ区网络流量可视化
基于流量分析系统平台进行开发,将业务网络路径中各个节点关联到多源数据,如流量、日志、SNMP、Syslog等,实现基于业务主线的多源数据管理分析,同时基于设备及应用的配置文件,精确梳理出业务路径, DMZ区业务系统流量自动化呈现,提供网络到业务端的全路径可视化支持,系统拓扑示意图如下:

机房生产环境应用案例展示如下:

四、项目过程管理
此次华夏银行新同城灾备机房网络建设和搬迁项目安排专职项目经理对项目全程实施项目管理,项目主要面临时间紧和疫情期间人员、设备资源统筹调度的痛点问题,根据实际情况,重点对项目进度、人员和项目实施风险进行管理。
本次项目主要分为网络规划建设和机房搬迁实施2个阶段:
1.网络规划建设阶段(2022年3月1日-7月30日)
该阶段包括项目启动会、网络方案设计、项目实施计划制定、网络线路开通、设备采购、网络实施及验收等工作。
项目启动会:2022年3月1日
网络方案设计:2022年3月2日-4月22日
项目实施计划制定:2022年3月2日-3月17日
网络线路开通:2022年4月18日-6月1日
设备采购:2022年4月1日-7月15日
网络实施:2022年6月1日–7月15日
网络试运行:2022年7月16日-7月30日
网络投产:2022年8月1日
2.机房搬迁实施(2022年6月17日-2023年2月10日)
此次机房搬迁共计10个批次,其中,01-09批次为生产业务系统搬迁,须在2022年12月31日前完成搬迁,第9批次和10批次不涉及生产业务,分别安排在2023年1月和2月实施,受疫情和生产保障需求的影响,实际搬迁进度并未按照前期规划批次匹配执行,具体情况如下:
01批次搬迁(测试网):2022年7月8日-7月10日
02批次搬迁(总行环境1批次):2022年8月9日
03批次搬迁(全栈云):2022年9月16日-9月18日
04批次搬迁(总行环境2批次):2022年10月28日-10月30日
05批次搬迁(总行环境3批次):2022年11月12日-11月13日
06批次搬迁(数字人民币环境):2022年11月22日-11月23日
07批次搬迁(总行环境4批次):2022年12月23日-12月25日
08批次搬迁(总行环境5批次):2022年12月24日-12月25日
09批次搬迁(总行环境6批次):2023年1月5日-1月6日
10批次搬迁(办公及库房设备):2023年2月10日
项目整体实施进度如下图:

制定网络各实施阶段的项目计划如下图所示:

项目进度甘特图:

五、运营情况
随着华夏新灾备机房网络正式投产运行,为后续业务系统扩容及新增提供了良好的网络环境,网络具备容量快速扩展的能力,满足总行业务快速发展的网络保障需求,投产后机房网络运行稳定,后续还将通过网络监控体系的持续运营,推进网络架构的优化迭代。
六、项目成效
此次华夏新同城灾备机房网络建设和搬迁项目达到了既定项目目标,取得了较好的成果。在机房网络建设方面,采用标准化、模块化架构设计,引入面向应用的设计理念,旨在实现面向应用的高效网络运维和交付能力,在网络核心区域引入SDN、网络流量智能分析等行业新技术,同步部署新一代网络监控管理系统,实现数据中心网络可用性和运维效率的进一步提升。在机房应用系统搬迁过程中,构建跨数据中心网络大流量通信能力和网络流量监控调度能力,为业务系统多批次、保留原生产系统IP地址搬迁提供了可靠的网络支撑,终圆满地完成了各项网络保障工作。
本次项目网络采用小化新建方案,通过对各批次搬迁的网络设备进行精准动态调度,大化利用现有网络设备资源,根据项目复盘统计,新机房网络设备利旧使用率达到50%,同时,搬迁过程中通过部署自研数据中心拨测系统用于对新机房网络各区域通信质量实时监控,替代原有商业化产品,在完成各项网络保障任务的同时,网络实施成本也得到了有效的控制。
本次项目,历时8个月时间,累计保障华夏银行及合作伙伴10个批次,3000+台/套设备的搬迁实施工作,期间网络还完成240000余根网络线缆的布线实施工作。
七、经验总结
通过此次项目实施,华夏银行在数据中心网络架构、网络团队能力以及相关方法论沉淀方面均得到有效提升。
1.网络架构方面,新机房采用模块化、标准化架构设计,同时通过行业新技术的引入,在网络可用性、运维效率、网络监控体系方面的能力均得到了进一步提升。
2.网络团队方面,通过项目实施,网络团队在行业视野方面有了拓展,行业新技术孵化能力、架构规划能力和实施能力均得到了很好锻炼,团队工作涵盖网络技术方案制定、项目管理、网络建设和搬迁实施工作、综合布线规划和实施等工作,团队体系化实施能力得到了提升。
3.在方法论沉淀方面,在大型数据中心网络建设和搬迁项目中,从网络技术方案设计、项目管理、资源调度、机房布线规划、网络搬迁实施管理等方面通过实践沉淀了一套有效的方法论,多项网络SOP进行了优化迭代。
在此次项目实施过程中,也发现了现有工作的不足,并明确后续数据中心网络能力拓展的方向。
1.网络监控体系根因定位能力还存在不足,后续计划探索引入知识图谱和机器学习等行业前沿技术,提升数据中心网络问题根因分析能力。
2.网络自动化运维能力还有待进一步提升,规划引入新一代网络自动化运维平台,实现多网络平台的融合对接,在满足SDN等新技术对接需求的同时,建立与网络监控体系联动的能力,为后续数据中心网络故障自愈提供技术支撑。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2023-07-24
广东农信:自动化测试平台建设项目
随着广东农信的业务快速增长,软件产品的广泛使用,使客户对软件产品质量的要求不断提高,作为软件质量的重要保证,软件测试越来越显示出它的巨大优势。
2019第三届农村中小金融机构科技创新优秀案例评选
广东农信
2023-07-24
辽宁农信:智能运维平台
借助大数据分析技术对辽宁省农村信用社联合社运维数据进行算法研究并建立风险预测模型,形成智能感知、智能预警、智能处理的智能运维服务体系,以求能够实现事前预测、事后快速处理的快速智能运维方式。
2018第二届农村中小金融机构科技创新优秀案例评选
辽宁农信
2023-07-24
深圳农商行:智能柜台
为积极贯彻落实金融产品创新及普惠金融理念,给客户提供更加便捷高效的金融服务,全面提升客户体验,综合上述因素,我行在优化运营业务流程、深化网点转型的基础上,着手开发创新型智能柜台系统。
2023-07-24
山东农信:集中运维监控平台项目
为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。
2018第二届农村中小金融机构科技创新优秀案例评选
山东农信
2023-07-24
贵州农信:IT可视化运维管理体系建设方案
为切实满足业务连续性及监管部门要求,确保IT系统安全、高效、稳定运行,我社在观山湖数据中心建设过程中同步启动了IT可视化运维管理体系建设。
2019第三届农村中小金融机构科技创新优秀案例评选
贵州农信
2023-07-24
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构