本文来源于:2024年度全国农村金融机构科技创新优秀案例评选,作者:陕西农信

陕西农信:构建多技术融合的湖仓一体化平台,打造银行数据智核新引擎

2024-10-09 关键词:数据平台与数智应用 4014

一、项目背景


《“十四五”数字经济发展规划》和《金融科技发展规划》中明确要求金融业要坚持服务实体经济、深入推进普惠金融战略,建立与数字经济相匹配的数字金融,高质量推进金融数字化转型。陕西农信在2020年全面启动了数字化转型工作,要求贯彻新发展理念、立足新发展阶段,坚持发挥数据的关键生产要素作用,利用数据提升运营管理质效,通过数据驱动业务发展。面对目前井喷式增长的数据量及数据应用需求,传统架构的数据仓库、大数据平台存在数据孤岛、处理效率低、流转时间长等问题,难以敏捷高效地发挥数据价值。


在此背景下,陕西农信总结原有基于MPP架构的数据仓库及基于Hadoop架构的大数据平台存在的问题,开展全栈信创的湖仓一体化智能数据平台(以下简称“湖仓一体、湖仓一体化平台”)建设,打造数据智核新引擎,着力提升数据在存储、加工、计算及应用等方面效能。通过整合数据湖的灵活性和数据仓库的高性能,打破数据壁垒,实现数据汇聚高效利用和共享,提供更加精准、实时的数据洞察,且具备高并发、低延时、弹性扩展等特性,满足数智化转型对数据处理分析的高要求。


二、项目方案


1.建设目标


陕西农信湖仓一体化平台以实现数据的统一存储、统一运维、统一计算、统一SQL,支持单平台多系统多租户,实现数据高效流转和最大化复用,提高数据价值产能,提升数据管理效率为建设宗旨,具体目标包括以下几方面:


①搭建湖仓一体化平台,实现全行数据的高效汇聚和统一管理。平台采用全栈信创架构,围绕数据采集、存储、分析、应用等全流程开展建设,包括“仓”模块和“湖”模块,仓模块基于分布式GaussDB搭建,完成共性加工层、集市层和实时数据处理层(微批滚动数据处理)建设;湖模块基于MRS搭建,设置缓冲层、贴源层、标准层及整合模型层,完成基础数据区、逻辑数据区、历史数据区、外部数据区和半结构化/非结构化数据区建设,实现数据的统一存储及管理。


②融合多技术组件,强化数据分析与计算能力,实现批处理、流式计算及流批一体数据处理。基于MPP、Hive、SharkData构建批量数据处理框架,满足海量、复杂且多样化的数据处理需求。基于Lambda、Kappa等架构,搭建实时数据处理体系,结合SparkStreaming与Flink优势,借助其低延迟、高吞吐和精确的状态管理特性完成实时数据计算。利用Hudi在HDFS上加速数据操作,实现了海量数据的实时计算与高效存储。基于Hudi、Hetu、ClickHouse等新组件,优化实时数据计算效率,提供多样的数据分析能力,强化数据处理能力。


③规范开发流程,建立DataOps研发运营体系。合理规划平台各域数据处理任务,规范数据平台数据处理流向,实现分域加工,统一数据服务,使数据链路高效运转。基于DataOps工具建立数据研发运营体系,规范数据需求、数据研发、数据治理、数据交付、数据运营等环节,形成面向数据全生命周期的标准化实施工艺流程,提升整个团队协作与效能。


④提升数据服务能力,丰富数据场景应用。升级数据平台原有查询服务,优化ES+HBase查询架构,提高数据查询效率和稳定性,支持文档检索;引入新组件,为业务人员开展BI自助分析和交互式分析场景提供平台支撑。根据数据使用的具体场景,灵活部署多个集群构建湖仓一体平台,有效隔离不同数据应用场景间的潜在干扰,确保各应用稳定运行。


2.技术架构


湖仓一体化平台技术架构由四部分组成,依次是数据源、数据采集、湖仓一体和统一数据服务,如图1所示。


34.png

图1 技术架构图


①数据源


数据源包括行内数据和外部数据两部分,数据类型包括结构化数据、半结构数据和非结构化数据,其中,行内数据包括各渠道系统数据及人工补录数据,外部数据包括工商、司法、税务、征信等取得授权的第三方外部机构数据。


②数据采集


数据采集为数据源和湖仓一体提供数据交换功能,包括批量数据采集和实时数据采集两部分,在数据采集过程中,坚持“应采尽采”的原则,不断夯实、扩充基础数据,并根据业务需求选取相应的采集方式,为后续数据分析、应用打好基础。


③湖仓一体


湖仓一体平台数据存储在HDFS文件系统上,提供数据文件、Hudi、ORC表等多种存储格式;基于LakeFormation管理元数据,仓模块与湖模块可互访元数据,打通数据访问通道,同时,基于Ranger提供数据权限管理,保障数据安全;仓模块完成多表关联、复杂的统计汇总及需要微批滚动的实时数据计算需求;湖模块融合多组件技术,具备离线分析、实时计算和交互式自助分析等能力。


④统一数据服务


湖仓一体平台基于数据中台对外提供统一的数据服务,包括批量文件服务、实时接口服务、消息队列服务的方式,同时具备服务管控,实现服务管理与监控。


3.业务功能


湖仓一体化平台数据从源系统采集进入平台至服务输出,数据在平台内经过清洗、存储、加工处理、应用等,规划各类数据处理任务承建域,大规模数据运算在湖内运行,结构化数据复杂转换在仓内运算,基于数据需求实现分域加工,平台功能架构如图2所示。


35.png

图2 功能架构图


①数据整合与管理:完成结构化、半结构化及非结构化数据的


统一存储,实现多源异构数据的全面汇聚,打破数据孤岛,形成全域、完整的数据资源,为后续的数据分析与应用提供基础,通过架构设计,既保留了数据的原始性和灵活性,又提高了数据的可用性和分析效率;制定严格的生命周期管理要求,对数据从产生到销毁全生命周期进行管理。


②数据处理与分析:依托于平台强大的算力及丰富多样的计算引擎,具备大规模数据处理及分析能力,支持复杂的、多维的数据分析场景。同时,具备实时数据处理能力,支持流式数据、流批一体数据处理需求,能够快速响应业务场景需求,提供实时的业务洞察和决策支持。


③数据服务与共享:对数据分析结果,通过数据文件、DataAPI、消息队列、链接地址等多种方式对外提供服务,渠道端根据实际需求选取合适的服务方式对接;支持业务人员、数据分析人员通过平台开展自助式分析及交互式分析,提高数据服务的便捷性和效率。


④数据安全与访问权限:按照数据安全分级分类原则,平台制定并实施了严格的访问控制策略,对用户的身份进行认证和授权,确保只有合法的用户能够访问和操作数据,防止数据的泄露和滥用;并对数据的访问和操作行为进行审计,记录用户的操作日志,以便对数据的使用情况进行监控和追溯,及时发现安全隐患和违规行为。


4.部署架构


湖仓一体平台划分为MRS批处理集群、MRS实时数据处理集群、MRS联机查询分析集群和Gauss应用集群,集群间数据共享,为行内提供个性化数据服务与运维支持,促进行内业务决策与创新。平台总规模为190个节点,新增104个节点,利旧86个节点,其中,MRS数据湖模块168个节点,采用在线升级方式;Gauss仓模块22个节点,集群整体新搭建。为确保集群性能达到最优,合理规划数据节点上安装部署的技术组件,整体部署架构如图3所示。


36.png

图3 平台部署架构


此外,基于Gauss数据库搭建的仓模块,采用主备从三副本模式,当一份副本异常时,不影响服务。主备从三份副本均衡分布到不同节点,单节点故障时,多个备节点共同承担所有故障DN,有效均衡集群资源,保障单节点宕机时服务正常,部署架构如图4所示。


37.png

图4 仓模块部署架构


三、创新点


1.多集群部署架构,降低集群间耦合关系


对数据处理任务及使用场景进行分析、归类,我们构建了包含MRS批处理集群、MRS实时数据处理集群、MRS联机查询分析集群及Gauss应用集群的湖仓一体化平台。多集群部署架构通过独立配置和管理各集群资源,单个集群进行维护或故障时,其他集群仍能稳定运行,互不影响,极大地提升了平台的整体可靠性和业务连续性。此外,多集群间的松耦合设计,便于根据业务需求灵活调整资源分配,满足多样化的数据处理需求与业务场景。


2.按照不同组件技术特性,规划数据层级设置


湖仓一体化平台通过整合数据湖与数据仓库的组件技术特点,规划数据层级设置,根据数据的重要性、使用频率、处理复杂度等,将缓存层、贴源层、标准层、整合模型层放在湖内,将共性加工层、集市层放在仓内,数据直接入湖,仓模块通过外表方式访问湖模块的数据,减少数据搬迁;同时,基于Hudi特性,贴源层、标准层、整合模型层数据在湖内以时序形式存储,大大降低了数据存储空间,且后续数据处理更加简便,提升数据处理能力。


3.DataOps + MLOps提升研发及数智应用效能


基于DataOps工具建立数据研发运营体系,规范数据需求管理、数据研发流程、数据交付机制以及数据运营活动,构建贯穿数据全生命周期的标准化实施路径,显著提升了团队协作效率与整体效能。此外,实现DataOps与MLOps的无缝对接与协调运作,打破传统湖-仓-AI架构中的数据孤岛,依托于统一的数据存储,充分利用资源,实现数据共享,有效降低数据准备工作复杂度,实现模型与数据的紧密集成,确保模型能够实时获取到最新的数据进行训练和推理,为知识图谱构建、模型应用部署提供数据支撑。


四、技术实现特点及优势


1.多源异构数据统一采集存储


搭载统一的数据采集工具,实时数据采集使用DSG、批量数据采集使用SharkData从不同数据源包括关系型数据库、分布式数据库、NoSQL数据库及文件系统中抽取数据,以标准化方式接入多源异构数据;采用分布式存储技术,将数据存储于数据湖内,打破数据孤岛,保证数据的一致性和准确性,基于湖仓架构设计,既可以存储原始数据,又可以进行数据清洗、转换和分析,满足不同业务阶段的数据处理需求。


2.Hetu引擎实现数据协同


传统的数据湖与数据仓库通常采用批量数据文件进行数据同步与协同,但该方式在文件生成、传输、加解密等环节有时间损耗。湖模块(MRS)的Hetu是高性能交互式SQL分析及数据虚拟化引擎,支持跨源跨域一站式SQL融合访问,实现湖仓内GaussDB、Hive、HBase、ES、ClickHouse等海量异构数据的秒级交互式查询,避免了数据搬迁。


3.DSG+Kafka+SparkStreaming+Flink+Hudi实现实时数据计算


融合多组件技术,搭建实时数据处理框架。利用DSG实时捕获数据库的变更数据,将数据推送至Kafka消息队列,存储为有序的消息流,基于Lambda、Kappa等架构,通过SparkStreaming完成数据流接收与处理,依托Flink低延迟、高吞吐和精确的状态管理特性完成实时数据计算,利用Hudi在HDFS存储系统上实现数据的快速插入、更新和删除,实现了海量数据的实时计算与高效存储,支持各类业务场景下的实时数据处理。


五、项目过程管理


为确保湖仓一体项目建设按计划顺利推进,项目实施期间主要通过计划管理、风险管理、质量管理几个方面加强过程管理。


1.计划管理


在项目启动阶段,制定可操作性的项目里程碑计划、详细计划,通过甘特图跟踪项目进度,确保各项工作按计划进行。在项目执行过程中,通过定期会议、邮件等建立有效的项目沟通机制,确保项目各方人员能够及时、准确地进行沟通。在项目执行过程中,加强进度监控,常态化召开每日晨会、每周周例会、项目评审会议,评估项目进展,识别潜在的问题,积极协调并解决相关的问题。


2.风险管理


在项目初期,组织行内资深专家通过专家经验,同业在湖仓一体项目实施过程中积累的关键环节及注意事项,识别可能影响项目成功的潜在风险。对识别出的风险进行评估,确定其发生的可能性及影响范围,并对风险进行优先级排序,制定相应的措施,包括预防措施、规避措施及应急方案等。在项目执行过程中,持续监控风险状态,确保应对措施的有效性,并及时识别、发现新的风险,纳入风险管理流程。


3.质量管理


根据项目特性,标注项目执行过程中应该遵循的陕西农信相关技术规范,制定详细的质量标准和验收标准,指定专人担任QA。在项目执行过程中,组织业务人员、架构管理、设备管理等人员对所有的里程碑产出物进行评审,并实施严格的质量控制措施,包括代码走查、技术规范检查、功能测试、非功能测试及安全性测试等。同时,加强团队成员质量意识,定期对相关人员培训,提供团队成员对质量管理的重视,提高开发质量。


六、运营情况


湖仓一体化平台作为全行统一的数据归集与处理中心,承担了全行各类数据处理任务。截止目前,平台存储数据量达2.5PB,每日运行4万余个批量任务,接入了核心、信贷、互金、ECIF等全行108个业务系统数据,日终为网贷、信贷、大总账等73个系统提供9600+贴源增/全量数据及统计汇总数据文件。同时,为业务系统提供实时数据处理服务,每日处理实时数据量约2亿条,并提供各类实时指标 520个。此外,平均每日为行内业务人员、数据分析人员提供自助式分析任务8000个,为全行92个业务系统提供500多支查询服务,日均交易量380万笔,平均响应耗时300ms。


七、项目成效


湖仓一体化平台投产上线后,有效解决了原先大数据平台和数据仓库平台独立部署,集群间通过数据文件交互,且跨平台数据搬迁,存在数据存储冗余、资源浪费、消耗大量时间、代码开发难度大等问题。具体成效包括:


1.提升批处理能力


湖仓一体化平台作为全行级数据处理中心,具备海量数据的采集、存储与分析处理能力。通过将原先的MR引擎替换为TEZ引擎,规范数据流向,确保所有数据先入湖,实现湖仓数据的相互访问,使批处理能力显著提升40%。目前,平台整合了108个系统数据,每日4万余个批量任务、超过2T的增量数据,批处理时间由原先的6小时缩短至2.5小时,有效解决了关键时点数据支撑能力不足问题。


2.降低数据处理时延


依托湖仓一体平台强大的实时计算引擎,结合业务特性以及存贷款模型特点,将实时数据处理细分为流水类实时数据、实时模型宽表及实时业务指标等类别。运用checkpoint点及夜间校准等手段,保障数据的准确性。目前,已成功实现移动驾驶舱各项存贷款、数字普惠贷款指标、司法查控案款缴费、不良贷款核销、家庭净资产等500多个实时指标。极大地提高了数据的时效性,为业务判断提供更及时的数据支撑。


3.强化数据服务能力


支持业务人员在其权限范围内高效地进行数据分析,即使在面对大量同时查询的情况下,依然能够保证查询的准确性和及时性,提升决策效率和业务响应速度。此外,平台通过构建数据集模型和执行离线计算、实时计算,进一步增强了在高并发场景下的交互式查询和深度分析能力,助力业务人员交互式分析,目前平台通过DataAPI服务方式,为90余个信息系统提供数据查询服务500多支,日均交易量380万笔,单笔平均耗时保持在200ms至400ms。


4.DataOps驱动交付效能提升


湖仓一体化平台融合了敏捷开发与数据运维,通过自动化流程管理,持续集成与部署,提高数据研发效率,快速响应业务需求。DataOps促进团队协作更加高效,确保数据质量与安全性,推动数据服务快速、准确交付,显著提升交付的灵活性和效率。


八、经验总结


陕西农信基于数据仓库、大数据平台使用期间显现的弊端,经历一年时间完成新一代数据平台(湖仓一体)调研、交流、演进路线及方案制定,再通过一年时间完成项目研发、测试及上线,总结以下几点经验:


1、基于行内原有数据平台的基础软硬件,确定湖仓一体的基础架构和演进路线。近些年各银行均已建成数据仓库/数据湖/大数据平台,为了提高原有硬件资源的重复利用,降低演进过程中的应用改造和数据迁移难度,建议在原有技术体系上进行架构升级。


2、湖仓一体的演进路线包括湖内建仓、湖仓并行两种模式,湖内建仓基于Hadoop体系完成建设,提供数据管理特性和高效访问性能,支持多样数据分析和计算;湖仓并行同时使用Hadoop、MPP两套技术体系,湖与仓之间通过Hetu等组件实现数据互联互通,既能保证数据处理效率,又能发挥Hadoop灵活多样的数据计算能力。目前湖仓并行模式业界案例较多,湖内建仓在数据处理性能上仍存在提升空间。


3、湖仓一体建设并不是单纯搭建一个大数据集群和MPP集群,而是要根据行内业务数据特点以及湖仓技术能力,调整数据流转和加工的流向,全面整合模型层和汇总层,统一进行全行数据的存储与处理,使数据链路高效运转。避免出现平台割裂,数据冗余等问题,其中数据入湖是湖仓一体架构建设的关键步骤。在入湖过程中,需要注意数据的准确性和完整性,避免出现数据质量问题。数据预处理是湖仓一体架构建设的重要步骤。在预处理过程中,需要注意数据的转换和归一化,确保数据的统一性和可比性。数据建模是湖仓一体架构建设的核心步骤。在建模过程中,需要根据业务需求建立合适的数据模型,便于后续的数据分析和挖掘。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

甘肃农信:数据治理与数据管控平台

通过对我行内部数据的商业应用和技术管理的一系列政策和流程的梳理及设计,搭建一套涵盖元数据管理、数据标准、数据质量、数据资产管理等方面的数据治理及管控平台,赋能银行数字化转型。 通过实施数据治理和建立数据管控平台,满足人行、银保监会等监管机构的各类监管标准、安全分级标准、监督检查及其他各项要求,提高甘肃农信数据质量和业务数据的应用价值。

2022年第六届农村中小金融机构科技创新优秀案例评选 甘肃农信 2024-10-09

贵州农信:人员异常行为智能监督预警系统

《人员异常行为智能监督预警系统》是作为我社对人工智能——视觉分析和行为识别两大技术在真实场景应用效果的验证项目;是我社探索非结构化数据深度应用的实验项目;也是我社尝试管理智能化的转型项目。 系统在多个场景成功上线并稳定运行,运行的效果完全达到项目建设目标和初衷;充分验证人工智能技术可以辅助实现管理智能化;充分体现非结构化的视频流数据在监督、管理端的价值。

2022年第六届农村中小金融机构科技创新优秀案例评选 贵州农信 2024-10-09

广西农商联合银行:企业级智能交易反欺诈系统

建设企业级智能交易反欺诈系统,通过终端风险感知、设备指纹、IP地址、手机号、APP探针、黑产工具识别、规则引擎、用户行为智能分析等多维风险数据情报,基于大数据、流式计算、规则引擎等技术和能力,实时(毫秒级)监测在开户、付款、转账、提现等交易环节中存在的异常风险,业务系统依据实时的决策建议进行自动化、智能化管控,实现对风险的精准、高效打击。

2024年度全国农村金融机构科技创新优秀案例评选 广西农商联合银行 2024-10-09

湖南农信:农村集体“三资”监管平台项目

“三资”监管平台以数字化技术为基础,结合移动互联网、区块链、大数据、地理信息系统(GIS)、数据可视化等先进技术,将传统业务数据及流程迁移到线上平台运行,通过制度化、信息化、流程化手段,构建起村集体“三资”日常监管规范运行模式,全面提升了村集体“三资”监管规范性、穿透性和有效性,切实保障村民村集体财产收益权。同时,依托项目平台,搭建村级资金7×24小时实时支付结算渠道,致力于丰富和完善农村金融供给能力,让老百姓在家门口就能享受到高效便捷的金融服务。

2022年第六届农村中小金融机构科技创新优秀案例评选 湖南农信 2024-10-09

广东农信:信贷中台项目

广东农信信贷中台项目总体目标在于建设高效稳定、架构合理、易于扩展、开发快捷、性能强大、使用安全的信贷中台服务平台,实现信贷业务的全流程覆盖。信贷中台在整个广东农信信贷领域系统群中的定位是服务端,允许包括广东省联社承建省版信贷系统及各辖内农商行承建相关信贷业务系统等信贷前台应用的灵活接入。

2022年第六届农村中小金融机构科技创新优秀案例评选 广东农信 2024-10-09

陕西农信:智能化数据资产管理平台

陕西农信积极利用AI技术探索对数据资产的智能化管理,围绕“管理平台为支撑、AI技术为驱动、自动化流程为保障”三个要点,通过关联规则挖掘、分词和词性标注、支持向量机等语义识别、文本处理类人工智能技术的应用,推动数据资产管理手段的升级与创新,有效提升数据资产管理效率,助力传统数据资产管理模式的智能化升级,实现数据服务模式的创新发展。

2024年度全国农村金融机构科技创新优秀案例评选 陕西农信 2024-10-09

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 数据平台与数智应用

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构