本文来源于:2022年第六届农村中小金融机构科技创新优秀案例评选,作者:辽宁农信

辽宁农信:基于大数据湖仓一体架构体系的研究

2022-10-02 关键词:农信/农商行,产品创新,数据平台与数智应用 3492

一、项目背景、目标及相关规划


1.项目背景

2016年辽宁农信上线了基于关系型数据库的数据仓库平台,实现了各源系统的数据汇集。与此同时,基于华为公司的大数据技术,辽宁农信也同步上线了大数据平台,实现了审计系统对各源系统贴源层数据的存储、整合、查询的相关需求。但随着辽宁农信业务的拓展以及各类业务系统的不断建设,各源系统的数据量激增,对数据的需求也呈现出多样化、复杂化、明细化的特点,对数据的查询效率、供给时间也提出了更高的要求,导致现有关系型数仓和大数据平台已无法满足辽宁农信的业务发展需要。


辽宁农信基于以上问题,规划了大数据湖仓一体数据平台项目,基于业内的新技术、新理念,统一建设数据湖与数据仓库,并实现湖内建仓的规划,整体建设辽宁农信数据平台,整体降低数据冗余度,提升数据整体查询、分析、加工效率,提供及时高效的数据查询接口,拓展模型的整体应用能力,增加准实时数据应用能力,实现全行数据的整体汇聚、加工、下发与应用。


从以上业务目标落地,辽宁农信全面顺应数字经济发展的趋势,借助全量数据用于经营管理的契机,通过数字化手段切入金融业务场景进而识别业务创新点,推动数据与应用的高质量融合,充分释放数据要素价值,反哺数据质量,从而可以更好的以客户为核心,赋能业务产品创新,进一步完善智能营销与风控能力,实现运营服务数智化,构建安全高效、合作共赢的金融服务生态,稳步推进数据业务应用创新工作,为省联社实现数字化建设业务发挥重要价值。


2.项目目标

本项目以辽宁省改革转型发展战略为导向,以“两个指引”为系统建设依据,紧紧围绕省联社金融与科技融合创新发展规划要求,指导大数据湖仓一体数据平台的落地。


在满足全省法人机构及业务部门对数据应用一致性、时效性、安全性、稳定性需求的前提下,继续强化数据管理和数据质量控制,增强全量用数能力。同时,在满足监管要求的约束下,深入发挥全量数据、一致性数据对各业务线条发展的驱动作用,提高精细化管理,达成数字化能力的螺旋式提升。


主要建设目标如下:一是搭建基于云原生分布式数据库的基础平台,夯实辽宁农信数字化转型征途的基石;二是完成历史数据的整体迁移,保证业务数据的连续性;三是建立统一高效数据分析计算体系,推动数据与金融业务的融合,加快数字化转型的步伐;四是建立统一的数据分发机制,满足各级法人分支机构与监管机构的数据安全要求;五是建设准实时数据应用能力,逐步实现离线数据应用向实时数据应用能力的跨越。六是统一数据加工管理,通过湖内数仓存储的一份数据,利用平台的高性能,进行数据加工的全流程管理,避免数据存储的冗余,并制定数据加工规范,管控数据统计口径,实现数据源、数据加工过程、数据脚本规范、脚本上线过程、批量调度程序等五个统一管理。


辽宁农信将通过努力激发金融科技创新活力、构筑自主可控能力,探索一条领先的、适用的、灵活的、有特色的金融科技创新型发展路径与机制。在这个过程中,重新审视了“数字金融”的业务价值属性,着重调整了“数据”的业务服务本性定位与管理视角,构建了全量数据思维下的新型管理思想。进一步加快辽宁农信特色数字金融的探索步伐,为数字金融的发展壮大献策献计,产出更为丰硕的成果,推动辽宁农信数字化进程,以农村金融主力军的姿态服务乡村振兴。


3.建设规划

辽宁农信根据当前实际情况,规划了科学、完整、可行的大数据湖仓一体数据平台演进策略:*****期是构建技术平台,探索平台应用能力;第二期是夯实整体数据基础,推进服务与应用建设;第三期是完善数据应用体系,提升平台智慧能力;第四期是构建数据资产运营体系,持续优化平台能力。


其中,该规划兼顾了辽宁农信的数字化人才培养战略以及企业数据数字文化演进战略需求,辽宁农信将采取项目分阶段建设、逐步迭代的节奏,稳步推动且实现闭环的数字经济业务运营。


171.png


*****期以搭建技术基础平台,探索平台应用能力为首要目标。技术架构上来讲,引入云原生存算分离架构的数据库及专业应用工具,将升级全域数据采集、加工、应用管理链路作为切入点。提升全量数据存储计算能效,复用数据治理成果将治理动作前置,实现不同租户采集、存储、治理、分析和共享实施的资源隔离,构建大数据湖仓一体数据平台技术底座,并通过风控规则实时化在平台实时数据计算通道的具体部署,推动风控规则审计前置,着手挖掘全域数据应用场景。功能架构上来讲,部分实现了全域数据汇聚能力、存储计算能力、数据处理能力、数据分析平台、数据共享开放平台、数据资源中心、数据服务中心、标准规范体系、运维保障体系、安全保障体系及统一数据应用门户。


第二期以夯实数据基础,推进服务与应用建设为目标。以全量数据应用作为切入点,其中包含数据治理动作完全上移平台、全域应用计算需求完全托管平台、重构冷热温数据域以及应用模式、引入人工智能应用、统一数据指标标签体系建立以及全实时数据消费通道应用。功能架构上来讲,进一步夯实全域数据汇聚能力、存储计算能力、数据处理能力、数据分析平台、数据共享开放平台、数据资源中心、数据服务中心、标准规范体系、运维保障体系、安全保障体系及统一数据应用门户。同时,体系化新增实现新一代数据治理平台。


第三期以完善应用体系,提升平台智慧能力为目标。其中包含实现数据应用全面支持、数据综合分析增强、深入业务经营、深入联动实时分析技术、构建科学算法模型体系、着手建立AI服务体系等重要任务。功能架构上来讲,数据汇聚能力、存储计算能力、数据处理能力、数据治理平台、数据共享开放平台、数据分析平台、数据资源中心、AI中心、数据服务中心、标准规范体系、运维保障体系、安全保障体系及数据统一门户趋于成熟。


第四期以建立数据运营体系,持续优化平台能力为目标。主要工作重心将侧重于过往数据建设成果的资产化运营、数据运营体系建立并开始逐步推进,终实现辽宁农信的数字化转型战略下业务运营闭环。


4.业务功能

*****期以搭建技术基础平台,探索平台应用能力为首要目标:

一是引入云原生数据库构建大数据湖仓一体数据平台技术底座。

二是引入专用工具升级源系统数据采集能力,同时推动相关上游改造。

三是将原数据仓库调度工具升级为云原生Flow调度工具为全体系调度能力加码。

四是复用数据治理成果落地,使用云原生Lava平台推动湖仓一体数据并行治理。

五是使用云原生Lava平台优化数据共享能力实现接口级、文件级数据下发共享统一通道。


172.png


六是在技术平台搭建成功的基础上,全面迁入数据仓库和大数据湖平台历史数据,提升全量数据存储能力。

七是在全量数据存储的基础上,基于技术平台特性,提速全量数据批量处理能力。

八是推动试点数据域(用户)转租户管理,实现不同租户采集、存储、治理、分析和共享实施的资源隔离。


173.png


九是通过风控规则准实时化在云原生数据库实时数据计算通道的具体部署,推动风控规则审计前置,实现准实时数据大屏等应用场景。


二、创新点


金融与科技融合创新发展主旋律是“数字转型,塑造未来”。数字化转型的承载实体是数据,数据的存储计算应用与数据库息息相关。


回顾数据库和数据仓库、Hadoop的发展历程,我们可以发现作为数据的主要载体,数据库技术已经从单一架构支持多类应用演变为多类架构支持多类应用,这些架构也并非替代关系,而是相互共存、共同发展的关系,而这样的发展过程中管理、应用的难题都会相继产生。


为了解决此类难题,辽宁农信大数据湖仓一体数据平台建设应运而生,该项目是辽宁农信数字化转型战略的重要一环。辽宁农信以战略高度和整体视角审视这件事,将数字化融入企业战略主线,进而从全局视角统筹推进、打通资源,促进数字金融时代的能力提升和业务增长的战略实施具现化。


辽宁农信基于国产信创分布式云原生数据库产品、以及数字化人才团队多年的数据应用管理实践经验,使用ANCHOR湖仓一体能力特性,为辽宁农信实现在数据查询和应用层面形成一体化架构,解决集群规模和并发受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能以及时效瓶颈等问题,从而彻底规避数据孤岛,优化数据供给能效,实现溯源数据服务能力、高效响应数据应用能力、为数字化人才长续耕耘的数字化运营阵地提供有力支撑。


1.支持多类型数据(All Data Types, Structured & Unstructured)

因为金融行业的职业敏感性,辽宁农信深知很多关系特性隐藏于我们不常关注的非结构化数据中,这些数据会包含多样的数据类型,可能来自历史的、实时的、在线的、离线的、内部的、外部的、结构化的、非结构化等,因此支持多类型数据也是大数据湖仓一体ANCHOR 的基本要求。

数字化人才只有通过多种类型的全域数据进行挖掘,才能真正发挥数据价值进而提升我社在数据智能领域的竞争水平。


2.云原生(Native on Cloud)

云原生架构的本质是存算分离技术,基于云原生架构的数据云平台的价值可以概括为四个方面:降低技术门槛、减少维护成本、提升用户体验以及节省资源费用。


降低技术门槛:无论是自建机房还是使用公有云,都离不开底层大数据技术,大数据技术俨然成为了企业的标配技能,然而并不是每个企业都能组建专业的人才团队。像集群性能调优等较为硬核的能力,更是很多已经搭建数据平台的企业所缺失的。云原生技术使得DBPaaS为企业提供更好的数据平台服务,用户不需要调优,只要按需设置性能参数。


减少维护成本:即便勉强跨过技术门槛,全方位的运维也是需要企业投入大量精力和资源的。技术运维主要包括但不限于:集群搭建、集群扩缩容、日常运维、监控告警等。


提升用户体验:假如一个分析查询使用 10 个节点需要跑 1 个小时得到查询结果;如果将计算节点扩大 10 倍至 100 个节点的话,同样一个查询则只需要跑 6 分钟。这两种配置在公有云按量计费模式下的成本是相同的,但是用户的体验和效率却可以提升 10 倍。

节省资源费用:节省资源费用必然要从弹性扩容缩容出发,云原生技术在弹性方面具备天然优势。


3.数据一致性(Consistency)

通过支持完善的事务机制,保障不同用户同时查询和更新同一份数据时的一致性。

事务本质是一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单位。事务(Transaction)所应该具有的四个要素:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability),这四个基本要素被称为 ACID 特性。

使用传统的Hadoop技术架构是无法实现这一目标的。现在,使用云原生分布式数据库技术架构,可以全程保障的数据一致性,数据库的操作无分割执行且全部执行成功,无中间状态的数据,对于辽宁农信的数据分析师和数据科学家等众多数字化人才,同时进行数据操作具有重要意义。


4.超高并发(High Concurrency)

在环境性能具备下,辽宁农信引入的云原生分布式数据库技术架构可支持高至数十万用户使用复杂分析查询并发访问同一份数据。

随着数据资产化的理念深入人心,我们依靠数据进行决策的频率越来越高,智能应用场景越来越多,企业内部的数据科学家和分析团队的规模、用户数也越来越大。在金融行业的一些特殊的业务时点,并发进行分析查询的作业和用户数会出现极端峰值,过往我们的经验是如果单集群实现不了高并发,就只能分库分表使用多个集群,数据在不同集群内部重复存储,不可避免的形成数据孤岛。

在使用了新型的技术架构后,我们为超高并发在新技术的迭代中提供可能,进而支持更多用户同时在线查询分析。


5.一份数据(One Copy of Data)

所有用户可以共享同一份数据,避免数据孤岛。

不同的用户在不同的应用场景会使用很多同样的数据,比如反洗钱系统需要使用交易数据,做营销用户画像也需要使用交易数据。而对于监管报送系统,虽然监管机构不同,但是也存在共同的数据交集问题。在传统的湖仓分体架构中,同样的数据会有多个副本,不同用户使用各自的副本并更新其副本,这样就产生了数据冗余存储以及数据更新引发的数据不一致等问题,因此,基于不同数据得出的相关分析结论可能会有较大出入,各个应用基于同样的定义计算出的指标也可能不一致,从长远发展来看这是辽宁农信无法接受的。

我们从技术角度保障所有用户可以共享同一份数据,避免数据孤岛,这样的优势对实际使用过程中,业务管理和发展有非常大的帮助,极大降低了业务人员和技术用户使用和运营数据的难度。


6.全实时 T+0(Real-Time)

在数据载入数据库的场景上,可通过全量数据 T+0 的流处理和实时按需查询,满足基于业务数据的事前预测、事中判断和事后分析消费以及业务数据粒度压缩批量应用。

场景例如:协助辽宁农信实现风险实时阻断、机器学习建模在线化、运营业务实时监控、低延时趋势分析、实时行为等特征变量、实时风险识别、实时监控系统的稳定性和健康状况等。


7.强团队

金融与科技融合创新发展主旋律是“数字转型,塑造未来”,数字化人才是数字化发展重要的一环。

所以,辽宁农信一直联动下辖法人行社,持续化构建数字化团队、培养数字化人才、孕育我们“攀登”母文化下的数字新文化。

同时,辽宁农信坚持将“改善组织架构和机制流程、大力引进和培养数字化人才”作为数字化转型的重点先行举措。通过建立更灵活的组织架构、培养更与时俱进的人才梯队、打造更开放的企业生态,提供更丰富的数据产品,为数字化人才推动数字化转型业务场景创新提供抓手,支撑企业数字化战略的高效落地。


三、项目过程管理


1.需求分析阶段

此阶段从2021年11月至2022年3月,其间主要完成了需求调研、需求分析与确认、POC测试和技术架构的设计。提交了软件需求规格说明书、POC测试报告等文档。


2.系统设计阶段

此阶段从2022年4月至2022年7月,其间主要完成了平台设计、数据迁移方案设计、脚本迁移方案、数据库设计。提交了概要设计说明书、数据库设计说明书、详细设计说明书、项目开发规范等文档。


3.系统开发、测试和上线准备阶段

此阶段从2022年7月至2022年11月,其间主要完成了技术架构分析、平台培训、系统开发、系统测试、BUG修复和上线准备工作。提交了恶意代码和后门程序检查报告、用户手册、系统开发总结报告、测试方案、测试用例、测试报告、测试总结报告、项目总结报告等文档。


4.项目上线试运行和试点行社推广

大数据湖仓一体数据平台于2022年11月正式投产,完成了安装部署、用户培训、试运行等工作,并根据上线运行和使用的情况,为后续管理工作进行了优化。


四、运营情况


在建设大数据湖仓一体数据平台基础技术底座的同时,我们也在不断持续挖掘过往数据应用的业务痛点并展望未来数据应用的发展方向,通过逐渐结合实时、风控、冷热温数据重构、模型优化及机器学习等业务场景的应用实践,为我们数字化运营体系正式落地积累经验、沉淀知识,结合我们在电子化、信息化的建设成果,摸索出一条农信特色的数据资产化新途,建立一套科学可用的数据资产估值方法论,形成一套可量化的数据资产台账和数据资产运营考核体系。


五、项目成效


1.一份数据,有效降低数据存储空间

随着大数据湖仓一体数据平台的上线,辽宁农信将报表系统、监管报送系统、审计系统等将近30TB的数据与原有的数据仓库、大数据平台数据进行了整合,共计迁移数据120TB,为各数据应用类系统节省了共计22TB的历史数据存储空间。


2.数据一致性,对数据应用的全流程实施统一管控

一是统一管控数据类系统上线工作,利用数据管控平台,根据辽宁农信制定的数据存储、加工规范,对各系统上线脚本进行检核,并由湖仓一体运维人员实现统一上线。二是统一管控数据加工口径,整合各系统的集市模型,并设计存款、贷款、客户、交易、渠道等多类模型,对于迁移至湖仓一体数据平台的系统进行统一数据源及加工口径,增强不同业务部门不同需求的数据的一致性与准确性。三是统一批量调度管理,统一设计数据类系统批量调度流程,根据各数据类应用系统的依赖关系和数据需求时间要求,进行整体流程的调度,规避一份数据多次加工的问题。


3.一体化数据加工,建设统一数据加工服务能力

随着各厂商实施产品化的建设思路,数据类应用系统都是有自己的一套集市,行方需要针对不同的系统、不同的数据模型提供各类数据。通过一体化数据加工,把不同厂商、不同集市的数据统一定义为几大类数据模型后统一想外提供,既能节省整体数据加工和推送时间,又能节省服务器资源,降低系统建设成本。


4.日结批量运行时效

在大数据湖仓一体平台落地前,辽宁农信的日结批量主要由两个系统完成:一是承接业务系统日结数据轻度汇总应用的数据仓库,二是承接数据仓库轻度汇总数据结果,进行深度汇总的大数据平台。两个是分批次建立的不同技术架构的数据处理系统,并行存在的初衷是相互分担数据加工压力,初期成效着实显著,但是随着辽宁农信的业务规模不断发展,有效业务数据不断纳入,经营分析场景不断新增,原有两个数据处理系统的性能捉襟见肘,甚至数据仓库传输数据文件到大数据平台的时间,都成为优化加工链路耗时这一目的。


为解决数据访问并发受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能和时效瓶颈等问题,从而彻底规避数据孤岛,辽宁农信数字化人才团队,将所有数据归集存储一处、优化加工链路、提升数据处理能效,重新按照原有数据接口对外提供服务。


经测试,同一数据时点,新平台数据处理效率比原有数据处理链路加快3倍以上,如不断对数据处理模型以及链路优化,或可继续提升;新平台数据处理过程中,应用系统对于已有数据结果可正常访问;除特殊应用场景外,所有的日结批量均可在T+1后八小时内完成,其中上游入库主批量平均在三个小时内完成;随着后续规划集群资源的扩展,以及实时数仓架构的逐渐落地,微批量的概念也将逐步补入辽宁农信的批量运行体系中,批量运行滞后时效还可以进一步压缩提升至小时级。


六、经验总结


辽宁农信结合多年来数据管理与应用经验的沉淀,规划了大数据湖仓一体的平台架构体系,并通过大数据湖仓一体数据平台的建设,搭建数据中台的底座,实现湖内建仓、湖仓一体的整体建设思路。既提升了数据安全性、一致性、及时性,又为未来数据中台的全面建设提供了技术底座,给新架构下数据管理和应用奠定了坚实的基础,也是辽宁农信整体数据架构的发展方向。接下来,辽宁农信将继续通过不断夯实数据基础,向内迁移全部数据应用系统,丰富数据应用场景,推动实现现代农村金融新产品、新模式与新业态,谱写“信息支撑、管理协同,产出高效、产品安全,资源节约、环境友好”的现代农村金融发展范式,推动辽宁农信数字化转型迈向下一个台阶。

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2022-10-02

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2022-10-02

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2022-10-02

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2022-10-02

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2022-10-02

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2022-10-02

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 农信/农商行
  • 数据平台与数智应用
  • 产品创新

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构