本文来源于:鑫智奖·2024第五届金融机构数智化转型优秀案例评选,作者:常熟农商银行
常熟农商银行:数据血缘分析系统
2024-06-05 关键词:数据安全,科技管理,数据分析
3412
一、项目背景及目标
1.项目背景
数据血缘管理对于银行业提高数据质量、提高合规、支持数据驱动决策都至关重要。然而,由于信息系统的复杂性和多样性,数据的来源、流动和转换关系变得越来越复杂,使得银行在数据管理方面面临着诸多挑战,如数据源众多、数据流动复杂、数据质量难以保证等。传统的元数据管理方法在面对大规模、复杂数据环境时,面临着效率低、时效性差、准确性难以保证、使用不直观等问题,难以满足银行数据的高效管理需求。元数据不清楚也导致大数据平台存在着大量孤岛表、字段说明缺失、数据冗余的问题,产生了大量无效的管理和费用成本。
2.项目目标
通过引入图数据库和AI技术,建立一套先进智能的数据管理系统,将目前大数据平台上的表、表关系、字段、字段关系进行梳理并系统化存储。提升元数据的管理能力和效率,减少无效费用成本,以实现对银行数据的全面管理和监控。同时,实现自动分析数据变动后的影响范围、自动定位数据的上游血缘、自动补全元数据信息缺失的功能。促使监管报送在数据异常时能快速定位问题,数据工作者可以通过该平台高效分析出上游调整的影响面。
二、创新点
1.图化数据血缘管理
通过图数据库存储数据血缘,同时利用AI和图分析能力分析和追溯数据的血缘关系,帮助了解数据的来源、转换和使用历史,自动跟踪数据的流转路径,识别数据衍生关系和数据传输过程,提供数据血缘全链路的可视化展示和查询。
2.基于图算法的数据血缘分析
在形成元数据血缘的基础上,通过图分析算法(连通性算法、社区检测算法、PageRank算法),优化数据流程,改善数据质量,降低风险,满足合规要求,并为数据驱动的决策提供可靠依据,确保对数据的理解和管理更加全面、准确和可信。
3.AI大模型元数据抽取、分类和补全
通过AI大模型自动对数据进行分类和标注,将数据关联到合适的元数据模型和词汇表,用机器学习算法和模型训练技术,自动识别和归类数据,为数据赋予正确的标签和属性,简化数据分类的过程。
三、项目技术方案
数据血缘管理平台以图数据库作为数据底座,采用容器化微服务部署架构,保证了系统的扩展性和可靠性。
1.功能架构

2.技术架构

3.基于大模型-元数据信息自动补全

四、项目过程管理
整个项目从2023年6月6号开始,2023年6月28号一阶段系统部署上线,2023年7月20号二阶段行内系统对接上线。在时间短任务重的情况下,项目组按照既定计划完成开发测试上线工作。主要里程碑如下:
2023年6月6号,项目正式启动;
2023年6月9号,完成数据血缘系统在测试环境的部署;
2023年6月25号,项目组对行内测试环境的元数据和数据文件的血缘信息完成识别和入图的初始化。根据行内准则进行中间件适配,项目组按时完成了功能测试、压力测试和安全代码扫描,顺利通过上线评审;
2023年6月28号,按照既定计划系统部署上线(里程碑),完成生产元数据库和数据文件的初始化;
2023年7月20号,完成计划中行内系统的对接,期间还测试出27个问题及优化意见,项目组也及时高效的完成27个问题的修复工作,并二次同步上线;
五、运营情况
截至2024年5月份,持续运营纳管的数据库增加到226个,8万+数据表,包括了大数据平台、上游平台业务系统、下游平台应用系统。
目前,数据血缘分析系统也已纳入行内数据开发质量检测流程,数据研发人员上线内容质量检测。对已上线脚本中存在的语法问题、脚本命名不规范问题、脚本同名不同路径问题进行检测,并定期整改。
同时,AI自动补齐作为数据血缘管理平台的探索创新功能。试点运营阶段,已采集库10%的表约7000张,检测出有3200+个字段的中文描述存在缺失的情况,通过基于生成式大模型的元数据补齐探索,对缺少中文的表和字段做出建议。
六、项目成效
建立起数据血缘分析系统,既保证数据的完整性、准确性和可追溯性,加强数据审查。同时也提升行里元数据的管理能力和效率,以实现对银行数据的全面管理和监控。
1.各系统孤岛表(既无上游也无下游)定期检测
在已经纳管的226个库,8万多张表中。检测出2.6万张孤岛表,其中1.8万张孤岛表已推动整改完成。汇总表存储清理140T、贴源存储清理600T,存储成本约8000/T/年,可以节省约592万元;
2.数据研发人员上线内容质量检测/问题快速定位
对已上线脚本中存在的语法问题、脚本命名不规范问题、脚本同名不同路径问题进行检测,并定期整改。同时平台已经对存量脚本进行了检测,检测出问题脚本100+、不规范脚本1000+,目前检测出的存量脚本问题已经全部整改完成;定位数据问题的平均时间,由原先1.5小时缩减到20分钟。数据问题检测覆盖的范围也从原先不超过三层表,扩展为字段全覆盖(10层以上);
3.AI元数据信息自动补全
AI自动补齐是元数据管理平台的创新功能,目前还处于探索阶段。试点了已采集库10%的表约7000张,检测出有3200+个字段的中文描述存在缺失的情况,通过基于生成式大模型的元数据补齐探索,对缺少中文的表和字段做出建议,最终经人工确认采纳了2000+个字段的中文描述。由于各表情况不一及大模型还处于探索阶段,AI补齐采纳比例不稳定,从30%-90%不等,综合采纳比例约为62.5%,节省了约20个人天。整体预计可节省180人天,节省约27.5万元;
4.大数据平台上下游全链路的血缘展示
目前已经接入大数据平台的部分上游平台业务系统和下游平台应用系统,完成血缘链路的自动重构。
七、经验总结
数据血缘分析系统基于金融行业数据现状和治理需求,融合了图数据库、AI、大模型等技术手段。实现了全面、准确的数据血缘关系追溯,能够自动记录和分析数据血缘关系,快速定位数据问题,更好地管理和保护数据,提高了数据的安全性和可靠性。同时,也提升元数据的管理能力和效率,减少无效费用成本,以实现对行内数据的全面管理。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
胡震:构建数字金融服务生态,探索数字化转型新路径
为贯彻落实《国务院关于全面推进乡村振兴加快农业农村现代化的意见》总体部署,全面推进乡村振兴,进一步加大支农惠农力度,有效支持当地畜牧业发展,切实解决畜牧经营主体融资难、融资贵及担保难问题。
金融电子化
胡震
2024-06-05
天融信:金融行业数据安全解决方案
目前通过网上业务HTTP或HTTPS传输、内部邮件传输、经营分析数据库访问与操作、开发测试数据加载等多种业务场景与应用,已成为金融机构敏感数据传播和泄漏的新途径。近期金融行业披露了多起用户银行卡信息被泄漏的安全事件,数据安全防护已成为当前非常紧迫的需求。
网络整理
天融信
2024-06-05
江西农信:基于分类分级的数据安全管控项目
随着银行以数据驱动的业务创新和升级不断深化,如何构建以数据全生命周期为核心、及时发现、主动出击的动态数据安全体系成为江西农村信用社联合社信息数据安全治理的迫切需要。鉴于此,省联社开展了基于数据分类分级的数据安全管控项目一期建设。
2019第三届农村中小金融机构科技创新优秀案例评选
江西农信
2024-06-05
广东农信:“鲜特汇”互联网金融平台
2015年下半年,为实现电商业务尽快推出,本着节约成本、快行快试的原则,我联社在保留原积分商城系统技术框架的基础上,通过敏捷开发对积分商城进行快速改造,于2015年底升级推出“鲜特汇”电商平台。
2017首届农村中小金融机构科技创新优秀案例评选
广东农信
2024-06-05
国元证券:面向AI大模型时代的新一代移动端架构——组件化与端智能深度融合实践
在AI大模型应用蓬勃发展的当下,传统的客户端架构如何配套发展,以适应AI场景下快速迭代和能力整合目标,国元点金App项目组通过基于组件化与端智能理念,为移动端设计了四层架构,包括组件化工程底座、基础层、业务支持层和应用层,采用组件化开发模式、通信技术和路由技术等,打造了RMD 2.0智能化核心引擎组件簇,助力AI场景在移动端快速落地实践,推动应用向智能化、个性化、高效化发展。
鑫智奖·2025第六届金融机构数智化转型优秀案例评选
国元证券
2024-06-05
安胜华信:基于API原子化业务数据访问与行为分析监测
安胜基于API原子化业务数据访问与行为分析监测方案,以大数据平台为底座,既可解决面向互联网移动应用手机银行、企业银行、微信银行等移动应用终端运行环境的安全防护及业务安全风险,又可通过接入内网全域数据流量,解决机构内部的数据安全管控风险。
2024年“鑫智奖”第六届金融数据智能优秀解决方案评选
安胜华信
2024-06-05
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构