本文来源于:鑫智奖·2024第五届金融机构数智化转型优秀案例评选,作者:哈尔滨银行
哈尔滨银行:业务数据归档管理与服务平台
2024-05-20 关键词:数字化转型,金融科技,数据管理
3769
一、项目背景及目标
在推进数字化转型的过程中,数据治理是确保金融机构稳健运行的关键基础。数据归档作为数据治理的关键组成部分,主要涉及数据的长期可靠保存及高效查询检索。根据中国人民银行颁布的《中国人民银行业务领域数据安全管理办法》以及中国银行保险管理委员会发布的《银行业金融机构数据治理指引》均对数据安全和管理提出了严格的要求。这些规定强调了数据归档与存储的重要性,要求通过建立全面的管理流程和归档制度,确保数据的完整性、连续性、安全性和可追溯性。
为有效应对业务数据在归档及全生命周期管理中的不足,解决由于行内业务的不断扩展,数据量急剧增长产生的存储容量不足、存储利用率低下、数据长期有效管理机制缺失等问题,哈尔滨银行根据集团整体战略目标及数字化转型要求,在广泛汲取国内外同业成功经验的基础上,结合实际情况,启动和实施了业务数据归档管理与服务平台建设项目。该项目是该行重要的战略项目之一,也是其信创专项攻关项目的重要组成部分。该项目旨在解决基础架构设计原则不明确导致的业务数据场景不全、完整性差,以及存储等IT基础产品的建设与维护成本过高等问题。通过构建统一、规范、标准的数据应用与归档管理体系,实现结构化数据与非结构化数据的关联索引,以及生产数据归档任务的线上全过程管理,包括录入、审批、执行和备份结果查阅等功能,以提高系统恢复与数据恢复的精准度与效率。实现了根据各类金融业务场景建立数据关联关系及高效存储与恢复的战略目标,进一步巩固了该行金融科技基础支撑能力。
二、创新点
该项目的创新点包括业务创新及技术创新两部分,现说明如下:
在业务创新方面,在于变革了历史离线数据调阅方式,将离线数据查询由线下申请恢复转变为线上触发准实时调用的方式,提升了业务效率,提高了用户满意度。
在技术创新方面,该项目基于文本的SQL检索技术,建设了与业务场景深度结合的业务数据管理平台;通过业务数据索引关联,形成了高效的数据整合解决方案;采用OCR技术,实现了非结构化数据的自动识别与索引转换;接入统一身份认证和三方存证系统,增强了数据安全访问及保管能力;采用蓝光存储技术,提升了数据防丢失和防篡改能力;结合ElasticSearch搜索引擎,实现了归档数据的分钟级访问和高效恢复;此外,平台采用国产化软硬件环境进行搭建,提升了系统的自主可控能力。
业务数据归档管理与服务平台的创新设计,不仅体现了金融科技的新发展,也展示了金融机构在追求数据管理高效率、高安全性和高合规性方面的不懈探索与实践。
三、项目技术方案
随着行内业务的不断扩展,数据量急剧增长,传统的数据管理方式面临着诸多挑战。特别是档案电子化推进存储需求量巨大、存储有效利用率低下、存储容量压力大、数据长期有效管理机制缺失等问题,亟需一种新的解决方案。
3.1 建设方案核心内容
1.档案电子化与存储效率提升:推进档案电子化建设,需处理近百T的存储需求,其中近90%以上均为冷数据,需采用合适的技术提升数据存储的性价比。
2.数据存储压力缓解:客服系统每月产生近2T的非结构化数据,对现有的影像平台系统近线存储产生较大压力。这些数据调阅频率较低,仅客户投诉、监管检查等场景使用,需要一种适合低频访问的存储策略。
3.数据库兼容性与访问优化:早期建设的应用系统数据库安装介质已不兼容现有服务器环境,导致历史数据访问受限,需探索迁移方案,确保历史数据的可访问性。
4.生产系统数据库扩容:线上生产系统数据库容量达到瓶颈,需迁移部分历史结构化数据至新环境上,释放线上存储压力。
5.非结构化数据长期管理:生产系统产生的大量非结构化数据需永久保存,快速调阅。
6.业务归档与内容管理:业务人员需要按业务场景归档,并提供内容管理服务功能,以供查询调阅。
3.2 技术方案
1.自主可控与数据安全:创新性采用基于文本的SQL检索技术以及使用国产光盘库替代国外磁带库等设计,在实现平台自主可控的同时,具备了数据防丢失、防篡改以及长期保存的能力。
2.数据归档与准实时查询:将影像平台、电子档案系统对接数据归档管理与服务平台,将历史冷数据归档至光存储中,实现了已归档数据的准实时查询,有效的释放了在线存储的压力。
3.数据采集与关联:平台具备结构化数据采集功能,将采集后的数据转化成文本,文本SQL查询技术将采集的结构化数据关联对应的非结构化数据,实现单笔业务的按场景归档。
4.内容管理与OCR技术结合:结合OCR获取非结构化数据关键词,转换成索引数据,实现对业务场景的内容管理。
5.法律效力与合规风险规避:为了解决归档数据防篡改的问题,提升关键归档业务数据的法律效力,平台对接三方存证系统外部存证功能,有效规避法律合规风险。
6.数据不可篡改性保障:结合光存储不可擦除的特点,不仅实现了数据的安全备份,也对数据的不可篡改性、可信性提供了保障。
3.3 应用架构与功能模块
业务数据归档管理与服务平台应用架构主要包括外围业务系统、结构化归档模块、非结构化归档模块、光盘库管理模块及持久化层共五部分。

图1.业务数据归档管理与服务平台应用架构
1.业务系统:包括各类有数据归档需求的生产类、办公类业务系统。
2.结构化归档模块:自动化采集需要归档的结构化数据,在进行数据治理、整合等操作后,生成数据文件及数据结构描述文件。
3.非结构化归档模块:支持按业务场景归档以及常规数据归档两种方式。按业务场景归档是以结构化数据为数据主线,对数据文件执行完整性校验,对于需要按场景归档的交易,进行索引关联,提取非结构化数据组成归档数据包,然后发起数据归档请求。此外,提供文本SQL检索服务,用户根据检索结果可按需恢复归档数据,实现数据统一管理、统一恢复。常规数据归档指对非结构化数据直接进行归档操作。
4.光存储管理模块:控制蓝光存储进行刻录、备份、恢复等功能,对外提供相应的API接口用户关联系统调用。
5.持久化层:由光存储和NAS组成。光存储具备不可删除、不可篡改的特点,适用于存储对查询时效性要求不高的数据,提供归档数据的分钟级准实时访问。NAS是可重复读写的存储,用于存储在线、近线数据,适合于保存涉及监管、诉讼以及查询时效性要求较高的数据。
3.4 数据架构
业务数据归档管理与服务平台中产生的结构化与非结构化数据均支持生命周期管理策略。ElasticSearch中存储的元数据采用滚动索引技术处理大规模数据,通过定期创建新索引并迁移数据,解决了单个索引过大的问题,从而实现结构化元数据的生命周期管理。系统中产生的非结构化数据通过数据生命周期流转功能进行存储介质迁移,迁移规则是在线区存储近一个月的归档数据与频繁访问的热数据;近线区存储近一年的业务数据,使用NAS作为数据的存储介质;离线区通过蓝光存储实现数据长期存储,支持对离线数据的搜索和恢复操作。
数据的流转由系统配置的生命周期流转规则自动管理,管理员可以通过存储组件查看存储区详细信息、状态、存储空间等信息,同时可以通过该标签下的子功能进行查询、管理等操作。数据恢复组件允许管理员选择数据进行恢复。

图2.业务数据归档管理与服务平台数据架构(非结构化)

图3.业务数据归档管理与服务平台系统数据架构(结构化)
3.5 技术架构
数据归档管理与服务平台的技术架构可分为以下几个主要部分:

图4.业务数据归档管理与服务平台技术架构
1.数据存储层:平台选用高性能、高可靠性的分布式存储系统ElasticSearch集群,用于存储归档元数据。设计数据分区和副本策略,以确保数据的可用性和容错性。
2.数据处理层:引入流处理及批处理框架Apache Kafka,用于实现数据的实时或离线处理需求。设计数据清洗、转换和标准化流程,以适应不同来源和格式的数据,实现数据的索引和元数据管理,以提高数据检索效率。
3.数据服务层:开发RESTful API接口,为用户提供数据查询、归档、恢复等功能;支持数据的安全访问控制,如身份验证、权限管理等; 具备数据版本控制和审计功能,确保数据的完整性和可追溯性。
主要技术说明:
1.展示层:利用Vue.js框架和Element UI组件库,实现响应的数据绑定和丰富的PC端组件,提供交互式用户界面。
2.代理层:使用Zip4j库处理Zip压缩文件,采用UTF-8编码,支持密码保护,同时兼容多种压缩算法,包括AES加密(128/256位)和标准ZIP加密。通过@EnableScheduling注解启用Spring框架的定时任务功能。
3.网关层:采用Spring Security提供身份验证和访问控制,其核心功能包括用户认证(Authentication)和用户授权(Authorization)。应用AOP(Aspect-Oriented Programming,面向切面编程)技术进行日志记录,日志记录被看作是一个切面(Aspect),在不修改原有业务逻辑代码的情况下,横切到多个业务逻辑中。
4.服务层:Quartz框架用于定时任务调度,如定时发送邮件、定时检查数据库等。ElasticSearch是基于Apache Lucene的开源搜索引擎,用Java编写,并通过RESTful API隐藏了Lucene的复杂性,简化全文搜索。ElasticSearch作为分布式的实时文档存储,能够索引与搜索每个字段,适用于大规模数据集的存储和检索,同时保证了系统的容错和高可用性。ElasticSearch的滚动索引(Rollover Index)技术有助于处理大规模数据。通过定期创建新索引并迁移数据,解决了单个索引过大的问题。当活跃索引达到预设条件,会滚动到新索引,同时保持索引别名的写属性,确保写入操作的连续性。旧索引被移动到冷节点,可以进行缩小、合并和压缩等优化操作。Kafka是一个分布式流处理平台,常用作基于发布/订阅模式的消息队列,适用于大数据实时处理领域。
5.数据层:采用ElasticSearch集群架构,这是一种多节点分布式系统,共同存储数据并提供索引和搜索功能。集群中每个节点都参与数据存储和集群操作,而主节点则通过内部选举确定。ElasticSearch集群的设计旨在解决单机部署时数据增长带来的存储、效率和安全挑战。集群通过将数据分散到多个索引分片,并为每个分片创建副本,存储在不同的物理服务器上,从而实现高可用性和容错性。这种方法不仅提升了数据处理的效率,也加强了数据安全性和可靠性。

图5.业务数据归档管理与服务平台页面展示
3.6 技术性能指标
业务数据归档管理与服务平台在性能指标上追求高效与稳定,具体要求如下:
1.并发性能:平台设计以支持大并发数为1000为指标要求,单笔请求时间均控制在500毫秒内,以提供快速响应。
2.异步处理:大量数据并发归档的场景,采用异步多线程处理机制,这不仅提升了数据处理效率,也保证了在高负载情况下系统的稳定性。
3.交易成功率:交易成功率大于99%,以确保高可靠性和执行成功率。
4.资源使用率:CPU使用率小于80%,以避免处理器过载,保证系统响应速度。内存使用率小于80%,避免内存溢出导致性能下降。
四、项目过程管理
业务数据归档管理与服务平台采用“整体规划、分步实施”的建设策略。主要经历了以下五个阶段:
需求分析和概要设计阶段(2022年1月至2022年3月),包括业务需求分析、业务功能和技术构架的高层设计。
系统详细设计阶段(2022年3月至2022年5月),包括系统详细设计工作。
系统编码、测试和上线准备阶段(2022年5月至2023年1月),完成编码、测试以上线准备工作。
试点上线阶段(2023年1月至2023年3月),完成投产上线,对上线过程中存在的问题进行梳理、优化、逐步解决。
推广应用阶段(2023年3月至今),完成推广上线工作,逐步推进外围系统对接、优化系统功能。
五、运营情况
哈尔滨银行业务数据归档管理与服务平台的建设紧密贴合业务场景与实际需求,通过与业务部门合作,确保了技术方案的有效实施。在项目不同阶段,包括问题定义、可行性研究、需求分析和测试,业务部门的积极参与为项目的成功提供了重要支持。自平台上线以来,已接入电子档案类数据60.65T,增量纸质转电子化档案数据约为650G/月。通过将历史数据从在线存储迁移至光盘库,有效解决了存储空间不足的问题。归档在光盘库中的历史数据能够实现分钟级的恢复,满足了业务访问归档数据时效性的需求,平均每月恢复数据量达120笔。此外,平台已与行内电子档案系统、全流程信贷系统、OA系统等16个系统的对接,平均每月归档数据2.5TB,累计归档数据总量120TB。
哈行业务数据归档管理与服务平台将持续完善功能与应用推广,并依据项目建设规划,重点推进档案电子化、数字贸易基础服务,以及为数字资产服务提供坚实的平台保障。随着平台功能的逐步落地,该平台将发挥关键性IT基础平台作用,持续夯实我行基础支撑能力,助力业务的数字化转型和长期发展。
六、项目成效
哈尔滨银行业务数据归档管理与服务平台的建设,以国产化软硬件设备的全面应用为特色,极大提升了系统的自主可控以及降低后期维护成本。平台引入国产蓝光光盘库系统,对业务冷数据实现了准实时查询,有效释放存储空间,避免了存储的无限扩容。此外,平台建设为基础平台类系统,统一标准,统一平台,提供标准化、规范化的数据归档服务,提升了数据的融合度,降低了系统建设与数据使用成本。
利用光存储空闲时耗电低的特点,显著降低历史数据长期在线持有成本,减少电力消耗和碳排放,助力绿色经济发展。与传统机械硬盘相比,光存储每日实际使用时间不足3小时,耗电量更低,对环境影响更小,实现了经济效益与社会效益的双赢。目前已迁移120T数据至光盘库系统中,相较过去单纯通过存储扩容的建设思路,普通存储均价为0.93万/T,光盘存储均价为0.13万/T,120T数据迁移至蓝光存储系统中已节省96万元。
该平台的实施提升了金融服务的效率和质量,带来了显著的经济效益和积极的社会效益,提高了金融服务窗口的服务效率,已在该行内部推广应用,具有典型的示范作用。
七、经验总结
哈尔滨银行在业务数据归档管理与服务平台的建设和推广过程中积累了宝贵的经验。具体而言,首先通过引入国产蓝光存储,实现对业务冷数据的准实时查询,有效释放存储空间,避免了存储的无限扩容。创新采用基于文本的SQL检索技术以及OCR识别技术,通过数据索引关联,实现了业务数据按场景归档,满足了业务对数据资产高效管理、使用的需求。其次,系统采用了MD5校验算法结合光存储不可擦写特性,并配合发起三方存证服务,为数据安全提供了双重保障。第三,该系统设计了一套可靠的应急处理机制,包括断点续跑和报警提醒功能,确保了批量数据处理的稳定性与连续性。后,平台的构建采用了全栈信创环境,不仅响应了国家推动信息技术应用创新的战略,而且通过使用国产化光存储,有效降低了长期在线存储的成本,减少了电力消耗和碳排放,对绿色经济的发展起到了积极的推动作用。哈尔滨银行的这些经验不仅提升了其自身的数据管理水平,也为同行业的数据归档服务提供了值得借鉴的范例。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
金融科技如何支持普惠金融发展?40余项创新应用或给出答案
普惠金融,是“五篇大文章”之一。对于普惠金融所包含的服务对象来说,目前仍存在获取金融服务难等问题。做好“普惠金融”这篇文章,或需要金融科技的助力。前央行行长周小川早在2016年就指出,普惠金融强调运用新的信息技术实现普惠。那么,银行的普惠金融到底运用了哪些技术?或可通过银行申请的金融科技创新应用进行了解。
银行科技研究社
木子剑
2024-05-20
工商银行发布 | 《商业银行人工智能应用实践及趋势展望》
银行业人工智能应用路在何方?近日,工商银行金融科技研究院发布《商业银行人工智能应用实践及趋势展望》,从五大方面对人工智能应用进行了深度剖析。
轻金融
中国工商银行金融科技研究院
2024-05-20
商业银行内控合规管理数字化转型路径探析
商业银行内控合规管理数字化转型可以有效提高商业银行全面风险管理水平。商业银行应基于现有风控系统,通过优化模型规则,提升数据质量,配套对接内部业务系统,充分发掘数据潜能,强化系统刚性管控等,加快构建更加全面、精准、开放、前瞻的数字化智能内控合规管理体系。
中国银行业杂志
刘振宇
2024-05-20
国外银行人工智能创新案例研究与启示
近年来,以人工智能为代表的金融科技在整个金融业得到广泛应用,正在驱动整个银行业进入新一轮的竞争与合作,重塑数字化发展的新格局。自2022年以来,以ChatGPT为代表的人工智能大模型在全球掀起新一轮人工智能发展浪潮。随着市场竞争的加剧,很多银行采用人工智能和机器学习技术开展了多种创新,笔者研究国外商业银行创新的案例,并对我国银行的创新实践提供借鉴。
金融数字化转型
2024-05-20
农业银行数据中心总经理佟梅:依云而生,农业银行构建提质增效IT新底座
云原生概念从2013年诞生到现在已经整整十年,其内涵技术和创新应用仍在不断迭代发展,并逐步成为IT基础设施领域的技术基石。农业银行数据中心积极推动基础设施云原生转型,构建了以分布式云平台为基础的云原生技术底座,助力全行系统向分布式架构演进,在保障****业务连续性的前提下,兼顾基础设施的敏捷和效能,实现了提质与增效的有机统一。
中国金融电脑
佟梅
2024-05-20
工商银行数据中心总经理刘方洲:数据中心数字化运维转型实践
近年来,工商银行加快推动全行经营模式和治理模式的数字化变革,以自主研发的“云+分布式”平台为核心,构建满足全行数字化转型需求的新型金融科技基础设施,扎实推进全球银行业大规模主机业务下移,打造了银行业科技高水平自立自强的样板工程。目前,工商银行金融云平台已实现17万节点和45万容器的超大规模自动化、集约化管理,成为工商银行数字化转型的重要驱动力。 工商银行数据中心作为支撑全行业务经营和数字化转型的关键信息基础设施,始终牢固树立底线思维,不断加大科技创新力度,持续探索生产运维管理新范式,为全行高质量发展和数字化转型奠定了新的发展优势。
中国金融电脑
刘方洲
2024-05-20
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构