北京农商银行：大数据平台建设项目

本文来源于：2018第二届农村中小金融机构科技创新优秀案例评选，作者：北京农商银行

北京农商银行：大数据平台建设项目

2018-09-26 关键词：大数据,农信/农商行,采集与分析,数据应用3710

案例背景及面临挑战

1.平台建设层面：随着数据成为企业的核心资产，数据分析逐渐渗透到企业的各处并推动企业发展。在大数据和移动互联网时代，一方面，传统企业在数据规模和访问量的快速增长，带来大数据的挑战，例如更多的多样化数据存储、海量数据存储与计算，使得技术选择上向互联网公司靠齐；另一方面，数据的价值来源于对海量的客户交易、行为等数据的高效深层挖掘和分析，以便做到及时的精准定位和营销，进而根据不同的客户和市场需求设计不同的金融产品，提升银行的盈利能力。本行目前在这类基于大数据分析的金融业务创新领域存在缺失，因此当前迫切需要一种兼顾大数据低成本存储与高效处理的大数据平台，构成整体的数据应用体系。

2.应用建设层面：以典型应用快速上线为实施准则。基于历史数据查询系统向大数据平台做迁移试点，实现试点应用快速见效，既能解决历史数据查询系统现阶段面临的批量任务冲突、查询时效性差无法满足业务要求等大数据问题，又能为后续实施其他复杂系统的迁移奠定了基础;同时研究利用大数据平台把松散的半/非结构化信息转换为有价值的结构化信息，如地理信息数据、客户行为数据，将本行所有渠道的碎片化数据整合起来，丰富本行的数据资产；用大数据分析技术，做基于大数据分析的交叉营销（借记卡向信用卡）、实时营销、精确营销等营销领域的研究及实践。

在上述背景下，计划搭建本行大数据平台并以历史数据查询系统作为大数据平台的*****个迁移应用，启动项目建设。

实施时间

2017年1月，完成改造方案设计、评审，完成原型设计开发，启动系统设计，开发、测试；2017年4月，完成投产，启动试运行；2017年5月，完成试运行，结项。

应用技术／实施过程

3.1平台层面：

大数据平台的建设，不但承担着解决目前我们面临的性能问题，更长远是作为4V类型数据的集合，建立数据核心，通过线上线下数据的融合，充分利用外部数据和互联网交互数据的长处，为客户价值分析、潜在客户获取、风险管理等提供基础的数据支撑，为后续的数据挖掘与持续的业务创新提供关键的数据保障：

Ø 统一数据架构应可承载各种类型数据的接入，如视频、音频、图像等非结构化数据，网页文件、日志文件等半结构化数据，传统的结构化数据。

Ø 对于体量巨大的数据特别是存量数据（Volume），种类繁多的半结构化、非结构化数据（Variety），需要深度挖掘价值的复杂数据（Value），需要实时分析处理的数据（Velocity）；通过大数据平台来做数据的抽取、架构、分析和挖掘。

Ø 大数据平台与传统的数据仓库系统之间互为补充。数仓加工完成的数据可提供给大数据平台做高效分析处理，大数据平台加工处理完成的结构化数据可回流给数仓进行进一步的融合处理和展现。

目前我行已搭建了企业级大数据平台，底层用HDFS分布式文件系统进行文件存储，Inceptor组件基于开源Hadoop的Hive，主要用于离线数据跑批计算；Hyperbase组件基于开源Hadoop的Hbase，用于支持数据高并发在线查询和非结构化数据的对象存储；Discover用于机器学习和数据挖掘；Stream用于支持数据的实时处理。大数据平台架构如图1。

图1

3.2应用层面：

1、由大数据平台统一管理我行结构化历史数据。

大数据平台进行结构化历史数据的统一计算和存储。上游源系统通过CD软件将数据文件每天推送到数据交换平台；大数据平台通过CD从数据交换平台获取数据文件，并将文件加载到贴源区；历史区通过拉链算法对全量数据进行历史存储；加工出数据集市对应用提供数据查询服务；同时规划大数据分析区，也叫数据实验区。主要用于数据挖掘模型训练。逻辑架构如图2：

图2

复用数据仓库架构中现有的数据交换平台，贴源存储各类源系统数据文件，如交易类、账单类、账户类、客户类、共性文件。供下层大数据平台数据获取，错误重跑要求。同时利用Flume和Kafka对客户行为类数据进行采集并将之转为结构化数据落地HDFS进行存储；基于大数据平台，获取文件缓存层数据文件，并贴源存储于HDFS文件系统。供上层数据加工层进行ETL加工处理。通过HBase、Hive、Spark等分布式数据处理和计算组件，对数据进行分层加工和处理，形成便于前台访问的接口数据文件或HBase表，供应用层接口访问；同时也可以利用SparkR和机器学习算法，在大数据平台进行快速的模型迭代训练。技术架构如图3：

图3

数据流如图4：

图4

Ø 数据交换层，源系统抽取或推送的数据（1.0），生成增量数据文件（1.1）和全量数据文件（1.2），大数据平台从ETL平台上获取数据文件（1.3）放入到HDFS上。

Ø 对HDFS上的文件进行清洗、标准化，然后加载到inceptor中（2.1）

Ø inceptor中的表，通过跑批的任务（2.2），将增量数据分别更新到拉链表（2.3）和增量表（2.4）中。此时的拉链表和增量表进行数据汇总运算（2.5），形成应用集市

Ø 应用集市的数据供应给历史数据查询系统使用（3.0）

2、基于大数据平台的贷款违约预测模型的研究：

本文模型案例基于TDH平台Discover进行开发，在此引擎上通过综合应用数据分析与机器学习算法，实现了对贷款客户违约特征的相关性分析与相关性显著差异检验，以及图表直观展现贷款客户特征与贷款违约之间的关系，并利用逻辑回归模型对贷款客户特征与贷款违约之间的关系进行实证分析。本案例具体步骤主要包括以下5大模块，如图5。

图5

3、结构化、半/非结构化数据的采集与流处理技术的整合研究：

利用开源组件Kafka分布式消息订阅组件、Sqoop数据库直连组件、Flume日志导入等数据集中组件，完成客户行为数据的采集和结构化转换的实践与研究，建立关系型数据库与大数据平台数据交换机制，为后续建立数据仓库和大数据平台整体数据架构打下基础。构建一套结构化/非结构化数据采集的处理框架（例如：Flume、Kafka、Sqoop等组件的在处理非结构化数据中的实际应用），同时验证行内现有非结构化或半结构化数据的接入，例如：客户行为日志信息等。

利用大数据平台的Stream组件，进行流处理技术的实践和研究，建立流处理技术开发框架，为后续基于流处理技术做实时营销和实时推荐打下基础。构建一套流式数据处理的处理框架（例如：Spark-Streaming、Storm等组件在处理流式数据中的实际应用），同时验证行内现有流式数据实际需求的接入，对流式框架进行功能性及效能性验证，为我行未来内构建流式应用提供技术及测试数据指标支撑。技术架构如图6。

图6

通过在应用服务器上部署flume节点1、2，使用tail文件的形式获取文件流，然后使用flume节点3进行数据收集和简单过滤后，传入kafka中。使用StreamingSql进行文件流的实时ETL，将半结构化数据转化为结构化数据。后将数据写入HDFS中进行持久化操作，或直接实时写回Kafka，使其他业务系统可以使用实时结构化数据。

应用效果

大数据平台一期项目已经于2017年4月14日正式投产，投产后解决了历史库批量及历史数据查询系统效率问题。数据处理性能得到了大幅提升。历史交易对手信息重构方面，投产前用Oracle集群按照交易对手集市的逻辑计算历史交易对手，投产后改用大数据平台效率提升120倍。历史数据查询系统的历史交易对手查询，每笔交易对手的查询单查询效率投产后提升了120倍；同时历史库跑批任务，以个人活期账户主文件为例，该表的跑批作业投产前后跑批效率提升了65倍。

同时鉴于我行历史数据情况，利用大数据平台对大数据快速处理的能力，持续地、快速地优化历史交易对手，受到业务一致好评。

单位介绍

北京农商银行改制成立于2005年10月19日，是国务院批准组建的首家省级股份制农村商业银行，下辖694家网点，是***一家金融服务覆盖北京市所有182个乡镇的金融机构。近年来，北京农商银行以“稳健可持续全面发展”经营理念为指导，以“专业化经营、系统化管理、集约化控制”为抓手，着力打造“流程银行、特色银行、精品银行”，经营质态持续稳健提升，资本实力、盈利水平、经营质量等主要指标均创历史佳，监管评级实现历史性跨越。先后荣获北京市人民政府首届“质量管理奖”提名奖、中国银行业年度具社会责任金融机构、连续5年获评全国“年度佳农商银行”。在英国《银行家》新全球1000家银行排名中，一级资本排名204位，资产规模排名164位；在全球银行品牌500强中位列321位。在世界品牌实验室2017年《中国500具价值品牌》排行榜中，以119.25亿元的品牌价值居中国银行业第13位。

本文由2017年度农村金融科技创新优秀案例评选组委会授权金科创新社发表，转载请注明出处和本文链接。

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。

推荐阅读

河南农信：基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入，创新性金融产品和金融服务不断涌现，业务数据和业务流程复杂程度不断提高，交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选河南农信 2018-09-26

安徽农信：基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大，数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中，空调能耗又占到全部能耗的70%，本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中，为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选安徽农信 2018-09-26

湖北农信：智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术，集教、学、练、考评等要素，通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体，成为全省农商行系统的学习中心，考试中心、直播中心、制度图书中心、员工交流中心，有效地提高了员工学习的时效性、便捷性和覆盖面，成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选湖北农信 2018-09-26

江西农信：“百福快贷”项目

网络信贷项目依托互联网技术，采用全流程“不落地”线上操作模式，以大数据应用为基础，实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成，整个贷款审批流程无需人工参与，实现了系统几分钟内自动产生审批结果，真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选江西农信 2018-09-26

江苏省联社：风险偏好与限额管理系统

本项目旨在建设统一风险数据集市，打通风险管理相关数据，建立风险偏好与限额管理系统，提高各类风险识别、计量、监测和数据分析的能力，并提供给农商行风险管理相关的数据支撑，以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选江苏省联社 2018-09-26

重庆农商行：基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选重庆农商行 2018-09-26

选型库