本文来源于:2018第二届农村中小金融机构科技创新优秀案例评选,作者:
江苏银行:大数据平台项目
2018-10-24 关键词:大数据,城商行,基础架构,业务系统建设
3839
苏银行大数据平台建设起步于2014年底,2015年年中初见成效。目前江苏银行利用大数据技术开发了一系列具有一定社会影响的大数据应用产品:如“e融”品牌下的“税e融”、“享e融”等线上贷款产品、基于内外部数据整合建模的对公资信服务报告、以实时风险预警为导向的在线交易反欺诈应用、基于柜员交易画面等半结构化数据的柜面交易行为检核系统等。
应用技术/实施过程
一、大数据技术平台架构分析
经过对主要大数据处理平台的深入研究,江苏银行将关注点聚焦在两个方面:一是选择MPP还是Hadoop;二是选择开源版Hadoop还是发布版Hadoop。为此,江苏银行更近一步从数据容量和数据处理能力的线性关系分析传统数据平台、MPP和Hadoop的关系(如图1所示)。
传统观点认为,MPP的适用范围为1TB~100TB数据量,数据量超过100TB,Hadoop更具优势。当前,大中型城商行的数据量普遍在10TB级别,因此一些城商行选择MPP作为大数据处理平台。
然而,近年来随着Hadoop开源社区的不断发展,特别是Spark2.0的发布让Hadoop焕发了新的活力。Spark2.0具有RDD(ResilientDistributedDatasets)和DAG(有向无环图)两项核心技术,基于内存计算优化了任务流程,具有更低的框架开销,使得Hadoop在MPP擅长的100TB以下数据量的处理性能也大为改善。以目前的Hadoop技术,100GB以上的数据量处理性能不弱于传统关系型数据库和MPP,10TB以上性能优势更为明显。因此,图1所示混合架构的大数据处理平台模式逐渐淡出,形成如图2所示的新型应用模式。
经过慎重分析和实际测试,江苏银行将选择范围集中在符合银行应用需求的成熟的具有高效技术支持的Hadoop发布产品。
二、大数据平台选型要点
前期江苏银行在IOE传统架构上进行了大量投入,而城商行总体自主可控能力较弱、资产规模较小、盈利能力较低,因此,不论是从自主可控要求的目标出发,还是从降低软硬件成本投入的角度,都要求大数据产品须支持在x86虚拟化集群搭建开放和高度并行化的处理平台,既要适应高并发低时延的移动互联网实时数据检索需求,又要满足大体量数据的统计分析与业务建模要求;要求总体技术方案具备高性价比,能够实现在同一服务器集群上针对不同应用动态灵活分配内存、CPU等硬件资源并支持动态扩展,在出现资源瓶颈时能够快速解决。Hadoop产品具有支持x86和可动态扩展的性能,但目前大多数Hadoop平台在不同应用间资源有效隔离方面存在一定缺陷。
2.对SQL的兼容性
江苏银行应用系统采用数据库+中间件+应用的三层模式,开发环境为JavaHibernate和Spring框架。为此要求Hadoop平台下的HDFS库、Hbase以及内存数据库等组件能够通过ODBC或JDBC连接,以实现数据库对应用开发人员透明,并支持诸如BI、ETL、数据挖掘等工具,数据源可以根据实际需要选择配置Oracle或Hadoop。
4.具备事务的基本特性
银行的实时营销和实时风险预警场景需要大数据平台具有历史数据快速统计、窗口时间内的信息流和触发事件及模型匹配、百毫秒级事件响应等性能,流处理技术是关键。目前Hadoop平台通用的流处理引擎主要为SparkStreaming和Storm,两者各有千秋,SparkStreaming由时间窗口内批量事件流触发,Storm由单个事件触发,单笔交易延迟方面SparkStreaming高于Storm,但在整体吞吐量方面SparkStreaming略有提升。在进行Hadoop产品选型时江苏银行主要考量了经过优化的流处理引擎是否能够在流上实现统计类挖掘算法。
6.数据存储形式的多样性
商业银行对数据安全非常重视,要求不同来源的数据在Hadoop平台上分库存放,并且为不同用户针对库、表、行访问分配不同的权限。开源Hadoop平台不具有用户权限概念,许多使用者在Hadoop平台只建一个库,所有应用使用同一个用户名访问资源,数据资源完全开放。这种方式存在严重的安全隐患,预计随着平台重要性的提升,拆分数据库细分用户权限的需求也将越来越迫切,为避免因前期规划不合理导致的后期巨大的拆分工作量,江苏银行在大数据平台选型之初就将多用户多数据库的隔离作为重点考量的因素。
8.平台的研发能力和开放性
银行业的应用场景及需求较其他行业更为复杂,一些典型的应用场景和主要技术包括以下几个。
①用户行为采集分析:数据探头(JS、SDK,Nginx、ICE)、数据分发(Kafka)、离线数据存储及处理(HBase)、运营分析结果展现(MySQL)。
②跨部门数据整合:数据桥接(Sqoop)、日志接入(Flume)、数据分发(FTP)、离线数据存储及处理(HBase、ES)。
③离线用户画像和用户洞察(支持营销):离线数据存储及处理(HBase、ES)。
④实时用户画像及推荐:实时数据处理(Storm、Spark)、数据存储(Redis、MongoDB)。
⑤实时反欺诈:数据接口(API)、数据分发(MQ)、实时数据处理(Storm)。
此外,风险管理领域的应用场景包括实时反欺诈、反洗钱,实时风险识别、在线授信等;渠道领域的场景包括全渠道实时监测、资源动态优化配置等;用户管理和服务领域的场景包括在线和柜面服务优化、客户流失预警及挽留、个性化推荐、个性化定价等;营销领域的场景包括(基于互联网用户行为的)事件式营销、差异化广告投放与推广等。
10.并行数据挖掘能力与R语言支持
当前国内各银行已建有数据仓库或数据集市平台,大数据平台的引入往往独立于数据仓库,对于某些场景,将结构化数据与非结构化数据整体应用具有更好的分析效果。大数据平台和传统数据仓库应如何有效整合?
首先需明确“结构化”和“非结构化”数据概念。狭义的理解,结构化数据指关系型数据,其余都是非结构化数据。广义的理解,结构化数据是相对于某一个程序来讲的,如视频对于播放器来说显然是结构化的,但是对于文本编辑器来说就是非结构化的。
基于上述理解,江苏银行认为,无论是语音、影像还是其他“狭义”的非结构化数据,只要和银行的经营管理、业务发展有关,就可以作为大数据应用的一个数据源,技术上借助特定工具对其进行处理即可使用,如通常HTML网页被认为是非结构化数据,因为难以从中提取结构化字段,如电商网页上的商品名称、产品价格等,但借助网页抓取工具,可将上述页面信息转化为结构化字段,那么后续按照结构化数据处理即可。语音、影像也是一样,关键是我们期望从中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大数据应用中。
在实践中,江苏银行大数据平台已实现网页、文本、JSON、XML等非结构化数据整合以及部分图像和语音数据的整合,并应用到了业务分析中。
产品化Hadoop独立于开源框架,却不能完全脱离开源框架,对开源框架的兼容和支持,有助于提升平台的开放性,过于独立的产品不利于在市场上寻找更多的合作伙伴。
应用效果
江苏银行大数据应用从起步到取得多项成果效,经历了9个多月的时间,其中平台选型和技术调研花费了近半年时间。然而磨刀不误砍柴工,找对技术方向,后续的整合数据、建立模型、应用开发就成了水到渠成的事情。
单位介绍
江苏银行秉承“融创美好生活”的使命,致力于建设特色化、智慧化、综合化、国际化的**商业银行。
目前,江苏银行有营业机构510多家,其中,省内下辖12家分行,在南京地区拥有23个营业网点,在省外开设了北京、上海、深圳、杭州4家分行。作为主发起人,设立了江苏丹阳保得村镇银行。全行现有员工1.3万余人。至2014年末,江苏银行资产总额超1万亿元,本外币各项存款余额达6800多亿元,本外币各项贷款余额达4800多亿元。
在英国《银行家》杂志评选出的全球前1000家银行中,江苏银行排名逐年提升,2014年排名第153位,较上年提升26位。荣获“中国佳城市商业银行”、“佳创新中小银行”、“具品牌价值城商行”、“全国银行业金融机构小微企业金融服务先进单位”、“江苏省文明单位”等荣誉表彰。
<span style="color:#333333;font-family:Arial, "font-size:14px;background-color:#FFFFFF;">文章来源:中国金融电脑杂志 编辑:金科创新社
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2018-10-24
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2018-10-24
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2018-10-24
九江银行:银行服务质量智能化辅助评估平台
银行服务辅助评估系统是以银行业务服务办理人员为核心,通过对服务区域进行统一的标准化视频采集,利用AI人工智能算法对采集的音视频按肢体、着装、语言以及人脸识别等模型分类进行运算处理,终以业务为维度输出服务规范记录的服务型管理平台。
2020首届城市商业银行数字金融与支付创新优秀案例评选
2018-10-24
九江银行:授信审批工具及调查报告智能化系统
“授信审批工具及调查报告智能化系统”是我行围绕信贷业务“贷前调查、贷中审查、贷后检查”三阶段,提升贷款三查报告(贷前调查报告、风险审查报告、贷后检查报告)“撰写、审查、修订”过程的智能性、专业性、效率性设计开发的系统工具,是我行“授信业务全流程线上化”工程主力系统之一。 该系统主要通过“报告模板创建、报告撰写、智慧审批、结构化数据搜集”四个功能模块,为信贷业务“营销尽调、审查审批、风险控制”人员提供业务支撑及决策管理服务。
2022年度城市金融服务优秀案例评选
九江银行
2018-10-24
河北银行:智能贷后项目
智能贷后通过挖掘外部数据,整合行内资源,改变了以往风险信息关注不到位、现场检查不及时的问题,能够充分识别和捕捉客户的风险特征,做到风险客户提前检视,逾期贷款及时控制,强化风险防控管理的同时提升了贷后管理效率,大大解放一线生产力。
2021第二届城市商业银行数字金融与支付创新优秀案例评选
河北银行
2018-10-24
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构