本文来源于:2023鑫智奖第四届中小金融机构数智化转型优秀案例评选,作者:百年资管
百年资管:OCR财报智能识别平台
2023-06-08 关键词:其他金融机构,数据智能应用
1851
一、项目背景及目标
随着公司业务发展,业务部门日常需要处理的财报数量日渐增多,因大多数为PDF扫描件的缘故,存在图像质量参差不齐,版面格式不统一等情况,业务人员查询、比对数据需要翻阅大量纸质或PDF文件,不仅耗时耗力,而且容易出错。同时,财报数据作为公司重要的数据资产,对于价值发现、风险识别、投后管理具有重要意义,应当更加科学地管理起来。经过市场调研,目前市面上财报识别类产品繁多,但大多数为一键识别,无法对图片和识别结果进行微调,对于识别的误差仍然需要人工比对。
基于以上背景和调研结果,公司决定自研OCR财报智能识别平台,提供文档管理、文档解析、OCR识别、数据校验、数据查询和文件调阅等功能,将散落的财报数据规范管理起来,从而将员工从繁琐的事务性工作中解放出来,让员工发挥主观能动性,专注于具有更高价值的工作和研究。
二、创新点
OCR财报智能识别项目通过引入开源模型进行训练,实现了财报的一键识别、结果比对和规范管理,提升、提高工作效率和生产力,推动百年资管的数字化转型。
图像识别:采用开源深度学习模型,检测+方向分类+识别的模型组合方式,并对中文、表格场景进行增强;
自然语言处理:采用开源深度学习模型,自动进行语义索引和文本匹配;
支持用户对模型对检测结果的二次调整:针对歪斜图像进行自动校正,对模型给出的文本位置信息能够进行自定义拖拽调整,让识别结果更精确;
模型训练:以用户二次调整的文本位置记录作为训练数据集的补充,通过系统的使用积累更多优质的、公司特色的训练数据集,对预测模型进行训练。通过可视化工具观察模型收敛程度,如取得更好的效果就可以对模型进行迭代升级,不断提升识别效果;
微服务架构:OCR和NLP模型服务化部署,系统具有很好的横向扩展能力;
财报数据多维度分析:提供方便快捷的查询、导出功能,支持同一主体下各科目以期次为维度的横向比对查询;
科目分级分类:定义科目类别标准库,已识别的科目通过NLP能力自动匹配相应科目,让生成的财报更加规范。
三、项目技术方案
1.技术架构
本项目采用微服务架构模式,降低系统耦合,增强横向扩展能力。前端采用Vue3开发,具备良好的数据绑定和渲染性能;应用服务模块采用Flask开发,负责请求转发、业务逻辑处理和调度;文件服务模块负责PDF、Excel、图片等各种格式文件的存储、管理;模型服务模块用于预测模型的部署,响应应用服务器的预测请求,模型采用百度飞浆的Paddle开发套件,通过Paddle Serving组件实现高性能部署,支持多平台、多框架模型的转换,支持模型的不断扩展迭代;用户对模型识别结果的校准将会被记录,并作为训练数据集促进模型的不断升级;识别结果支持随时查询、调用,支持接入数据中台进行多维度数据分析。本项目的技术架构如下(图一)所示。

(图一)
2.建设成果
2.1文件管理
系统以企业主体为一级维度创建识别任务,将企业各期次财报文件上传至任务下管理,支持PDF、Excel、图片等多种格式,支持一键将PDF按页转化为图片,方便识别操作。任务下各文件加密存储,任务间文件数据彼此独立,防止出现混淆与错误。如下(图二)所示。

(图二)
2.2财报识别
针对图片进行OCR识别,提取位置、方向、文本信息,通过转换算法转换为模板表格形式。如下(图三)所示。

(图三)
页面分左右两部分,左侧为图片原图,图层上方可现实识别框,并可以自行调整,右侧为识别结果区域,左右实现联动,点击结果单元格将高亮图片区域,并直接在单元格上方弹出裁剪原图,方便核对确认识别结果。效果如下(图四)所示。

(图四)
2.3数据查询
通过任务名称、项目名称等模糊查询相关财报数据,除了常规的在线查看和批量导出外,提供同一主体下各科目以期次为维度的横向比对查询,通过NLP模型能力实现科目对齐,效果如下(图五)所示。

(图五)
四、项目过程管理
项目实施作为软件项目成败的关键因素之一,是一项系统工程,也体现了项目协作、沟通程度。百年资管以项目管理科学思想为基础,精心制定了一套项目执行方法论。该部分主要包括以下内容:项目管理实施体系,实施资源体系、项目实施计划体系三大部分。项目实施中严格要求实施人员遵守该项目管理体系,以实现:
项目实施小组清楚了解自己的职责、工作范围、工作进度和结束的标准;
项目参与者可以了解各自项目的相关文档和代码,清楚项目的进度和技术状态;
提高项目双方的工作效率,防止因协调而造成的项目拖延;
项目执行成员可以减少犯错的机会,工程化的完成实施工作;
所有参与者拥有共同的目标。
OCR财报智能识别平台以项目需求为基础,涵盖项目启动、调研分析、系统实现、系统上线、上线支持、验收交付收尾各个环节。

项目组制定该思想的根本目的是规范开发、实施人员为实现部署系统所需经历的项目各阶段及所要做的各项任务,以统一的标准向用户提供专业服务。
五、运营情况
OCR财报智能识别平台自系统上线以来,很好的支持了三方等业务部门的工作,通过文件管理、识别转换、智能分析、检索查询等功能,实现了多格式、多版式财报的结构化处理,将业务重复劳动转化为单次检查,完整录入、核对一份财报三表的时间从平均1小时缩短为平均5分钟,大幅减少检查时间和工作量。
总体来看,随着平台财报数量的逐渐积累,公司财报类非结构化数据得以有效管理起来,形成公司数据资产。
六、项目成效
百年资管成功地通过OCR智能识别平台对公司财报管理进行优化,在大幅提升业务操作环节处理效率的同时,有效的降低了人工方式处理时不可避免的差错,沉淀了公司数据资产,促进了数据更便捷的应用。
七、经验总结
百年资管通过建设OCR财报智能识别平台的实践表明,AI能力在金融科技领域有着广泛应用前景和巨大潜力,未来可以持续挖掘视觉和NLP领域更多的价值点,为公司借助金融科技实现数智化转型降本增效迈出坚实一步。
结合公司业务发展,百年资管将继续深入探索和研究企业数智化能力建设,通过金融科技手段,为公司业务的持续发展和稳健经营,不断注入新的数字化管理能力,夯实管理基础,迎接中国资本市场更好的明天。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
日照银行:“黄海之链”供应链金融服务平台
黄海之链”平台于2021年8月18日上线,是日照银行推出的首个To B端金融服务门户网站。平台全面融合区块链、物联网、人工智能、大数据等智慧科技,将金融科技成果与实体经济场景有机结合,实现对产业链全链条、全周期、多维度金融服务需求覆盖,加速产业运行效率;通过数据要素全面运用,实现信息化、数字化和智慧管理;通过与商贸物流平台、交易市场、电子仓单系统等特色场景对接,打造“产业经济+金融服务”的数字化生态闭环,实现产业链交易全流程业务可视、数据可信、资产可控,有效解决上下游中小微企业融资难、融资贵问题。
2022第三届中小金融机构数智化转型优秀案例评选
日照银行
2023-06-08
重庆农商行:区域性商业银行智能研发运维一体化管理平台
本项目的建设,打造了基础平台级信息资产,是重庆农村商业银行以金融科技赋能全行数字化转型升级的生动案例。其一方面提高了企业科技的自主架构设计能力,保障了金融科技转化为具体业务产品的高质高效;另一方面也为银行业全面推广微服务、智能运维和系统架构升级提供了一份良好的模版和参考执行标准。
重庆农商行
2023-06-08
苏州银行:标签体系建设项目
统一标签管理系统从整体功能架构上分为特征库、标签管理、标签应用及标签服务四大模块。其中,特征库涵盖零售、公司及同业三大条线基础特征数据,为标签体系提供重要基础数据支撑;标签管理模块主要包括标签定义、审批、发布、执行、评估、下线等,实现标签的体系化管理;标签应用提供客群筛选、客群分析、客户画像等多样化客户分析工具;标签服务模块提供API接口、批量订阅及页面集成等统一多元化服务模式。
2022第三届中小金融机构数智化转型优秀案例评选
苏州银行
2023-06-08
江南农村商业银行:江南矩阵——智能特征工程
江南矩阵是基于GPU数据库,实现流批一体的特征工程平台。其中离线特征计算是借助hive/spark,完成整个数据的预处理,特征构建,特征选择,以及特征评估的迭代,同时与实时特征计算模块会进行特征融合;实时特征计算构建在flink sql基础上,完成流式任务的开发及调度管理,实时特征加工的过程中也会融入离线特征,整个平台终构建的特征会提供给建模平台进行入模。江南矩阵平台同时也实现了特征工程可配置化,以及丰富的数据源管理。
2022第三届中小金融机构数智化转型优秀案例评选
江南农村商业银行
2023-06-08
江苏银联:苏惠券——基于银行业统一移动支付APP云闪付的优惠券分布式开放平台
依托银行业统一移动支付APP云闪付,江苏银联带领外包服务公司,规划、设计、开发、上线了优惠券分布式开放平台:“苏惠券”。江苏银联将苏惠券作为江苏省银行业票券生态的核心平台,实现票券发放及服务的千人千面,与银行、政府、大型商户等实现APP或系统对接,实现票券业务的相互引流与自动核销;打通微信的生态,通过粉丝裂变等方式引入微信的公域流量;向票券渠道商等市场各方充分开放,致力于形成“引入微信公域流量、银联银行流量互导、政府资金资源扶持、商户自助发券核销、面向市场充分开放、用户畅享各类优惠”的苏惠券生态体系。
2022第三届中小金融机构数智化转型优秀案例评选
江苏银联
2023-06-08
天津农商银行:吉祥薪管家
吉祥薪管家,以互联网工资代发为核心服务,实现各类企事业单位或流动性就业群体的本行和他行工资代发业务。该产品是数字银行部“强基工程-数赢计划”的重点培育项目,不仅可助力柜面对公业务数字化转型,提高网点产能,也是我行直接触达对公客户、联动营销零售客户的重要抓手,通过此产品,可以联动我行公司、零售、普惠业务高速高质发展,大幅提升我行综合服务竞争力。
2022第三届中小金融机构数智化转型优秀案例评选
天津农商银行
2023-06-08
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构