北银金科：北京银行大模型安全测评平台

本文来源于：鑫智奖·2025第六届金融机构数智化转型优秀案例评选，作者：北银金科

北银金科：北京银行大模型安全测评平台

2025-06-11 关键词：信息安全,数字化转型,金融服务4653

一、项目背景及目标

1.项目建设背景

人工智能引发的安全事件频发

近年来，随着以DeepSeek、ChatGPT为代表的大模型技术迅猛发展，人工智能（AI）在提升生产效率、优化交互体验的同时，也带来了前所未有的安全挑战。2025 年初，全球范围内大模型数据泄露、供应链投毒、LLM劫持攻击等事件频发，暴露出 AI 安全治理的紧迫性。在此背景下，如何构建安全、可控、可信的大模型治理体系，成为 AI 发展的核心议题。

国家政策高度重视人工智能安全

人工智能是新一轮科技革命和产业变革的重要驱动力量，日益成为全球科技竞争的战略制高点，与此同时，人工智能发展可能会带来前所未遇的风险挑战，需要加强人工智能治理。

党的二十届三中全会《决定》提出：“完善生成式人工智能发展和管理机制”、“建立人工智能安全监管制度”。在法治轨道上加强人工智能治理，构建以人为本、智能向善的治理框架，已成为我国抢抓人工智能发展历史性机遇的必然选择。

2023年1月，国家互联网信息办公室等三部门发布《互联网信息服务深度合成管理规定》，针对深度合成技术，明确内容标识义务和用户知情权。

2023年7月，国家互联网信息办公室等七部门发布《生成式人工智能服务管理暂行办法》，要求服务提供者进行安全评估、算法备案及内容合规审查。

2.现状分析及建设目标

市场现状分析

市场需求快速增长，行业进入高速发展期

随着大模型在金融、医疗、政务等关键领域的广泛应用，其安全风险（如数据泄露、恶意提示注入、伦理合规问题）日益凸显，推动安全测评需求激增。

应用场景需求：大模型安全测评平台在金融、政府、能源、医疗等多个行业都有广泛的应用需求。在金融行业，大模型在服务智能化等方面的应用不断深入，需要安全测评平台保障数据安全和内容合规，防止敏感信息泄露等安全问题。

技术创新需求：大模型技术快速迭代，新安全风险不断涌现。当前行业对大模型本质和特征认识不足，缺乏完全科学完善的安全测试方法。后续需大模型安全测评平台持续投入研发，创新测评技术，以应对新风险，提升测评准确性与全面性。

建设目标

大模型安全测试平台的建设目标聚焦于构建大模型应用的安全防护体系，旨在通过平台化建设构建通用大模型应用解决方案，通过简单对接与参数设置即可一键实现大模型应用的安全测试与报告生成，具体涵盖以下三个核心方向：

守护产品合规底线

通过构建多维度筛查机制，对模型的数据采集、算法逻辑及输出内容进行系统性安全审查。例如，利用敏感词过滤、意图识别引擎及合规审计模块实时检测训练数据中的隐私泄露风险（如涉密工艺参数标记），结合对抗样本检测技术拦截恶意指令生成（如违规工艺参数篡改）。同时，依托伦理审查框架评估模型输出的社会影响，确保符合《生成式AI服务管理暂行办法》等法规要求，从根源上规避法律与道德风险。

提升大模型内生安全能力

建立“测试-整改-迭代”的闭环机制，通过动态权限控制、对抗性模糊测试等技术识别模型漏洞（如Prompt注入攻击、数据投毒），并构建缺陷溯源分析体系。例如，利用安全基线库和意图风险分级模型定位算法缺陷，将测试结果反馈至研发侧优化训练策略（如差分隐私增强、模型水印技术），从而提升模型鲁棒性。此外，通过红蓝对抗演练模拟越狱攻击等场景，持续验证防御机制的有效性，实现安全能力的内生进化。

沉淀大模型安全能力

系统化整合测试案例库（如覆盖数据泄露、对抗攻击等场景的万级样本集）、自动化工具链（如AST语法树分析、多模态风险识别引擎），形成可复用的标准化测试流程。实现安全测试能力标准化、体系化，形成可对外赋能的技术服务产品。

二、创新点

项目在建设或推广应用等方面的创新点包括：

提出大模型安全测试统一框架：构建大模型安全统一攻击流程，简化构建和评估大语言模型攻击。将大语言模型攻击分解为四个组件：选择器（Selector）、变异器（Mutator）、约束器（Constraint）和评估器（Evaluator），这种模块化设计使得安全研究人员能够轻松地从新旧组件的组合中构建攻击，极大地简化了攻击的构建过程，并且方便对不同攻击方法进行统一的评估。

标准定制化可拓展测试：平台支持10种以上大模型攻击方法，并在统一框架内进行基准测试、比较和分析，为研究人员提供了一个标准化的评估平台，有助于更全面、准确地评估LLMs的安全性，填补了此前缺乏标准实现框架的空白。同时平台提供统一攻击拓展接口，可集成新的大模型攻击方法。

AI生成题库：用户可以根据平台提供的模型和算法对初始题库中的提示词进行语义的识别、分词与变异，并通过内部的评测引擎对生成题目攻击的效果进行评测，不断深度分析与学习，自动生成符合业务需求的衍生题目数据。

动态模型对抗：平台支持在测评过程中选择被测模型、对抗模型，通过模拟大语言模型对话的流程实现模型间的自动化攻防实践，收集模型间的提示词与响应实现动态模型对抗的能力。

可视化管理：通过可视化大屏，平台提供了全场景、多视角的大模型应用管理视图，帮助用户实时监控大模型应用安全风险，近期大模型安全风险趋势，有效提升整体大模型应用安全质量。

三、项目技术方案

1.项目规划

1.1痛点识别

当前，企业在大模型安全测试方面面临以下痛点：

大模型管理复杂性：随着大模型技术的推广，越来越多的应用开始集成自研或是国内外提供的开源大模型产品，不同的产品根据需求原则的模型、参数、架构、领域千差万别，难以有效管理。

大模型安全测试缺乏统一标准：企业内部大模型安全测试多采用业界提供的少量问题库进行抽样测试，测试成功率不高。

缺乏自动化测评手段：企业内部大模型安全测试目前以人工测试为主，测试依赖测试人员的技术与经验，测试过程缺乏自动化。

1.2产品功能介绍

北银金科大模型安全测评平台项目整体功能设计：实现五大模块，支持从测评题库设置、被测模型管理到测评任务下发的全自动流程，同时北银金科大模型安全测评平台具备丰富的题库维护功能，通过持续更新和优化，确保题库覆盖全面的安全知识和实际应用场景，为各个场景的评测提供支持。

产品功能架构如下：

imageimage1_1749634924.5966895.png

平台核心测试流程如下：

imageimage2_1749634924.6724076.png

①题库管理

题库管理

动态筛选：支持题目详情、分类、创建时间等多维度组合查询

可视化展示：ID/详情/三级分类/难度级别（重要/中等/简单）/状态（启用/禁用）等关键字段表格化呈现

精细操作：单题启用/禁用、详情查看、编辑、删除（二次确认防误操作）

题目分类分级体系

树形管理：5大项31小类内容维度构建多级分类框架

智能统计：实时展示分类下题目总量及难度分布热力图

权重抽样：任务生成时可基于分类设置题目抽取概率

风险等级控制

双维度分级：根据题目级别、重要性或危险级别进行分级管理，可分为重要中等简单或者高危中危低危；后续生成报告时可根据不通过问题级别调整评测结果；

题库生命周期管理

支持题目的全生命周期管理，包括创建、编辑、删除及详情查看；删除时需要检测关联关系；

题库版本管理

支持通过excel模版批量导入题目，前端校验文件格式、必填字段、题型合法性；后端校验数据一致性，自动匹配已有分类分级，且防止重复数据导入；按条件筛选题目并导出为文件，支持Excel格式导出；题目每次编辑保存后自动创建新版本，记录修改人、时间及备注；支持一键将题目恢复至指定历史版本；

②评测对象管理

客户管理：

测评的客户管理：支持多条件动态查询、展示被测客户名称、客户模型数量、模型被测评次数等信息；支持客户增删改查与信息维护：包含新增、编辑修改及删除客户信息；客户与模型关联：支持在该客户下选择模型列表内的关联模型，单个客户可拥有多个模型进行测评；

模型管理：

支持集中管理所有被评测的大模型实例，提供统一视图进行快速检索、状态跟踪及操作入口；列表支持模型名称、类型等字段查询；列表展示模型名称、添加时间、添加人、模型类型、上次连通时间、状态等字段；支持模型实例的完整生命周期管理，包括新增、编辑信息维护及删除；执行删除前校验关联性（是否关联评测任务）设置模型访问权限的API key等配置信息，支持模型需要的鉴权机制；支持通过WEB浏览器、API接口等方式进行模型连接及访问；添加被测模型后，支持通过配置信息测试模型联通状态，通过颜色标签（绿色在线、红色异常）直观展示被测模型连通可用性。

③策略管理

评测方法配置：

支持配置题目集选择时是支持类型选择还是仅支持题目数选择；

评测垂域模型配置：

支持选择评测时使用的attack模型和测评模型；

自动衍生算法：

支持选择根据种子题目进行AI衍生题目的算法选择及算法组合；

④评测任务管理

自动衍生任务列表：

集中展示所有评测任务的执行状态和基础信息，支持快速检索、筛选及任务操作入口；表格化展示任务名称、关联模型、创建人、任务状态等字段；操作列支持修改和执行评测任务；

任务信息编辑：

创建新评测任务填写基础配置信息，为后续评测流程提供元数据支撑；支持对已创建但未执行的评测任务进行参数修改或删除，确保任务配置灵活性；未执行前可支持修改基础信息（名称、描述）、调整评测维度权重、更新题库选择数据范围；删除时级联删除关联的临时数据；

评测维度及数据范围选择：

在创建评测任务时选择评测题库集的类别数量维度等，可选择根据已选范围AI生成评测题集；

AI生成评测问题：

通过AI模型对题目自定义输入的题目数据进行深度分析与学习，自动生成符合业务需求的衍生题目数据；

评测题库权重配置：

在创建任务时，支持选择题目数和题库类别占比权重；支持根据权重要求使用随机抽样算法抽取对应题目内容进行评测的功能；

随机抽样管理：

从指定数据范围中随机抽取题目组成评测题集，保证随机性，每次评测任务抽样保证平均性，确保评测结果的泛化性与公平性；

任务下发维护：将评测任务分发至目标模型服务，管理任务执行过程中的启停；调用模型连接模块的API，通过预配置协议发送评测请求，支持异步处理且网络超时或模型异常时自动重试；

任务进程监控：

支持实时追踪评测任务执行状态、资源消耗及异常情况（展示任务进度、已评测题目数）；

任务负载分发：

平衡多模型实例或多节点的评测请求负载，提升任务执行效率与稳定性；

任务定时周期性进行：

按计划自动或者定时执行评测任务；可以配置评测任务的定期执行时间或开始时间。

imageimage3_1749634924.743244.png

大模型测评任务页面

⑤评测报告管理

评测模型自动评测审核：

支持调用评估模型根据选择评测题目集合自动完成模型问答情况的审核工作，针对回答的准确性、完整性、合规性等方面进行评估给出通过与不通过的结果；

评测结果列表查看：

支持提供评测结果的集中式管理与概览，支持快速定位、筛选及批量操作；列表展示任务名称、评测模型、评测时间、通过状态等字段展示；深度展示单次评测任务的详细数据及展示单个题目的测评过程和详情结果；

人工审计结果调整：

允许审计人员对自动评测结果进行修正；支持人工针对每个题目的结果进行人工审计修改；审计过程中可查看评测过程中问题的输入输出；

imageimage4_1749634924.8436875.png

大模型测评结果页面

评测报告生成

评测结果支持按照给出的模版生成报告，平台支持两种固定模版；固定模板内包含数据统计结果、评估分数或评估结果、修改建议等；支持选择对应模版生成报告，报告内含有评估结果且支持评估修改建议输出；生成报告后支持WORD版本下载、PDF版本下载报告。

⑥全平台统计看板

支持展示核心数据的统计图表看板展示，为用户提供全局数据洞察与实时监控能力。顶部核心KPI卡片动态呈现题库总量、AI衍生内容数量、评测任务总数及模型接入数等关键指标，支持点击下钻至明细数据。中部可视化分析区通过折线图、环形图、热力图等多维图表展示任务执行趋势、题目类型分布及模型性能对比等；

imageimage5_1749634924.8878407.png

大模型测评平台首页页面

2.项目实施

随着大模型在业务中的广泛应用，公司大模型上线使用后面临模型幻觉、数据泄露、恶意提示注入等安全风险，亟需建立标准化评测体系。本项目通过行业调研及与各方进行学术调研，开源资源研究等手段，制定建设方案后在 3个月内完成平台开发并落地，实现模型安全自动化评测，覆盖数据安全、生成内容合规性、抗攻击能力等核心维度。项目实施过程中关键里程碑如下：

阶段	时间	关键成果
需求调研	第1周	与行业当前优秀案例进行深入沟通，同时与内部AI研发、安全团队访谈，确定评测指标（如提示词注入防御率、数据泄露风险评分）
技术开发	第2-8周	搭建平台整体流程及功能，完成自动化评测引擎（支持 LLM对抗测试、RAG知识库安全扫描）
内部测试	第9-10周	在各个众测项目上进行实施使用，同时丰富种子题库与AI衍生算法功能
上线使用	第11-12周	全公司内部推广，纳入涵盖AI功能及模型上线强制准入流程

3.业务模式

北银金科大模型安全测评平台计划采用 "内部赋能+技术沉淀+未来商业化" 的递进式模式，现阶段以“服务内部AI安全治理”为核心目标，同时积累技术能力为潜在的外部输出做准备。当前在公司内部已为各个模型提供上线前及上线后安全评测服务从而保证合规与规避风险，同时提升测评效率实现隐性成本节约，后期计划服务于各个相关单位的模型测评工作，该模式既满足当前内部管控需求，又为未来价值延伸预留空间，符合企业数字化转型过程中 "先修内功，再拓外延" 的战略逻辑。

四、项目过程管理

在项目过程管理中我们始终致力于提升项目管理的效率和质量，以确保安全运营管理平台的开发建设项目能顺利、高效地从启动阶段发展到交付阶段。

我们所采取的管理策略严格遵循公司CMMI（能力成熟度模型集成）标准，这是一套业界公认的项目管理最佳实践框架。CMMI标准不仅为我们提供了一套结构化的方法论，还帮助我们确保项目管理的每一个环节都能得到有效的控制和优化。

在实施过程中，我们特别注重结合敏捷和传统的项目管理方法。这种混合方法使我们能够灵活应对项目需求的变化，同时保持项目进度的稳定性和可预测性。通过敏捷方法，我们能够快速响应市场变化，及时调整项目开发和管理策略；而传统的项目管理方法则确保了项目的系统性和完整性。具体来说，我们的项目过程管理涵盖了以下几个关键方面：

启动阶段：项目需经过公司预立项和立项两个阶段，严格要求明确项目目标、范围和需求，组建项目团队，分配角色和职责，并确保所有团队成员对项目目标有清晰的认识。

规划阶段：在这个阶段，项目经理制定详细的项目计划，包括时间表、预算、资源分配和风险管理计划。同时，识别项目风险并制定相应的缓解策略。

实施阶段：项目团队根据项目计划开始执行项目任务。在这个阶段，项目经理负责监督项目进度，确保所有活动按计划进行。项目开发阶段使用公司的Devops平台进行过程管理，保证过程的规范化，并提高灵活性和响应性。

质量保证：项目过程中还包括质量保证活动，包括需求管理、设计审查、代码审查、自动化与手动测试、持续集成/持续部署（CI/CD）、性能监控、用户反馈收集以及文档和培训，旨在确保产品满足高标准的质量要求和用户期望。

安全保证：设计阶段需要经过技术方案评审，开发阶段需要完成代码安全扫描和开源组件安全扫描，测试阶段需要完成交互式安全测试和渗透测试，投产前应确保以上安全活动卡点全部通过。

项目收尾：项目完成后，进行收尾活动，包括交付最终产品、释放项目资源、总结项目经验教训以及正式关闭项目。项目团队还会进行项目回顾，评估项目成功之处和改进领域。

通过这种综合性的项目过程管理，平台能够确保项目按时、按预算和按质量要求交付，同时满足所有利益相关者的需求和期望。

五、运营情况

1.平台推广应用

自大模型安全测试平台上线以来，已在公司环境中得到充分验证。项目团队和开发部门开展了一系列相关预上线大模型的众测活动。并且同步在集团我们在公司OA和企微发布了平台上线公告和宣传视频，组织了一系列的培训和分享，确保了平台能得到广泛的应用，快速的提升平台的稳定性和可靠性。随后，我们在集团范围内开展了宣讲营销和市场需求调研，从北京银行及主要投资机构入手，逐步将平台推向市场。

2.系统运行情况

自平台上线以来，运行状况良好，我们收到了来自用户的积极反馈。用户特别赞赏平台的易用性、自动化功能以及对大模型安全问题检出效率的显著提升。我们的技术团队持续监控系统性能，并定期进行优化更新，确保平台始终保持最佳运行状态。

六、项目成效

1.经济效益

经过集团内的营销宣讲，我们的产品已经获得了兄弟单位的积极响应，我们计划通过题库、引擎模块、测试模型数量等多类标准进行产品License化管理，预计年底可以实现覆盖一期建设成本的经济收益。

2.间接效益

除了直接的经济效益，我们的平台还带来了一系列的间接效益。我们已着手开展申请软著和专利，以增强知识产权保护。此外，通过不断的市场推广和品牌建设，我们在安全运营领域的经验和影响力得到了显著提升，品牌形象也得到了加强。

我们的平台实现公司大模型安全测试全面覆盖。一是大模型产品统一接入、集中管理，公司内60%以上模型均接入平台进行管理与测试；二是自动化测试，减轻安全工程师的工作负担，提升80%以上人力；三是在合规管控方面实现从 "事后补救" 到 "事前预防" 的转变，大幅度降低后续生成式AI违规风险。

七、经验总结

在公司内部大模型安全评测平台的建设过程中，我们通过自主研发攻克了多项技术难题，成功构建了一套全自动化的安全评测体系。我们积累了宝贵的经验，基于对抗训练、动态模糊测试等技术，开发了自动化安全扫描核心算法，支持提示词注入检测、数据泄露风险评估、生成内容合规性检查等核心功能，摆脱对第三方工具的依赖，同时大大缩短模型安全评测的耗时，通过该平台的建设，公司初步实现了AI安全治理体系从无到有的突破，更将模型风险管控从人工操作升级为智能化管理，评测效率得到数量级提升。这些成果为公司打造了一套完整的"企业大模型安全基座"，解决了当前面临的实际问题的同时为未来的智能化升级和生态化扩展奠定了一定的基础。希望本案例中平台的成功经验也能为行业同类实践提供有价值的参考，贡献我司在AI安全领域的力量。

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。