一文读懂可信AI大模型标准体系

发布时间:2023-09-05

作者:NGAI

近年来,大规模预训练模型(以下简称大模型)作为人工智能取得突破性进展的重要驱动力之一,显著加速工程化和普惠化发展进程,有望成为新一代智能基座。中国信息通信研究院(以下简称中国信通院)密切关注国内外相关技术发展态势,高度重视大模型研究、咨询、标准、评估等共性需求,不断夯实软硬件环境、标准规范、测试数据集等基础。为进一步促进我国大模型产业向上向阳发展,中国信通院联合产学研用各方于2022年2月制定可信AI大模型标准体系,并于2023年3月发布大模型标准体系2.0。相关标准为科学评价大模型技术能力和应用效能提供了详尽参考,为全面促进大模型安全合规和可信发展提供了重要保障。


















一、面向基础大模型,构建覆盖全能力域的标准体系


自大模型技术兴起以来,参数规模呈现出爆发式增长趋势,模型性能取得显著提升。与传统人工智能算法模型相比,大模型具有开发门槛高、技术能力强、运营要素新、应用服务全等多重特性。为进一步适应当前大模型发展现状和趋势,中国信通院联合产业各方在以“工程化”过程为核心的大模型标准体系1.0基础上,升级并发布以“模型即服务(MaaS)”为核心的可信AI大模型标准体系2.0可信AI大模型标准体系2.0以“四横一纵”为核心思路,充分结合模型化、能力化、工程化、产业化以及安全可信等“建用管”产业共性需求,从模型开发、模型能力、模型运营、模型应用、安全可信共五个方向持续构建和完善大模型标准体系。可有效助力相关主体快速构建能力全面、应用广泛、运营便捷、安全可信的基础大模型。


图片


第1部分是模型开发,可为企事业单位与高校院所等研发主体开发基础大模型,提供指标及过程参考。该标准包含4个能力域、16个能力子域、60余个能力项,将综合依据功能丰富度、支持完备度对大模型进行简易型、基础型、通用型、优秀型、卓越型共五级划分。


第2部分是模型能力,可为技术及产品方提供成体系的主观和客观评价指标,全面测试基础大模型、领域大模型、行业大模型的功能及性能。该标准包含3个评测维度、8个能力域、30余个能力项,将综合依据功能丰富度、性能优越度、服务成熟度对大模型进行简易型、基础型、通用型、优秀型、卓越型共五级划分。


图片


3部分是模型运营,可为技术方交付大模型、应用方运营大模型提供参考,可为平台、工具、套件、插件的构建和选型提供依据。该标准包含数据处理和回流、模型训练与微调、模型压缩与测试、服务部署与托管、平台支撑能力等五个关键维度。


图片


第4部分是模型应用,分别从任务支持度、场景丰富度、行业覆盖度、服务成熟度等维度综合评价大模型的应用效能。该标准包含3个能力域、9个能力子域以及近40个能力项。


图片


第5部分是安全可信,可用以评估数据、模型、应用的安全性,评估结果、过程、机制和规则的可信性,以及评估大模型生态链的自主可控程度。该标准从基础设施、数据、算法、模型、应用等大模型关键层级制定了安全可信的指标要求和评估方法。


图片


二、面向行业大模型,同步启动多项标准的研究制定


近期,BloombergGPT、MedGPT等面向垂直领域及具体场景的行业大模型不断涌现,有望成为各行各业前端应用场景的技术底座。行业大模型通过对基础大模型进行特定领域数据的训练和调优,具备满足行业特定需求的领域专业性和场景适配性,企业可以更便捷地形成与自身行业更为匹配的能力中台,成为促进大模型深入产业的重要举措。


2023年4月,中国信通院正式启动了《面向行业的大规模预训练模型技术和应用评估方法》系列标准研制工作,并率先开展金融行业大模型标准编制。5月23日,中国信通院召开金融大模型标准研讨会,并对《面向行业的大规模预训练模型技术和应用评估方法 第1部分:金融大模型》标准文稿公开征求意见。近期,中国信通院将进一步完善行业大模型标准体系,先后启动电信、教育、法律、电力、汽车、传媒、政务等行业大模型标准的编制工作。通过构建技术能力、应用能力、服务能力三位一体的评价体系,助力产业各方全面评估行业大模型的技术和应用能力,以进一步促进大模型的产业化进程,加速大模型与行业应用融合。



未来,中国信通院将持续跟踪大模型前沿动态,依托人工智能关键技术和应用评测工业和信息化部重点实验室大模型工作组聚焦产业各方力量,积极开展大模型技术研讨、产业交流、标准研制、评估测试、案例征集等工作。如有意愿参与中国信通院可信AI大模型标准体系编制,可联系:


基础大模型:

张老师

15722924458

zhangxueqiang@caict.ac.cn


行业大模型:

张老师

19852822678

zhangdan3@caict.ac.cn