在2024中国移动全球合作伙伴大会上,中国移动携手电子标准院及16家重点央企,共同推进大模型评测体系建设,并发布了《通用大模型评测标准》。这一标准被视为评测体系建设的重要里程碑,旨在为产业界筛选优质大模型提供有力参考。
据透露,该标准的建设工作将围绕通用领域及四个重点行业领域展开,涵盖评测标准制定、评测基地建设、评测试点应用等多个方面。通用大模型评测标准基于“2-4-6”框架构建,具体而言,“2”代表两类评测视角,即以重点行业实际需求为导向,与国家标准对模型能力的要求相协调,将评测任务分为理解和生成两大视角;“4”表示四类评测要素,从评测全生命周期中提取评测工具、评测数据、评测方式和评测指标等关键要素,确保评测工作的可实施性;“6”则指六大评测维度,综合考虑大模型应用过程中的核心能力,包括功能性、准确性、可靠性、安全性、交互性和应用性。