记者昨天获悉,上海交通大学联合业界研发的具身智能测评集GM-100宣布开源,旨在为衡量机器人“大脑”(智能模型)与“身体”(物理执行)的协同能力,提供一个更系统、开放且可复现的评估基准。后续,国内多个具身智能大模型将引入该测评集进行“跑分”测试。

当前,具身智能技术路线尚处百家争鸣期,数据集建设缺乏统一标准。GM-100测评集相当于给具身智能出了一套上海版“统考卷”,为国内具身智能评价体系补齐短板。

不盲目追求任务量

据悉,GM-100测评集包含了100个具体任务,总计1.3万条操作轨迹数据,规模可观。项目牵头人、上海交通大学副教授李永露认为,在当前研究阶段,高质量的数据集和评测体系对科研的贡献至关重要,优化数据分布能有效推动模型能力进步。因此,与其单纯追求任务的数据量,该测评集更强调任务设计的广度与评估体系的深度。

记者从研究团队了解到,GM-100测评集在设计任务时,首先分析人类与物体交互的基本原语(不可分割的指令),再利用大语言模型生成大量候选任务,经专家筛选优化,最终形成涵盖从日常简单操作到罕见复杂场景的100项任务。

此外,该测评集在传统的任务成功率之外,引入了两项关键指标。一是部分成功率,用于量化多步骤任务中,子步骤的完成情况,避免“非全即无”的粗暴判断;二是动作预测误差,即衡量模型在面对新情况时动作模仿的精度。

研究团队对全球主流模型测试结果显示,GM-100测评集的任务设计难度合理,在不同机器人平台上均可执行且具备区分度,评估结果在不同硬件间也表现出稳定的泛化性,为跨平台模型能力比较提供了可靠参考。

目前,测评集所有100个任务的详细说明、所需物料清单均已开源,团队还为每个任务上传了约130条真实机器人操作轨迹数据。“我们甚至公布了具体物料的购买链接,尽可能降低开发者的复现与参与门槛,让更多人能在同一基准上开展测试。”研究团队负责人告诉记者。

补齐评价体系短板

当前,具身智能领域评测标准分散且不统一,各团队自建标准,抓取、路径规划等侧重点也各不相同,且多局限于高频简单场景。随着技术进步,旧有基准的区分度下降,难以反映复杂环境下的核心挑战,行业缺乏公认的客观参照。

“现有具身智能模型结构的泛化能力已显不足,需进行结构性创新,在数据层面,大规模、高质量数据的采集与评估仍是行业瓶颈。”宇树董事长王兴兴在外滩大会、进博会等多个场合公开表示,当前具身智能的制约因素主要是模型架构和数据质量。

为此,上海正努力通过具身数据和模型能力双维度,找到具身智能行业的破局之道。

在数据方面,智元机器人率先建成全球首个数采超级工厂,还开源了包含百万条真机数据的AgiBot World数据集。智元具身业务部总裁姚卯青表示,该数据集提供了工业级高质量数据支撑,包含百万条机器人数据轨迹,每条数据都经过多轮审核,确保场景贴近现实、任务复杂多样。

此外,国地中心和浦江实验室联合团队计划完成2500万组整机数据积累,数据规模达到谷歌同类数据集的10倍。1月22日,上海库帕思科技与它石智航宣布共建“具身数据星火计划”,推动实现亿小时级别的数据流通规模。

在模型方面,2025年3月,智元发布全球首个通用具身基座大模型智元GO-1,融合多模态大模型(VLM)与混合专家系统(MoE),支持不同本体平台数据采集和部署。上海具识智能还自主研发了全国首个具身智能操作系统InsightOS,在智能制造产线部署、智慧农业作业等产业场景得到应用。

在此基础上,GM-100测评集的出现,则为上海乃至国内的具身智能评价体系补齐了短板。

“我们的目标并非建立一个绝对公平的物理测试环境,而是打造一个开放、透明、可复现的评测平台。”该负责人表示,通过提供标准化的“考题”(任务)、详细的“考试说明”(开源资料)和灵活的“阅卷标准”(多维指标),努力成为一张具身智能模型的“统考卷”,不仅有助于横向比较模型性能,更通过题目设置定义行业的核心能力与前沿问题。(记者 查睿)

编辑:何智康
更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。
长按二维码
关注精彩内容