中国首个通用具身基座模型发布

艺都花坊 2025-03-10 简单报 31 次浏览 0个评论

3月10日，上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1（GO-1），这是中国首个通用具身基座模型。智元机器人表示，这款模型具有泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，降低了后训练成本。

据介绍，该模型开创性地提出了Vision-Language-Latent-Action（ViLLA）架构，实现了可以利用人类视频学习，完成小样本快速泛化。ViLLA架构是由VLM（多模态大模型） + MoE（混合专家）组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner（隐式规划器）借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert（动作专家）借助百万真机数据获得精细的动作执行能力。在推理时，VLM（多模态大模型）、Latent Planner（隐式规划器）和Action Expert（动作专家）三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。

2024年年底，智元机器人曾发布AgiBot World 百万真机数据集，尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为了解决具身智能数据困境，智元机器人采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner（隐式规划器）预测这些Latent Actions（隐式动作），从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

智元机器人表示，通过ViLLA 创新性架构，智元机器人在五种不同复杂度任务上测试 GO-1大模型，相比已有的最优模型，GO-1平均成功率提高了32%。其中在“Pour Water”（倒水）、“Table Bussing”（清理桌面）和 “Restock Beverage”（补充饮料）任务中表现突出。此外，GO-1大模型还可以搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，“越用越聪明”。

转载请注明来自个人学习使用0830，本文标题：《中国首个通用具身基座模型发布》

艺都花坊 862篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！