中国首个通用具身基座模型发布

中国首个通用具身基座模型发布

艺都花坊 2025-03-10 简单报 31 次浏览 0个评论

3月10日,上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1(GO-1),这是中国首个通用具身基座模型。智元机器人表示,这款模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,降低了后训练成本。

据介绍,该模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化。ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM(多模态大模型)、Latent Planner(隐式规划器)和Action Expert(动作专家)三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。

2024年年底,智元机器人曾发布AgiBot World 百万真机数据集,尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为了解决具身智能数据困境,智元机器人采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner(隐式规划器)预测这些Latent Actions(隐式动作),从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

智元机器人表示,通过ViLLA 创新性架构,智元机器人在五种不同复杂度任务上测试 GO-1大模型,相比已有的最优模型,GO-1平均成功率提高了32%。其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务中表现突出。此外,GO-1大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,“越用越聪明”。

转载请注明来自个人学习使用0830,本文标题:《中国首个通用具身基座模型发布》

每一天,每一秒,你所做的决定都会改变你的人生!
Top
网站统计代码