光合及目
1lux.xyz
← 报道
公司新闻极客公园· 2025-03-16

智元曝光「机器人大模型」,但真正的核心,并不是机器人! | 极客公园

3 月 7 日晚,智元机器人联合创始人「稚晖君」(彭志辉)在微博上扔下了一颗「预告炸弹」——「下周有好东西发布」。短短一句话,迅速引爆全网,阅读量飙升至 10 万+。 结果,3 月 10 日上午,智元机器人就揭晓了谜底——Genie Operator-1(GO-1),智元首个通用具身基座大模型亮相。视频中,机器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成

3 月 7 日晚,智元机器人联合创始人「稚晖君」(彭志辉)在微博上扔下了一颗「预告炸弹」——「下周有好东西发布」。短短一句话,迅速引爆全网,阅读量飙升至 10 万+。

结果,3 月 10 日上午,智元机器人就揭晓了谜底——Genie Operator-1(GO-1),智元首个通用具身基座大模型亮相。视频中,机器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成问题。官方宣称,GO-1 不仅具备强大的泛化能力,还能在极少数据甚至零样本的情况下,迅速适应新场景和新任务

早在 2024 年底,智元就推出了 AgiBot World,一个包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量数据集。正是基于这一庞大的「数据金矿」,GO-1 才能在短时间内实现高效训练和广泛泛化。可以说,AgiBot World 是 GO-1 背后的「隐形英雄」。

那么,GO-1 这个机器人基座大模型的实际表现究竟如何?它对机器人行业又意味什么?

机器人大模型,来了!

按照官方说法,GO-1 除了拓展机器人的运动能力,更重要的是加强了其 AI 能力,从而大大增加了机器人的实用价值

通过学习人类视频,GO-1 具备了强大的物体跟踪能力 | 图片来源:智元机器人官网截图

在智元发布的演示视频中,GO-1 展现了很强的学习能力:通过观看人类操作视频,它就能快速掌握新技能,并高效应用到实际任务中。比如,视频中展示了 GO-1 强大的物体跟踪能力:即使水杯被随意移动,它依然能精准完成倒水动作。

其次,GO-1 展现了非常强的泛化能力。与传统模型需要海量数据训练不同,GO-1 仅需百条级数据,就能实现快速泛化。例如,在演示中,GO-1 在完成倒水任务后,无需额外训练,便能无缝切换到烤面包并抹果酱的新任务。这种能力不仅展现了 GO-1 对多样化任务的适应性,更体现了其极简学习的核心优势。

GO-1 可以支持不同形态机器人能力迁移,既可以接待嘉宾,也可以制作咖啡 | 图片来源:智元机器人官网截图

同时,GO-1 的跨本体能力,为多机器人协作提供了强大的技术支持。在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。这种协作体现了 GO-1 的高效性和适应性。

传统具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,导致两大问题:数据利用率低和部署受限。但GO-1可以赋能多种本体,在不同机器人形态之间快速迁移,显著提升了数据的利用效率,降低了部署成本

值得一提的是,GO-1 大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。这套系统能够从实际执行过程中捕捉问题数据,尤其是执行失误或异常情况,并通过人工审核和模型优化,持续提升 GO-1 的性能。例如,在演示场景中,机器人在放置咖啡杯时出现失误,系统会立即将相关数据回流,并针对性地优化模型,确保下一次操作更加精准。

同时,GO-1 大模型还为机器人增加了新的语音交互方式,这极大便利了用户在现实场景中自由表达需求。

大模型不重要,数据集才重要

GO-1 神乎其神的背后,来自其不同的模型架构。

GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架构,这一架构结合了多模态大模型(VLM)和混合专家系统(MoE),分为三个协同工作的模块:

  • VLM(多模态大模型):基于 InternVL-2B,处理多视角视觉、力觉信号和语言输入,实现场景感知和指令理解。

  • Latent Planner(隐式规划器):通过预测 Latent Action Tokens(隐式动作标记),将互联网异构数据中的动作知识迁移到机器人任务中,解决高质量真机数据不足的问题。

  • Action Expert(动作专家):基于 Diffusion Model 生成高频率、灵活的动作序列,确保精细执行。

业内人士认为,其实 GO-1 的这个模型架构很简单,创新之处并不多主要是对已有工作、数据和训练方式做了大幅整合

相比之前的模型,唯一新增的是一层 Latent Planner(隐式规划器),但它也就几层 Transformer,并不复杂。

成为付费用户可以阅读 智元机器人 所有资料

了解更多 →
阅读原文 ↗极客公园