光合及目
1lux.xyz
← 报道
创始人访谈腾讯新闻· 2025-07-29

智元首席科学家罗剑岚:具身智能转折点不是ChatGPT时刻,而是DeepSeek时刻

罗剑岚分享对具身智能技术发展路径的深度判断,强调全栈自研是人形机器人的唯一出路。

7月27日,在上海WAIC世界人工智能大会上,智元机器人首席科学家罗剑岚博士在采访中表示"去年大家更多处于Show Demo的阶段,今年已经从Demo阶段走向产业落地。"

罗剑岚博士毕业于加州大学伯克利分校,曾在Google X、Google DeepMind从事研究工作。在伯克利人工智能实验室(BAIR)担任博士后期间,他是Sergey Levine教授团队的核心成员,领导开发的世界上首个超人类的机器人真机强化学习系统SERL/HIL-SERL,首次实现将任务成功率提升到100%。他于今年早先加入智元,担任首席科学家。这样的履历让他对机器人性能有着近乎苛刻的要求。

罗剑岚观察到的产业变化确实在发生。蓝驰创投合伙人曹巍在年中就曾表示,“今年下半年和明年上半年会是一个产业交卷的窗口期。”

那什么样的机器人才能真正落地?罗剑岚给出的答案是"不损失性能的泛化"。这就是说,机器人不仅要会做很多事,更要把每件事都做好。

这种思路与当下流行的"一步到位通用化"形成鲜明对比。很多人希望机器人像ChatGPT一样,一出生就能处理各种任务,哪怕成功率只有50%。但罗剑岚认为,这在物理世界行不通。ChatGPT说胡话让你喝农药,你不会真的去喝,因为你的大脑会判断。但机器人的错误没有缓冲区——一把水泼到你身上,就真的泼到你身上了。

所以他提出,机器人需要的不是"ChatGPT时刻",而是"DeepSeek时刻"。不是做1000个任务每个10%成功率,而是做100个任务每个都接近100%成功率。这才是物理世界智能的标准。

这个观点重新定义了通用性的路径:从专用到通用,而不是一步通用。

这种思维方式贯穿了整个采访。谈到数据,他坚持100%真实数据训练,认为"仿真是人设计的瓶颈";谈到落地,他从制造业的结构化场景出发,一步步向家庭的复杂环境推进;谈到未来,他设想机器人自己产生真实数据,而不是完全依赖遥操作。

每一个观点都不激进,但都指向一个方向:真正有用的机器人必须在真实世界中可靠工作。这个标准的改变,或许正是具身智能从概念炒作走向产业现实的分水岭。

以下是访谈全文(经编辑):

技术路线与模型架构

提问:目前业界对于具身智能大模型缺乏统一的评估标准,像生成式大模型那种benchmark。您认为有必要建立这样的benchmark吗?

罗剑岚之前有很多尝试,还有RobotNet,YCB,以及学术界过去10年的很多尝试。但机器人的难点在于各家的硬件不一样,测试的环境也不一样。所以现在的情况是没有一个统一的benchmark。

这个和大语言模型等数字的东西还是有些不一样。各家现在依赖于自建平台,然后少量任务在自己的实验室里面测试。当然现在也有一些工作在做分布式测试,比如robot arena这些。

我们呼吁构建跨任务、跨模态、跨平台的统一benchmark。好比说我们有一个比较统一的测试场,然后大家各家的模型都能在这个平台比较。但这需要整个行业的学术界、工业界一起努力。

提问:目前你们如何评价不同具身大模型的表现优劣?

罗剑岚:几个维度。一个是泛化性,一个是性能。泛化性就是背景的变化、物体的变化等等各种直观意义上的泛化性测试,我们有一系列标准。性能的话就是成功率与速度,在我们的场景下测试。

如果让大家有统一标准的话,应该是越广的测试越好,因为这样我们会有比较统一的标准。

提问:VLA路线成为主流了,但近段时间受到挺多质疑,认为它不够完善。您觉得VLA路线未来会是主流吗?

罗剑岚:VLA不是终局。VLA是一个让你"something get started"的东西,但机器人模型和大语言模型很重要的一点是——今天ChatGPT也就50%、60%的准确率,但50%、60%准确率的机器人在真实世界上完全没有办法用。

它给你倒水每两次倒错一次,那这个都是有代价的。

VLA最终光有数据是没有办法把成功率、速度这些需要优化的指标优化到你想要的程度。一定还需要优化,所以未来一定会是大模型加上优化。做优化的方法有很多种,强化学习是一种,学习dynamics model也是另外一种,imitation learning也是其中一种,但它肯定是既要有数据也要有优化。

提问:你们的世界模型与其他世界模型有什么不同?

罗剑岚我们的详细工作很快会放出来。很大的不同一点是,它是一个统一的平台。它可以做生成,就是视频生成,然后评测世界模型,它更重要的一点是它也可以做policy learning,就是说它也可以训练策略。我们有一些非常复杂的比如说把平整的格子叠起来这种非常复杂灵巧的操作。

相比其他家,会比较大的减少你的数据量,几百组数据就可以训练出这样的策略。

提问:World Model会开源吗?

罗剑岚:会开源的。我觉得开源是促进社区成长,尤其现在是一个不成熟的社区的最好的办法。

提问:目前VLA路线下一个关键的技术成果节点会是什么时候?

罗剑岚:我们都在说ChatGPT Moment for Robotics,我觉得ChatGPT Moment没什么用。ChatGPT现在都出来两年了,它现在还在说胡话,它让你去喝农药,但你也不会喝,因为你有判断。

它的GPT的输出受体是你的大脑,你大脑会判断会补全,尽管它说胡话你并不会去做。但机器人一把水泼到你身上,那就真的泼到你身上,你躲都躲不开。

所以我觉得下一个Moment其实不是ChatGPT Moment,我做1000个任务每个10%的成功率没有什么用,50%成功率没有什么用。下个Moment是DeepSeek moment,我做100个任务或做20个任务,每个都是接近100%的成功率,那这个才是真正物理的机器人开始变得在真实世界有用的标准。

提问:如何正确理解DeepSeek moment相较于ChatGPT的差异?

罗剑岚应该是换句话说它是不损失性能的泛化,性能就是成功率、速度还有鲁棒性。你光泛化没有用,你得在保证性能的同时泛化。

举个例子,人是个很泛化的东西,人能做很多事情,人是个generalist,但你做每件事情的成功率都很高。好比说系鞋带你的成功率肯定是100%,就算不是100%也是99.9%。你偶尔犯一次错误你也知道怎么恢复,因为如果不是100%的话,你今天出门可能需要三个小时,你一直在那系鞋带。

但你同时也会敲键盘,你敲键盘成功率也要很高,接近100%,否则今天我们这个采访,回去整理可能整理三天都整理不完,如果你敲三个字错两个字的话。你拿包或者拿水,这成功率也都很高。

你是generalist,你是通用的,你是泛化的,但你的性能也很高。有些事情你是不会做的,比如说后空翻、打乒乓球、打羽毛球这些。所以你有些事情不会做,但是在你有些范围之内,你的日常生活你能做的这些通用的事情,它的成功率都很好。

这就是我说的这个DeepSeek moment,不损失性能的泛化,光谈泛化不谈成功率、不谈性能的泛化在机器人这个方向上没有什么太大意义。

数据驱动与训练方法

提问:CircuitLiving发过一篇文章提出Spore理论,认为真实数据是机器人实际落地操作的途径。在模型训练中肯定会有仿真环境Sim2real的安排。您怎么看待仿真环境数据跟真实数据的使用比例?

罗剑岚我觉得仿真是个很好的工程工具。我们也跟一些做仿真的公司购买他们的数字资产,但更多是从帮助我们模型快速迭代这个角度出发的。

目前我们的所有VLA模型百分之一百都是使用的真实数据。

关于Circuit这篇博客,我基本上赞同他说的。因为他的主要观点是在整个机器学习人工智能的历史上我们得到的普遍教训是,如果你有一环在整个Pipeline上是人为设计的,有人工因素在里面,那个东西它不会随着数据的增加、计算的增加而Scale。那仿真是人设计的,那它最后就变成你的瓶颈。

提问:Data-driven它是一个证明过的东西还是一个信仰类的东西?

罗剑岚我觉得我们今天的科学已经到了一个不同的范式,这个变成一个更多变成Empirical Science,是数据驱动的。这个不是说你有个定理,然后你怎么样somehow close form去证明它,而是说你通过数据驱动,然后数据验证这个回归、做统计、显著性测试,然后你验证你的Hypothesis。

我很喜欢去证明东西,但是我们得承认这是一种新的范式,我们要用不同的方式去看待Data-driven。

提问:在封闭受限环境内做落地,需要的数据量大概会是多少?

罗剑岚好提问。所以我说光有数据是不够的,我们还得做优化、做后训练,强化学习是其中的一种,把这个成功率提到100%。就像DeepSeek的R1和GPT-o1,它的Base Model可能只有5%、10%的成功率,但通过后训练,通过强化学习训练环境的话,它成功率可以做到100%。

现在有些工作其实在真实世界上去学这些东西,要不了那么多数据,但是光有数据去做模仿学习是不够的。

提问:目前整个具身大模型的瓶颈,是数据没有那么重要吗?

罗剑岚:数据是瓶颈。我们现在数据很缺乏,但之后会有新的瓶颈。这个瓶颈我觉得是优化、实时性能的提升。如果是模仿学习的话,你的速度就小于等于你的遥操作速度。

如果你要去提高速度和提升成功率的话,你一定得朝着这两个方向去做优化。模仿学习的目标是和你数据里面的那些数据最大相似,那个并不等于说你直接朝着你想要的东西去做优化。

提问:现在有没有新的一些降低数据成本的方式?

罗剑岚现在是具身智能落地的早期阶段,很多人第一反应肯定是仿真数据更便宜、更方便,但我们一直强调的是仿真不是替代品,它是预热器,真机才是主舞台。真机数据难,并不是因为它贵,因为现在早期这个阶段更多的是它没有被工程化成比较标准的数据工厂。

我个人觉得未来的真机数据它不大可能完全来自于遥操。今天的大语言模型,它的文本和图像存在互联网上,互联网是我们过去20年人类自己去构造的基础设施,这花了我们20年时间。我们先有通讯、先有互联网,然后数字化把所有东西给上传上去。

但机器人不是这样的,我们没有机器人的数据存在互联网上,也没有这样的基础设施。但也许这更好,是一个机会,我们应该把它看成机会,因为这是从day one去重新构造一个基础设施,机器人数据的基础设施的机会。

也许我们不需要把整个地球给遥操一遍。我觉得更多未来的机器人的真实数据应该更多来自于机器人自己去产生自己的真实数据。

通过部署更多的机器人,它会有更多的与真实世界交互的数据慢慢传回来。它一开始不是100%,它70%、80%。我们设法通过别的方式把机器人的成功率训练到70%、80%,然后部署到真实世界去。真实数据传回来,然后我们再通过优化,把这些性能再提上去,提到90%、100%。然后再部署更多的机器人。

它跟自动驾驶汽车也很像,因为自动驾驶汽车基础设施我们也建了100年,我们有公路,路是给车建的,我们有交通信号灯。然后车一生下来就是一个可以被遥操的机器,因为人类坐在车里面可以开。但是这些东西在机器人上都不存在。

提问:当真的部署机器人的时候,会有不同的本体、不同的环境?

罗剑岚当你开始真的部署机器人的时候,你会有不同的本体、不同的环境,然后数据也不是遥操数据。

遥操数据基本是成功数据,你的机器人不同机器人、不同的传感器、不同的模态在真实世界上交互传回来数据,全是异构的数据、各种各样的数据。

那个时候光模仿学习肯定是不够,需要有更有principle的、更有根本性的算法,比如说能够处理这些异构性多模态。我觉得这个是未来的一个frontier。

落地应用与工程化

提问:相较于去年,您觉得今年机器人在整个技术主流方向上有什么变化?

罗剑岚:去年的话大家更多处于Show Demo的阶段,今年我看到各家公司不光Show Demo,大家已经从Demo阶段走向产业落地环节。去年我看大家还是有很多比如说功能拼接,很多东西都是拼凑的。

现在是慢慢大家也都在统一往大模型融合,然后比较统一的范式在转换。现在也同步在进入从数据到策略再到系统部署的全栈进程。挑战依然存在,就是科学上、工程上的复杂性,还有跨模态的一致性这些东西都是我们最后实际落地会考虑的东西。

提问:智元在传感器的研发采购上有什么规划?

罗剑岚我们和多家传感器供应商在合作,主要是触觉传感器,还有高精度的视觉触觉传感器的联合研发。同时也在构建跨平台的数据采集API标准化接口,实现任务语义的统一映射,提升数据的可训练性。

提问:是不是越多传感器对于具身智能越好?

罗剑岚也不是越多越好。现在光自动驾驶,比如说要用激光雷达,有的时候不用激光雷达,我觉得要用对的成本,然后更通用的传感器。

我觉得更多的方法论上有问题和这个是比较独立的,加更多的传感器,并不能让我们算法上的问题得到解决。

提问:具身智能最快落地的场景是在哪里?

罗剑岚我觉得应该是在制造业会先落地,因为工业制造、服务场景这些比较受限或者是半开放的环境里面,场景结构化程度相对比较高,商业需求比较明确。大家现在也对具身智能抱有很大期待。所以我觉得这个是个比较理想的技术着陆点。

但长期来看的话,我觉得家庭、然后开放世界的具身智能机器人是更大的市场。

提问:训完世界模型之后距离应用还有多远?从采集完数据到实际应用之间还有哪些gap?

罗剑岚Gap就是性能。真实世界机器人的准确率要到很高,你让它真正变得有用,我觉得在你家里面叠衣服机器人或者是扫地也好或者是装洗碗机的机器人得到95%的成功率。这是个很难的一步。

提问:有厂商提出把模型配上policy做到高成功率可落地就是非常重要的成就了,您同意这个观点吗?

罗剑岚我不太同意,因为现在在开放世界的操作问题是开放的科学问题,没有人把它解决,它是很大的科学问题也是很大的工程问题。

提问:到具体部署的工程化流程大概是什么样?

罗剑岚主要是分四步。现在有了比较通用的大模型,跟传统相比简化了很多。大体上分四步:任务建模、策略迁移、场景适配,然后最后安全验证。我们强调软件是要人机共融一起设计,从源头上它是对人友好然后对环境也是友好的,安全性是有保障的。

上线之前肯定都会有不管是在仿真上的验证,然后是在Mock场景上的验证都是会有的,并结合最坏情况下我们会有兜底方案,在线现场也都有保证它是安全的。

提问:这四步大概需要多长时间?已经成为行业固定标准吗?

罗剑岚现在我觉得还是在相对早期的阶段。现在可以把这四步每一步针对每一个场景去做很大的工程,但这个肯定不是最后一个可规模交付的东西。

我们未来是希望通过软件定义硬件、软件定义机器人的方式,把这个交付成本通过大模型、然后强化学习这些东西的通用性,进一步降低。这样会省去很多中间比如说工程交付、集成商一系列的成本,而且让整个的交付周期变得更短。

提问:VLA和传统的像美卡曼德和跨域智能这种传统方案现在有什么差异?

罗剑岚首先我们没有用VLA,单有VLA是没办法在工业场景落地。因为工业场景对成功率、节拍的要求会非常高。我们目前是VLA加优化的方式,大模型加优化的方式。

它跟传统的系统集成商Pipeline相比有很多优势。一个是换线周期会短很多,因为它基本上不怎么需要调试。第二个它也不太需要这些特殊夹具工装夹具,会省掉很多的工装物料成本。

因为传统这些公司都是靠视觉定位然后靠绝对精度然后重复那一个动作。我们这个东西是具有可泛化的,你这个工件动了,在这些范围之内它都是可以泛化的。我们就对它前期的比如说要做个检测的话,一般会定上夹具,把这个东西exactly放在这个位置,然后exactly去做这个动作,然后你才能百分之百。我们现在是不太需要这个的。

总结两点:一个交付成本有比较大的优势。像传统的集成project可能六个博士生做半年,我们不会,用软件,用我们的算法还有全栈的通用性来大幅降低交付成本。

另一个整体的交付方案也会很有优势,我们不需要用特别大的工装夹具,也不需要有特别大的空间。

传统自动化设备方案,因为每一步都不能有不确定性的东西,它就把每一步拆成很多步,变成特别确定的东西。比如说把手机盖打开把电池拿出来这种东西,它可能会有一个巨大的自动化设备,跟这个房间这么大,把它拆成二十几步,然后每一步只做很小一步,这样每一步都确定了,这样才能达到百分之百。我们是不需要这样的。

提问:家庭场景每一个家庭甚至户型、摆设都不一样,个性化定制非常强,您怎么看待这种复杂性?

罗剑岚因家庭的复杂性,所以这个是一个复杂的科学问题、工程问题、社会问题。我觉得它最终会实现,但是时间可能不会那么快。

唯一能够解决它的办法是数据驱动。你只有想办法拿到这些场景的数据,你才能去上手解决这个问题。但我们现在都没有开始。

未来可能还会有数据隐私的提问,然后各种工程化怎么样规模化部署到家庭的数据回流、数据闭环这一系列的提问。但是我觉得这些东西都不是本质上完全无法解决,它是需要一个拐点,因为现在机器人的成本和整个方案还没有显得特别attractive。

产业发展与市场策略

提问:目前人形机器人的技术路线并没有收敛,智元在关节驱动和感知能力方面是如何抉择的?

罗剑岚我们在关节方面有和外部厂商合作,也有自己自研。

这两个确实是机器人身上关键的硬件。我们未来当然现在选择很多,我觉得未来可能会希望有一些比较通用的模块化的东西能够行业通用起来,像USB的Type-C,大家都用这个,可插拔式的。我觉得可能需要大家一起来推动这个行业标准生态的建设。

提问:关于正大对智元战略投资的新闻,未来双方会有什么样的合作空间?

罗剑岚正大旗下拥有比较大的农业零售制造场景,是非常理想的具身智能落地场所。我们将在智能物流、农业作业自动化、超市零售机器人等方向探索合作,共同推动智能生产力落地。

提问:中美在具身智能领域的发展上有什么共识或者非共识?

罗剑岚美国更注重于算法创新和生态建设、快速生态建设。中国的话我觉得在工程集成、供应链、制造端落地会更快一点。国内市场中国市场驱动性会更强一点,然后适合快速推动规模部署。美国的话会在基础科学上会更有探索性一点。

提问:现在有一些创业公司专门做跨本体通用的系统,你们的核心差异是什么?

罗剑岚我们这个是平台化的,像我们的基尼Studio包括智元推的这些OS,它都是想做成一个类似于机器人安卓的操作系统。它是对各家的本体、硬件包括外部的设备、相机、传感器这些东西都是有统一接口,可以不断接入到我们的生态系统的。

我觉得这个是一个我们需要这样的工具,然后我们也在朝这块努力。

提问:跟他们会有竞争关系吗?

罗剑岚我觉得更多是一个开放包容的关系,因为这个事情不太可能是一家能够做的。但它一定要有一个平台公司在牵引,因为你光做操作系统,你对真实的落地然后硬件也没有know how,这个肯定是行不通的。

成为付费用户可以阅读 智元机器人 所有资料

了解更多 →
阅读原文 ↗腾讯新闻