本文从Sharpa近期的灵巧手Demo讲起,无论是CES上翻扑克牌、折风车,还是在春晚盘核桃,在GTC大会期间削苹果,这些Demo代表灵巧手第一次展示了够胜任精细的以及长步骤任务,这是具身智能在灵巧操作上的里程碑时刻。
首先探讨了灵巧手在硬件上的不同路线,包括直驱代表的Sharpa Wave,腱绳方案代表的特斯拉 Optimus,代表了两种“第一性原理”。
在这次对话中,我们梳理了具身智能行业正在发生的几个关键趋势。NVIDIA、Google DeepMind、Disney Research 联合开发的Newton物理引擎和NVIDIA Cosmos带来的合成数据与虚拟世界仿真;从EgoScale论文中看到的两万小时第一视角数据带来的Scaling Law迹象;具备视频预测能力的世界模型,如DreamDojo实现了一分钟的长程任务;还有SONIC同样展现了运动控制领域Scaling Law的曙光。
我们能发现这些趋势落地到实践中,还有更多亮点:模型架构上,剖析了Sharpa的CraftNet三层系统,从System 2的语言意识层,到System 1的视觉动作层,再到System 0的触觉手感层,以及世界模型、VLA的路线之争,最后讨论了NVIDIA三台计算机(训练—仿真—推理),展望触觉作为新模态、分层预训练推动灵巧操作走向通用泛化潜力。
本文是这期播客的文字版,在不改变原意的前提下进行编译,也欢迎收听音频版本,获取更多信息
目录
第一部分:从盘核桃到装显卡,这些Demo到底有多难?
第二部分:从OpenAI单手解魔方,看当下的行业痛点
第三部分:硬件-直驱 vs 腱绳,两种仿生思路
第四部分:模型架构-CraftNet,首个“三分层”实践
第五部分:数据金字塔与仿真训练
第六部分:Scaling Law的曙光:世界模型 vs VLA
第七部分:算力、商业化,机器人能“知轻重”的未来
第一部分:从盘核桃到削苹果,这些Demo到底有多难?
Nixon:Sharpa的demo最近开始刷屏。我们在CES上第一次看到,在无保护的前提下离观众很近,机器人的灵巧手可以一张一张翻扑克牌,可以把纸折成风车,甚至打乒乓球。之后春晚盘核桃,GTC上削苹果、转网球,还有把显卡装到机箱里。这些动作在行业里算什么水准?
朱雪洲:我们可以把操作动作的难度分一个基本的层级。最基础的一类,是把一个物体从A点搬移到B点,改变它的空间位置。比如抓起一个物体放到货架上。进阶一些的难度,涉及到让两个物体发生精确配合。比如插USB、把显卡插进主板,或者发牌。这需要精准对位,把两个独立物体组装成一个整体。再进阶的难度,涉及到改变物体的形态。比如折风车,一开始是平的纸,通过动作改变它的拓扑结构。削苹果更难,因为要把果皮和果肉分离开,而且苹果是柔软的柔性体。
托马斯白:所以叠衣服也属于第三个级别。第一类任务可能有夹爪就能实现,给一个统一的力把垃圾夹起来就可以。但涉及到显卡插主板,对力和精细度的要求就上了一个台阶。
朱雪洲:这里有一个反直觉的地方。通常我们讲人工智能,对于人来说简单的事情,对于机器反而是难的。对于人难的事情,比如下围棋这种有确定规则的,对机器反而是简单的。生物在漫长的进化过程中,DNA里携带了预训练的模型,对于力学、维持身体平衡是预训练过的。但对于机器人来说得完全从零做起,收集数据、把模型搞对,走一条漫长的路才能具备这些能力。
Juana:我到现场看的感受,第一是部署到实际场景后的鲁棒性。有很多观众去互动干扰它,它在叠风车或者操作的中间步骤被干扰后,依然可以进行后续工作的完成,成功率非常高。第二点比较惊艳的是它展示的能力都是长程任务。拿一个东西放到一个地方属于短任务或者原子操作,但Sharpa展示的是需要很多复杂步骤串联起来,最终还能保持极高成功率的能力。
朱雪洲:像我们内部调试展会的动作,需要它做到90%以上的成功率才会放上去演示。我们做过实验,如果把触觉的信息去除掉,动作的成功率会明显下降,可能会从90%掉到20%以内的程度。
Nixon: 消费者目前接触比较多的是机器人的全身控制应用,比如看机器人跳舞。我很好奇,行业发展到了什么阶段、出现了什么样的真实需求,让大家开始觉得必须要用到灵巧手了?
Juana: 一个很直观的数据是自由度。以Sharpa为例,单只手就有22个自由度。而我们通常处理一个普通的人形机器人,如果不加手的话,全身的自由度整体也就只有10到30个左右(以宇树的G1为例,它全身是23个自由度)。如果我们考虑带上双手的全自由度操作,整体自由度会非常巨大。当我们在仿真环境里做强化学习任务时,自由度一旦上去,机器人面临的探索空间会非常大。
朱雪洲: 如果只是做一些偏自动化属性的动作,比如把货物取下来放到柜台上,这种相对简洁的基础搬运动作,传统的夹爪是够用的。但一旦你需要这个机器人真正去承担好一个岗位角色、处理好一个真实的物理场景,手就必须具备通用性。盘点一个场景的全部职责,一定会超出夹爪的范畴。而且为人设计的各种环境和工具,不一定都是夹爪能搞定的。你想拿一个吸尘器,首先要握持住手柄,还要用另外的手指去扣动扳机。电动工具也是这样。你想拿刀去切东西,夹爪夹住刀是两点受力,刀是不稳定的。人要用好刀,要握持,甚至拿一个手指抵住刀背发力。所以单一环节夹爪OK,但真要落地,自由度少会遇到种种问题。特斯拉也是想做一个通用性机器人,工厂只是他找到的比较顺滑的第一步落地场景。
托马斯白:夹爪还有一个反直觉的事情。因为自由度少,它拿起一个杯子可能只有一两个姿势行得通,导致它在训练过程中反而更难找到对的拿取方式。为了省事搞一个自由度少的夹爪,在模型训练走到中后期,你会发现很多场景不适配,经常失败,最后还是得从头来过。
第二部分:从OpenAI单手解魔方,看当下的行业痛点
Nixon:灵巧操作行业其实在18年左右就有过不错的 demo。OpenAI当时用灵巧手单手解魔方,证明了强化学习在这个事情上是可行的。但为什么行业一直到2025年才开始井喷?过去这几年产业化的痛点在哪里?
朱雪洲:OpenAI在18年用Shadow Hand解魔方,重要意义在于证明了多自由度灵巧手通过强化学习能完成复杂任务。但它有点像一个为了论证而设计的实验。在传感上,它架了多个摄像头去拍摄动捕信息,这跟真实场景有出入。而且它主要靠高精度视觉动捕,没有使用触觉去完成动作。
Juana:在GPT爆发的时候我们发现了Scaling Law能够work,很多机器人行业者开始思考这个规律能不能在Physical AI落地上也有同样的作用。当我们在谈Scale的时候,在机器人领域往往是多个不同角度的Scale,包括任务的Scale、数据的Scale、模型Size的Scale、计算规模的Scale。
在这个思路下,我们提供了三台计算机来解决不同的痛点。第一台是NVIDIA DGX平台,针对大模型训练。第二台是NVIDIA OVX平台,提供仿真能力,可以在里面做仿真微调、策略评估,生成大量合成数据解决数据问题,包含新推出的Newton仿真引擎。第三台是NVIDIA Jetson平台,针对端侧部署加速模型推理。即便如此,在落地过程中最难的挑战依然是数据问题,大家都在不同方向上探索如何收集足够的数据。
朱雪洲:痛点从硬件讲起,现在行业已经出来第一代硬件可以探索落地了,未来两到三年或三到五年会有进一步演进。比如电机减速器的迭代,最终达到或超过人手的功率密度。今天人能用两个手指做俯卧撑,但机器人还整不了这个。当然第一波落地应用场景也用不到这么大的力量,另外是传感方面,目前的触觉是局部覆盖,未来会逐渐往全身覆盖发展。
硬件之后就是模型和数据。为了追求Scaling Law,Sharpa准备采用一种“分而治之”的分层式预训练方法。我们会把数据分成几块,用特定类型的数据去预训练特定的一层。这样能比较高效地解决数据获取的问题。
比如在未来的一到两年内,通过仿真合成出来的数据,可以用来专门预训练代表“手感”和手部动态响应的那一层;而人类的高精度动捕数据(类似NVIDIA近期的EgoScale工作),则更适合用来预训练我们叫作System 1(Sharpa 的分层模型架构,包含三个系统,这里指视觉运动大脑)。这样分而治之,积累数据进行预训练,验证能否产生泛化,最后再用真机的数据进行端到端的调优。
Juana: 我还有一个观察。今天大家在探索的模型,无论是灵巧操作还是全身运控,其实都在走一条类似的、不断走向通用的道路。
以运控为例,NVIDIA最近发布了一项名为SONIC的研究,做的就是运控层面Scaling的工作。我们认为,灵巧操作也会走出一条类似的道路:从单一任务到多种任务的学习,最终形成一个非常好的通用策略。
Nixon: 简单理解SONIC,就是把数据集、计算量和网络规模都大幅提升。提升之后你会发现它的泛化能力极强:以前教机器人动作需要复杂的动捕设备,但现在,你丢一段视频给它,它能学;你用追踪点很少的低端动捕,它能学;甚至你纯粹给一段文字描述,它也能把那个动作给你仿真出来。
朱雪洲: 你只需要给它一段粗粒度的动作意图,它就可以用自己的底层运控系统把复杂的动作执行好。
第三部分:硬件-直驱 vs 腱绳,两种仿生思路
朱雪洲:灵巧手驱动方式大体有直驱和绳驱两类。直驱是把驱动电机放在手掌内部。Sharpa当前是直驱方案,把20多个自由度的电机、减速器做得尽可能小,全部集成到手部内部。这带来的好处是,客户买到手之后不需要捆绑特定的手臂,怎么接都比较灵活。特斯拉用的绳驱则是把大部分电机放在小臂位置,通过腱绳拉动相应的关节,这会占用整个小臂的空间。
单纯从第一性仿生学原理来说,全绳驱也不是绝对的仿生,其实有不少小肌肉是在人手内的。如果把它们全部连到外部,一是不仿生,另外构成了一个极度复杂的系统。为了做到自由度之间不耦合,需要构造差分运动结构,一堆腱绳占满了所有空间。任何一根腱绳出了问题,维修时要把整个手破开来换里面的一根筋,这是比较噩梦的。所以真的往后走,仿生的角度应该是有一些小肌肉放在手内完成精细动作,需要力量的时候靠小臂的大肌肉去腱绳驱动。
朱雪洲:Sharpa可能是第一个把那么多自由度全部集成到手内的产品。我们外形尺寸跟人手做到1:1,并没有妥协把手放大一圈。这逼着我们把手内部排得非常紧凑。为什么要保持1:1?因为人进化的构型蕴含了底层的道理,人的重要特征是灵巧操作使用工具。另一个核心原因是好采数据。跟人统一构型,人就可以戴触觉手套或做高精度动捕来帮机器人采集数据,把人的操作经验直接迁移到机器人身上。如果是六指,就没有办法采集相关数据了。
Juana:在仿真解决方案上,NVIDIA既支持Sharpa这种全直驱的手,也支持复杂的绳驱并联机械结构。在仿真里做数据采集有巨大的好处。除了成本低,在仿真里可以方便地拿到Ground Truth,即精确的3D位姿和物体分割信息。而且当你调整了真实机器人的硬件结构,比如加了一路摄像头,真实世界里重新标注成本极高,但在仿真里可以极小成本做结构代替,非常容易Scale。这包括场景变化、光线变化、物体和任务的变化。在自动驾驶中,合成数据还能生成危险天气等Corner Case。(下图是Sharpa在NVIDIA Isaac Sim中构建机器人灵巧手数字孪生,最大程度缩小仿真到现实迁移(Sim2Real)差距,来自Sharpa的GTC展示)
第四部分:模型架构-CraftNet,首个“三分层”实践
Nixon:Sharpa的CraftNet模型。这是一个分为System 0、1、2的三层模型,这种架构是怎么运作的?
朱雪洲:对,我们可以用做番茄炒蛋来解释。System 2是一个语言意识推理类模型,运行频率在1Hz左右。System 1是一个基于视觉控制粗动作轨迹的模型,频率约10Hz。System 0是一个代表手感、做接触动态响应的模型,频率在100Hz左右。
我要做番茄炒蛋,第一步在意识层面想到去冰箱里看有没有鸡蛋,这就是System 2做的工作,它把任务拆分为子任务。子任务给到System 1,视觉需要看冰箱在哪里,引导手伸过去打开冰箱门,看到鸡蛋在什么位置,引导手伸过去。一旦手接触上鸡蛋抓到了,这个时候就没有必要视觉上一直盯着看了。触觉和本体觉已经Take over,它接管了后续的动作,抓着鸡蛋走到厨房案板上进行下一步操作。这就是纯触觉模型System 0的工作。
托马斯白:所以System 0是一个非常小、响应极快的纯触觉模型,没有视觉模态进去。
朱雪洲:如果把视觉模态直接给到System 0,会把整个响应速度降下来。但它会接收到视觉浓缩后的物理意图,比如操作的方位、物体姿态的调整、力度的控制,这些压缩后的隐变量会给到System 0。System 0体量只有0.1B,推理运行非常快,能在10毫秒内完成响应,这和人体触觉传导到大脑的时间量级是一致的,非常适合盘核桃或转书这种高动态、需要实时调整的动作。
第五部分:数据金字塔与仿真训练
Juana: 数据金字塔是为了解决具身智能的数据获取痛点。它分为三层:
最顶层是真机数据。数量极少、收集成本极其昂贵,但与真实世界的差异(Gap)极小。
中层是合成数据。包含物理引擎(如Newton)跑出的仿真数据,以及世界模型(如Cosmos)生成的视频和动作数据。它有一定的生成成本,但比起底层Gap更小。
最底层是海量的互联网视频资源。成本最低,可用爬虫获取,但视角和场景差异巨大。它只能给模型提供通用的物理规律理解能力,很难直接用来训练机器人策略。
我们最终的协作逻辑是:用底层的海量数据做基础理解,用中层仿真搭建的“数字孪生”大幅缩小Sim-to-Real(仿真到现实)的Gap,最后用顶层极少量的真机数据,去高效弥合最后一道鸿沟。
朱雪洲: 落实到Sharpa的CraftNet模型上,这三层数据各有明确用途。
底层海量的第一人称(Egocentric)视频数据,用于预训练System 1(视觉主导层),让它理解图像和人类操作规律。System 2(语言推理层)则直接调用今天已经成熟的开源大语言模型。
中层的仿真数据,我们主要用来预训练System 0,专门提取接触动力学和手感规律。
最后,极其宝贵的顶层真机数据,主要用于把System 1和System 0“级联”(端到端调优)在一起,对齐两块的表征。
如果我们训练出了一个带有基础手感的System 0,它不仅能反哺真机数据采集,还能直接实现高质量的异地遥操。千里之外的人只需给一个粗略的动作意图(比如比划一个“抓紧”的手势),远端的机器手就会非常“跟手”,自己根据触觉反馈选择合适的力度去抓取物体。
Nixon: 这种场景对维护油田、重型能源等精密设备的行业专家非常有效,彻底免去了飞来飞去的折腾。
Juana:在这类数据的建设上,物理引擎的仿真大家相对好理解;此外行业用的比较多的还有我们Cosmos,目前有三类核心模型:
第一类是Cosmos Transfer。输入一段视频,搭配Prompt(提示词)以及深度或分割等物理信息,它能改变视频材质和光线。由于加入了深度信息,它能最大程度减少幻觉,保证动作过程完全一致。
Nixon: 比如训练厨房任务,用它分别生成春夏秋冬不同角度和色温的阳光。机器人实机部署时就不会因为光线变化而错误识别。
Juana: 没错。第二类是Cosmos Predict。给一帧图片加Prompt,它能预测未来会发生什么。
托马斯白: 这种预测在自动驾驶里很有用。比如在一个路口,直接预测接下来其他车辆的不同驾驶方式。
Juana: 是的,它非常适合用来生成恶劣天气、车行道、行人等极难收集的Corner Case。
第三类是Cosmos Reason。它扮演VLM(视觉语言模型)的角色,不生成视频,而是专门用于数据处理提效。给它一段操作视频,通过Prompt问“做了几步操作”或“任务有没有成功”,它能直接推理出结论,完美实现大规模训练数据的自动打标。
第六部分:Scaling Law的曙光:世界模型 vs VLA
Nixon:关于第一人称视频数据,NVIDIA近期发布了极受关注的EgoScale论文。它用2万小时的第一人称人类视频训练了一个GR00T模型,在多项灵巧任务上实现了54%的性能提升。最震撼的是它展现出了近对数关系的Scaling Law规律,而且还没撞墙。
Juana:是的,EgoScale用几千小时到两万多小时的数据做对比,发现成功率和模型Loss呈现接近对数关系的曲线。在这个曲线上它还没有达到瓶颈,如果数据拓展更多,就会有更高的收敛效果和成功率。
朱雪洲:目前视觉的主干网络(Backbone)缺乏将3D空间转换迁移的能力,主要是基于平面图像理解。人类有很好的3D表征能力,能理解第三人称视角,但机器不行。所以第一人称视角(Egocentric)的数据和机器人干活时的视角直接对应上了,是最便于它理解的。
Nixon:EgoScale是VLA模型,而另一篇同样用4万小时第一人称视频的DreamDojo走的是世界模型路线,蒸馏到机器人后能做连续一分钟的长程任务。世界模型和VLA到底有什么区别?
朱雪洲:在我们的认知中,System 1最终要发展为一个世界模型。世界模型必须知道物理世界未来状态的演变,理解你的操作动作和世界演变的因果规律。它不一定要生成像素级别的视频,更可能是一种抽象的状态动作空间的演变。比如你挤压一个物体它的形态怎么变化,把A装到B它们的关系怎么变化,这就是底层的物理因果律。
朱雪洲:而今天单纯的VLA模型(视觉+语言直接输出动作),有点像把语言和视觉的Backbone连在一起让它模仿专家动作,但它内部没有真正掌握3D空间和物理世界演化的规律。所以今天的VLA有点形似,但在灵魂层面还没有真正理解世界。一个更好的VLA,本质上就是一个包含了世界模型的VLA。
Juana:我们现在提到VLA,可能把它的定义有点偏狭窄化了,VLA最早出来时大家用VLM(偏向视频理解不输出动作)作为Backbone,再加Action模块。NVIDIA的GR00T系列从1.0到1.7也是这个思路在做迭代。而近期有一个论文DreamDojo探究的是,机器人完成动作是否一定要有自然语言的推理介入?能不能像人一样,手伸过去脑海里就浮现出杯子被拿起来的未来画面?这是用生成模型预测未来帧来辅助动作生成的尝试。
第七部分:算力、商业化,机器人能“知轻重”的未来
Nixon:前面提到的触觉和各类仿真应用,在算力和工具链上近期还有哪些重要的方向吗?
Juana:端侧具身智能需要处理多模态信息,且要求极低延迟。我们近期迭代了端侧计算机Jetson Thor,用了Blackwell架构,一个核心亮点是硬件分割。上一代可能需要双Orin,一块GPU做这个,一块做那个。而Thor从硬件层面上把一块大GPU分成安全隔离的小块,满足了这种复杂分层多任务的并行计算。
在仿真层面,Newton引擎对柔性物体的仿真带来了质的飞跃。传统CPU仿真处理刚体(如手机)很简单,但处理衣服褶皱、液体流动、沙地行走,计算量极其庞大。Newton被称为GPU加速版的Mujoco,最大化利用了并行计算能力,迪士尼机器人在沙地上行走的背后就是它的功劳。
Nixon:节目尾声也讲讲商业化。Sharpa灵巧手具备22个自由度和密集触觉,售价在万美元级别。对于买家来说,这个ROI怎么衡量?
朱雪洲:其实从 day one 开始,我们就是一家机器人的公司,目标是解决通用灵巧操作的问题。我们做灵巧手的初衷就是因为它是行业最大的卡点。对于硬件,第一步就是先把产品形态做对。保持高自由度、触觉传感和1:1的比例,决定了这只手能不能解决通用灵巧操作的问题,能不能在市场上存活。第一阶段的客户是研究机构用于采数据和验证场景,价格相对高。当找到好的落地应用场景开始起量时,成本和售价自然会经历阶梯式的递减。
托马斯白:最后上个价值。中国古代说人成熟需要知轻重、知缓急、知进退、知取舍。放到具身智能领域简直完美对应。知轻重,就是System 0的触觉感知,知道下手的力度分寸;知缓急,就是100Hz触觉与1Hz推理系统的快慢协同分配;知进退,是躯干在复杂物理世界中的运动边界;知取舍,就是过滤海量视觉噪音的注意力机制。
本文是这期播客的文字版,在不改变原意的前提下进行编译,也欢迎收听音频版本,获取更多信息
成为付费用户可以阅读 Sharpa 所有资料
了解更多 →