和NVIDIA、Sharpa谈灵巧手：从削苹果到Scaling Law，机器人离“有手感”还有多远？_腾讯新闻

本文从Sharpa近期的灵巧手Demo讲起，无论是CES上翻扑克牌、折风车，还是在春晚盘核桃，在GTC大会期间削苹果，这些Demo代表灵巧手第一次展示了够胜任精细的以及长步骤任务，这是具身智能在灵巧操作上的里程碑时刻。

首先探讨了灵巧手在硬件上的不同路线，包括直驱代表的Sharpa Wave，腱绳方案代表的特斯拉 Optimus，代表了两种“第一性原理”。

在这次对话中，我们梳理了具身智能行业正在发生的几个关键趋势。NVIDIA、Google DeepMind、Disney Research 联合开发的Newton物理引擎和NVIDIA Cosmos带来的合成数据与虚拟世界仿真；从EgoScale论文中看到的两万小时第一视角数据带来的Scaling Law迹象；具备视频预测能力的世界模型，如DreamDojo实现了一分钟的长程任务；还有SONIC同样展现了运动控制领域Scaling Law的曙光。

我们能发现这些趋势落地到实践中，还有更多亮点：模型架构上，剖析了Sharpa的CraftNet三层系统，从System 2的语言意识层，到System 1的视觉动作层，再到System 0的触觉手感层，以及世界模型、VLA的路线之争，最后讨论了NVIDIA三台计算机（训练—仿真—推理），展望触觉作为新模态、分层预训练推动灵巧操作走向通用泛化潜力。

本文是这期播客的文字版，在不改变原意的前提下进行编译，也欢迎收听音频版本，获取更多信息

第一部分：从盘核桃到削苹果，这些Demo到底有多难？

Nixon：Sharpa的demo最近开始刷屏。我们在CES上第一次看到，在无保护的前提下离观众很近，机器人的灵巧手可以一张一张翻扑克牌，可以把纸折成风车，甚至打乒乓球。之后春晚盘核桃，GTC上削苹果、转网球，还有把显卡装到机箱里。这些动作在行业里算什么水准？

朱雪洲：我们可以把操作动作的难度分一个基本的层级。最基础的一类，是把一个物体从A点搬移到B点，改变它的空间位置。比如抓起一个物体放到货架上。进阶一些的难度，涉及到让两个物体发生精确配合。比如插USB、把显卡插进主板，或者发牌。这需要精准对位，把两个独立物体组装成一个整体。再进阶的难度，涉及到改变物体的形态。比如折风车，一开始是平的纸，通过动作改变它的拓扑结构。削苹果更难，因为要把果皮和果肉分离开，而且苹果是柔软的柔性体。

托马斯白：所以叠衣服也属于第三个级别。第一类任务可能有夹爪就能实现，给一个统一的力把垃圾夹起来就可以。但涉及到显卡插主板，对力和精细度的要求就上了一个台阶。

朱雪洲：这里有一个反直觉的地方。通常我们讲人工智能，对于人来说简单的事情，对于机器反而是难的。对于人难的事情，比如下围棋这种有确定规则的，对机器反而是简单的。生物在漫长的进化过程中，DNA里携带了预训练的模型，对于力学、维持身体平衡是预训练过的。但对于机器人来说得完全从零做起，收集数据、把模型搞对，走一条漫长的路才能具备这些能力。

Juana：我到现场看的感受，第一是部署到实际场景后的鲁棒性。有很多观众去互动干扰它，它在叠风车或者操作的中间步骤被干扰后，依然可以进行后续工作的完成，成功率非常高。第二点比较惊艳的是它展示的能力都是长程任务。拿一个东西放到一个地方属于短任务或者原子操作，但Sharpa展示的是需要很多复杂步骤串联起来，最终还能保持极高成功率的能力。

朱雪洲：像我们内部调试展会的动作，需要它做到90%以上的成功率才会放上去演示。我们做过实验，如果把触觉的信息去除掉，动作的成功率会明显下降，可能会从90%掉到20%以内的程度。

Nixon：消费者目前接触比较多的是机器人的全身控制应用，比如看机器人跳舞。我很好奇，行业发展到了什么阶段、出现了什么样的真实需求，让大家开始觉得必须要用到灵巧手了？

Juana：一个很直观的数据是自由度。以Sharpa为例，单只手就有22个自由度。而我们通常处理一个普通的人形机器人，如果不加手的话，全身的自由度整体也就只有10到30个左右（以宇树的G1为例，它全身是23个自由度）。如果我们考虑带上双手的全自由度操作，整体自由度会非常巨大。当我们在仿真环境里做强化学习任务时，自由度一旦上去，机器人面临的探索空间会非常大。

朱雪洲：如果只是做一些偏自动化属性的动作，比如把货物取下来放到柜台上，这种相对简洁的基础搬运动作，传统的夹爪是够用的。但一旦你需要这个机器人真正去承担好一个岗位角色、处理好一个真实的物理场景，手就必须具备通用性。盘点一个场景的全部职责，一定会超出夹爪的范畴。而且为人设计的各种环境和工具，不一定都是夹爪能搞定的。你想拿一个吸尘器，首先要握持住手柄，还要用另外的手指去扣动扳机。电动工具也是这样。你想拿刀去切东西，夹爪夹住刀是两点受力，刀是不稳定的。人要用好刀，要握持，甚至拿一个手指抵住刀背发力。所以单一环节夹爪OK，但真要落地，自由度少会遇到种种问题。特斯拉也是想做一个通用性机器人，工厂只是他找到的比较顺滑的第一步落地场景。

托马斯白：夹爪还有一个反直觉的事情。因为自由度少，它拿起一个杯子可能只有一两个姿势行得通，导致它在训练过程中反而更难找到对的拿取方式。为了省事搞一个自由度少的夹爪，在模型训练走到中后期，你会发现很多场景不适配，经常失败，最后还是得从头来过。

第二部分：从OpenAI单手解魔方，看当下的行业痛点

Nixon：灵巧操作行业其实在18年左右就有过不错的 demo。OpenAI当时用灵巧手单手解魔方，证明了强化学习在这个事情上是可行的。但为什么行业一直到2025年才开始井喷？过去这几年产业化的痛点在哪里？

朱雪洲：OpenAI在18年用Shadow Hand解魔方，重要意义在于证明了多自由度灵巧手通过强化学习能完成复杂任务。但它有点像一个为了论证而设计的实验。在传感上，它架了多个摄像头去拍摄动捕信息，这跟真实场景有出入。而且它主要靠高精度视觉动捕，没有使用触觉去完成动作。

Juana：在GPT爆发的时候我们发现了Scaling Law能够work，很多机器人行业者开始思考这个规律能不能在Physical AI落地上也有同样的作用。当我们在谈Scale的时候，在机器人领域往往是多个不同角度的Scale，包括任务的Scale、数据的Scale、模型Size的Scale、计算规模的Scale。

在这个思路下，我们提供了三台计算机来解决不同的痛点。第一台是NVIDIA DGX平台，针对大模型训练。第二台是NVIDIA OVX平台，提供仿真能力，可以在里面做仿真微调、策略评估，生成大量合成数据解决数据问题，包含新推出的Newton仿真引擎。第三台是NVIDIA Jetson平台，针对端侧部署加速模型推理。即便如此，在落地过程中最难的挑战依然是数据问题，大家都在不同方向上探索如何收集足够的数据。

朱雪洲：痛点从硬件讲起，现在行业已经出来第一代硬件可以探索落地了，未来两到三年或三到五年会有进一步演进。比如电机减速器的迭代，最终达到或超过人手的功率密度。今天人能用两个手指做俯卧撑，但机器人还整不了这个。当然第一波落地应用场景也用不到这么大的力量，另外是传感方面，目前的触觉是局部覆盖，未来会逐渐往全身覆盖发展。

硬件之后就是模型和数据。为了追求Scaling Law，Sharpa准备采用一种“分而治之”的分层式预训练方法。我们会把数据分成几块，用特定类型的数据去预训练特定的一层。这样能比较高效地解决数据获取的问题。

比如在未来的一到两年内，通过仿真合成出来的数据，可以用来专门预训练代表“手感”和手部动态响应的那一层；而人类的高精度动捕数据（类似NVIDIA近期的EgoScale工作），则更适合用来预训练我们叫作System 1（Sharpa 的分层模型架构，包含三个系统，这里指视觉运动大脑）。这样分而治之，积累数据进行预训练，验证能否产生泛化，最后再用真机的数据进行端到端的调优。

Juana：我还有一个观察。今天大家在探索的模型，无论是灵巧操作还是全身运控，其实都在走一条类似的、不断走向通用的道路。

以运控为例，NVIDIA最近发布了一项名为SONIC的研究，做的就是运控层面Scaling的工作。我们认为，灵巧操作也会走出一条类似的道路：从单一任务到多种任务的学习，最终形成一个非常好的通用策略。

Nixon：简单理解SONIC，就是把数据集、计算量和网络规模都大幅提升。提升之后你会发现它的泛化能力极强：以前教机器人动作需要复杂的动捕设备，但现在，你丢一段视频给它，它能学；你用追踪点很少的低端动捕，它能学；甚至你纯粹给一段文字描述，它也能把那个动作给你仿真出来。

朱雪洲：你只需要给它一段粗粒度的动作意图，它就可以用自己的底层运控系统把复杂的动作执行好。

第三部分：硬件-直驱 vs 腱绳，两种仿生思路

朱雪洲：灵巧手驱动方式大体有直驱和绳驱两类。直驱是把驱动电机放在手掌内部。Sharpa当前是直驱方案，把20多个自由度的电机、减速器做得尽可能小，全部集成到手部内部。这带来的好处是，客户买到手之后不需要捆绑特定的手臂，怎么接都比较灵活。特斯拉用的绳驱则是把大部分电机放在小臂位置，通过腱绳拉动相应的关节，这会占用整个小臂的空间。

单纯从第一性仿生学原理来说，全绳驱也不是绝对的仿生，其实有不少小肌肉是在人手内的。如果把它们全部连到外部，一是不仿生，另外构成了一个极度复杂的系统。为了做到自由度之间不耦合，需要构造差分运动结构，一堆腱绳占满了所有空间。任何一根腱绳出了问题，维修时要把整个手破开来换里面的一根筋，这是比较噩梦的。所以真的往后走，仿生的角度应该是有一些小肌肉放在手内完成精细动作，需要力量的时候靠小臂的大肌肉去腱绳驱动。

朱雪洲：Sharpa可能是第一个把那么多自由度全部集成到手内的产品。我们外形尺寸跟人手做到1:1，并没有妥协把手放大一圈。这逼着我们把手内部排得非常紧凑。为什么要保持1:1？因为人进化的构型蕴含了底层的道理，人的重要特征是灵巧操作使用工具。另一个核心原因是好采数据。跟人统一构型，人就可以戴触觉手套或做高精度动捕来帮机器人采集数据，把人的操作经验直接迁移到机器人身上。如果是六指，就没有办法采集相关数据了。

Juana：在仿真解决方案上，NVIDIA既支持Sharpa这种全直驱的手，也支持复杂的绳驱并联机械结构。在仿真里做数据采集有巨大的好处。除了成本低，在仿真里可以方便地拿到Ground Truth，即精确的3D位姿和物体分割信息。而且当你调整了真实机器人的硬件结构，比如加了一路摄像头，真实世界里重新标注成本极高，但在仿真里可以极小成本做结构代替，非常容易Scale。这包括场景变化、光线变化、物体和任务的变化。在自动驾驶中，合成数据还能生成危险天气等Corner Case。（下图是Sharpa在NVIDIA Isaac Sim中构建机器人灵巧手数字孪生，最大程度缩小仿真到现实迁移（Sim2Real）差距，来自Sharpa的GTC展示）

第四部分：模型架构-CraftNet，首个“三分层”实践

Nixon：Sharpa的CraftNet模型。这是一个分为System 0、1、2的三层模型，这种架构是怎么运作的？

朱雪洲：对，我们可以用做番茄炒蛋来解释。System 2是一个语言意识推理类模型，运行频率在1Hz左右。System 1是一个基于视觉控制粗动作轨迹的模型，频率约10Hz。System 0是一个代表手感、做接触动态响应的模型，频率在100Hz左右。

我要做番茄炒蛋，第一步在意识层面想到去冰箱里看有没有鸡蛋，这就是System 2做的工作，它把任务拆分为子任务。子任务给到System 1，视觉需要看冰箱在哪里，引导手伸过去打开冰箱门，看到鸡蛋在什么位置，引导手伸过去。一旦手接触上鸡蛋抓到了，这个时候就没有必要视觉上一直盯着看了。触觉和本体觉已经Take over，它接管了后续的动作，抓着鸡蛋走到厨房案板上进行下一步操作。这就是纯触觉模型System 0的工作。

托马斯白：所以System 0是一个非常小、响应极快的纯触觉模型，没有视觉模态进去。

朱雪洲：如果把视觉模态直接给到System 0，会把整个响应速度降下来。但它会接收到视觉浓缩后的物理意图，比如操作的方位、物体姿态的调整、力度的控制，这些压缩后的隐变量会给到System 0。System 0体量只有0.1B，推理运行非常快，能在10毫秒内完成响应，这和人体触觉传导到大脑的时间量级是一致的，非常适合盘核桃或转书这种高动态、需要实时调整的动作。

第五部分：数据金字塔与仿真训练

Juana：数据金字塔是为了解决具身智能的数据获取痛点。它分为三层：

最顶层是真机数据。数量极少、收集成本极其昂贵，但与真实世界的差异（Gap）极小。

中层是合成数据。包含物理引擎（如Newton）跑出的仿真数据，以及世界模型（如Cosmos）生成的视频和动作数据。它有一定的生成成本，但比起底层Gap更小。

最底层是海量的互联网视频资源。成本最低，可用爬虫获取，但视角和场景差异巨大。它只能给模型提供通用的物理规律理解能力，很难直接用来训练机器人策略。

我们最终的协作逻辑是：用底层的海量数据做基础理解，用中层仿真搭建的“数字孪生”大幅缩小Sim-to-Real（仿真到现实）的Gap，最后用顶层极少量的真机数据，去高效弥合最后一道鸿沟。

朱雪洲：落实到Sharpa的CraftNet模型上，这三层数据各有明确用途。

底层海量的第一人称（Egocentric）视频数据，用于预训练System 1（视觉主导层），让它理解图像和人类操作规律。System 2（语言推理层）则直接调用今天已经成熟的开源大语言模型。

中层的仿真数据，我们主要用来预训练System 0，专门提取接触动力学和手感规律。

最后，极其宝贵的顶层真机数据，主要用于把System 1和System 0“级联”（端到端调优）在一起，对齐两块的表征。

如果我们训练出了一个带有基础手感的System 0，它不仅能反哺真机数据采集，还能直接实现高质量的异地遥操。千里之外的人只需给一个粗略的动作意图（比如比划一个“抓紧”的手势），远端的机器手就会非常“跟手”，自己根据触觉反馈选择合适的力度去抓取物体。

Nixon：这种场景对维护油田、重型能源等精密设备的行业专家非常有效，彻底免去了飞来飞去的折腾。

Juana：在这类数据的建设上，物理引擎的仿真大家相对好理解；此外行业用的比较多的还有我们Cosmos，目前有三类核心模型：

第一类是Cosmos Transfer。输入一段视频，搭配Prompt（提示词）以及深度或分割等物理信息，它能改变视频材质和光线。由于加入了深度信息，它能最大程度减少幻觉，保证动作过程完全一致。

Nixon：比如训练厨房任务，用它分别生成春夏秋冬不同角度和色温的阳光。机器人实机部署时就不会因为光线变化而错误识别。

Juana：没错。第二类是Cosmos Predict。给一帧图片加Prompt，它能预测未来会发生什么。

托马斯白：这种预测在自动驾驶里很有用。比如在一个路口，直接预测接下来其他车辆的不同驾驶方式。

Juana：是的，它非常适合用来生成恶劣天气、车行道、行人等极难收集的Corner Case。

第三类是Cosmos Reason。它扮演VLM（视觉语言模型）的角色，不生成视频，而是专门用于数据处理提效。给它一段操作视频，通过Prompt问“做了几步操作”或“任务有没有成功”，它能直接推理出结论，完美实现大规模训练数据的自动打标。

第六部分：Scaling Law的曙光：世界模型 vs VLA

Nixon：关于第一人称视频数据，NVIDIA近期发布了极受关注的EgoScale论文。它用2万小时的第一人称人类视频训练了一个GR00T模型，在多项灵巧任务上实现了54%的性能提升。最震撼的是它展现出了近对数关系的Scaling Law规律，而且还没撞墙。

Juana：是的，EgoScale用几千小时到两万多小时的数据做对比，发现成功率和模型Loss呈现接近对数关系的曲线。在这个曲线上它还没有达到瓶颈，如果数据拓展更多，就会有更高的收敛效果和成功率。

朱雪洲：目前视觉的主干网络（Backbone）缺乏将3D空间转换迁移的能力，主要是基于平面图像理解。人类有很好的3D表征能力，能理解第三人称视角，但机器不行。所以第一人称视角（Egocentric）的数据和机器人干活时的视角直接对应上了，是最便于它理解的。

Nixon：EgoScale是VLA模型，而另一篇同样用4万小时第一人称视频的DreamDojo走的是世界模型路线，蒸馏到机器人后能做连续一分钟的长程任务。世界模型和VLA到底有什么区别？

朱雪洲：在我们的认知中，System 1最终要发展为一个世界模型。世界模型必须知道物理世界未来状态的演变，理解你的操作动作和世界演变的因果规律。它不一定要生成像素级别的视频，更可能是一种抽象的状态动作空间的演变。比如你挤压一个物体它的形态怎么变化，把A装到B它们的关系怎么变化，这就是底层的物理因果律。

朱雪洲：而今天单纯的VLA模型（视觉+语言直接输出动作），有点像把语言和视觉的Backbone连在一起让它模仿专家动作，但它内部没有真正掌握3D空间和物理世界演化的规律。所以今天的VLA有点形似，但在灵魂层面还没有真正理解世界。一个更好的VLA，本质上就是一个包含了世界模型的VLA。

Juana：我们现在提到VLA，可能把它的定义有点偏狭窄化了，VLA最早出来时大家用VLM（偏向视频理解不输出动作）作为Backbone，再加Action模块。NVIDIA的GR00T系列从1.0到1.7也是这个思路在做迭代。而近期有一个论文DreamDojo探究的是，机器人完成动作是否一定要有自然语言的推理介入？能不能像人一样，手伸过去脑海里就浮现出杯子被拿起来的未来画面？这是用生成模型预测未来帧来辅助动作生成的尝试。

第七部分：算力、商业化，机器人能“知轻重”的未来

Nixon：前面提到的触觉和各类仿真应用，在算力和工具链上近期还有哪些重要的方向吗？

Juana：端侧具身智能需要处理多模态信息，且要求极低延迟。我们近期迭代了端侧计算机Jetson Thor，用了Blackwell架构，一个核心亮点是硬件分割。上一代可能需要双Orin，一块GPU做这个，一块做那个。而Thor从硬件层面上把一块大GPU分成安全隔离的小块，满足了这种复杂分层多任务的并行计算。

在仿真层面，Newton引擎对柔性物体的仿真带来了质的飞跃。传统CPU仿真处理刚体（如手机）很简单，但处理衣服褶皱、液体流动、沙地行走，计算量极其庞大。Newton被称为GPU加速版的Mujoco，最大化利用了并行计算能力，迪士尼机器人在沙地上行走的背后就是它的功劳。

Nixon：节目尾声也讲讲商业化。Sharpa灵巧手具备22个自由度和密集触觉，售价在万美元级别。对于买家来说，这个ROI怎么衡量？

朱雪洲：其实从 day one 开始，我们就是一家机器人的公司，目标是解决通用灵巧操作的问题。我们做灵巧手的初衷就是因为它是行业最大的卡点。对于硬件，第一步就是先把产品形态做对。保持高自由度、触觉传感和1:1的比例，决定了这只手能不能解决通用灵巧操作的问题，能不能在市场上存活。第一阶段的客户是研究机构用于采数据和验证场景，价格相对高。当找到好的落地应用场景开始起量时，成本和售价自然会经历阶梯式的递减。

托马斯白：最后上个价值。中国古代说人成熟需要知轻重、知缓急、知进退、知取舍。放到具身智能领域简直完美对应。知轻重，就是System 0的触觉感知，知道下手的力度分寸；知缓急，就是100Hz触觉与1Hz推理系统的快慢协同分配；知进退，是躯干在复杂物理世界中的运动边界；知取舍，就是过滤海量视觉噪音的注意力机制。