狙击Figure ，灵初智能团队研发分层VLA模型，数据利用率高250倍

不久前，美国人形机器人公司 Figure 提出能让机器人「抓取万物」的 Helix 模型，一时间引发轰动。

事实上，几乎同一时间，中国灵初智能团队提出了 DexGraspVLA 模型，该模型达到了在零样本真实环境中对上千种未见物体、光照和背景组合实现超过 90% 的抓取成功率，但训练数据仅为 Helix 的 0.4%。

这家成立不到半年的初创公司，近日连续刊发四篇高质量论文，将团队在取物能力泛化、利用外部环境配合抓取、堆叠场景高速检索以及 VLA 安全对齐等方向的成果公开。这意味着国内在具身智能领域的强大实力。

为什么机器人抓东西总像「手残党」？

在机器人领域，灵巧抓取是一个基础但极具挑战性的问题。

基础在于灵巧抓取能力是机器人通用性的一项重要指标，绕不开。而极具挑战性则在于，抓取能力能否泛化，要做到像人类一样能够在各种复杂场景中抓取不同物体，是业内头疼的问题。泛化能力受限，机器人便很难称得上「多面手」。

想象一下，让机器人抓取一个光滑的玻璃杯、松软的毛绒玩具，或者形状不规则的螺丝刀——这看似简单的任务，对机器人来说却堪比「地狱级挑战」。现有技术常面临三大难题：

场景单一：传统方法只能在固定光照、固定背景、固定物体下照本宣科，一旦遇到新环境就「傻眼」；

依赖人工预设：需要工程师提前标注物体形状、材质参数，就像让机器人「背答案考试」；

动作僵硬：机械手往往只能做「张」「握」等固定动作，难以像人类手指灵活调整力度和角度。

可以想象，当机器人抓鸡蛋时，可能因为预设力度过大直接捏碎，或者因光线变化误判鸡蛋位置，空手而归。

正因这种抓取能力因环境改变而出现的极大不稳定，研究团队试图研究一种能够将抓取能力泛化到不同场景的技术架构。

DexGraspVLA ：以「域不变」应「场景万变」

这篇论文，提出了一种助力机器人多场景灵巧抓取物体的技术框架——DexGraspVLA。DexGraspVLA是一个用于灵巧手抓取的 VLA（Vision-Language-Action）分层框架，它由一个基于视觉语言模型（VLM）的高层规划器和一个基于扩散模型的低层控制器组成，旨在通过少量训练，使灵巧手拥有在多变环境中的可靠抓取能力。其中：

高层规划器（High-level Planner）：由预训练的大型视觉语言模型（VLM）实现，可理解多样化指令、自主决定抓取策略。

低层控制器（Low-level Controller）：由扩散策略通过实时视觉反馈，闭环抓取目标物体。

整个框架的核心在于将多样化的图像输入数据通过现有的 Foundation Model 转换成域不变（Domain-invariance）的表征，并端到端地训练下层控制模型。

域不变性（Domain-Invariance）指模型在不同数据分布（即不同“域”）中仍能保持稳定性能的能力。

DexGraspVLA 能够将感知上多样的原始输入转换为域不变的表征，即使在视觉上差异巨大的环境中（如白色桌子、校准板、桌布和迪斯科灯光下的桌布），DINOv2 提取的特征、Cutie 跟踪的物体掩码以及 DiT 的注意力图都保持高度一致。

由于 DexGraspVLA 将原始输入转换为域不变表示，域偏移问题得到缓解，进而可以较好地应用模仿学习，对从表示到动作分布的映射进行建模，完成机器训练。该框架具体工作流程如下：

首先，高层规划器采用预训练的视觉语言模型「Qwen2.5-VL」来对用户指令进行推理。例如，「清理桌子」。当指令涉及多个物体时，规划器会将其分解为单独的指令，如「抓取饼干」，并通过在头部摄像头视图中提供一个边界框来定位目标物体。通过使用边界框，规划器确保了与控制器之间的域不变性（Domain-invariance）通信，无论语言或视觉输入如何变化。

而后，低层控制器接收边界框并执行实际的抓取操作。它首先利用两个分割模型，即通过 SAM（Segment Anything Model，分割一切模型）来获取目标物体的初始掩码，以及 Cutie 模型来持续跟踪掩码。接下来，两个固定的 DINOv2 特征提取器对来自头部和腕部摄像头的视觉信息进行编码，同时一个可训练的视觉 Transformer 处理跟踪到的物体掩码，以生成丰富的语义表示。这些表示在相对意义上是域不变的，从而促进了基于扩散模型的策略的学习过程。

紧接着，结合机器人的本体感受状态，这些信息通过多个多层感知器（MLP）模块投影到一个统一的特征空间中。然后通过一个扩散 Transformer 从这些组合特征中预测多步动作。与此同时，通过迭代去噪过程，它优化潜在动作标记以生成准确的运动规划。值得注意的是，在系统推断出一组新的动作之前，仅执行每个预测序列的第一个子集，以确保实时适应性。

在执行过程中，高层规划器以大约 1 赫兹的频率监控进展情况。如果抓取成功，它会触发一个预设的放置动作，将物体放入袋子中，并重置机器人。如果抓取失败，它会使用更新的信息重新初始化该过程。这个循环会一直持续，直到用户指令完成为止。

通过大型基础模型将各种输入转换为域不变的表征，DexGrasp VLA 成功地减轻了域迁移问题，并能够泛化到各种未见过的场景中。其高层推理与基于扩散模型的控制的协同作用，为长时程的灵巧抓取提供了一个强大且适应性强的解决方案。

机器人训练领域的 DeepSeek 时刻

从训练效率来看，该研究团队为了训练灵巧抓取策略，手动收集了 2,094 个在杂乱场景中抓取的成功片段（约 2 小时，2,094x3.5s）。数据集涉及 36 种家用物体，涵盖广泛的尺寸、重量、几何形状、纹理、材料和类别。每个片段记录了每个时间步的原始相机图像、机器人本体感知、物体掩码和动作。

而此前人形机器人初创公司 Figure 在训练 Helix 这款 VLA 模型时，用到了 500 小时的高质量监督数据。这样比较，DexGraspVLA 的数据利用率是 Helix 的 250 倍。从训练成果成果来看，研究团队利用 360 个未见物体、6 个未见背景和 3 个未见光照条件等维度，组成 1,287 种未见的杂乱场景，将 DexGraspVLA 搭载于「7 自由度的 Realman RM75-6F 手臂 +6 自由度的 PsiBot G0-R 灵巧手」的硬件上，在数千个场景中实现了 90.8% 的聚合成功率，展示了优秀的泛化能力。这种能力与号称「可拾取万物」的搭载 Helix 的 Figure 02 不分伯仲。须知，Figure 02 的手部拥有 16 自由度，灵活性远高于 DexGraspVLA 搭载的手部硬件。

此外，DexGraspVLA 框架还实现了闭环姿态矫正与重抓取、长程抓取任务推理等突破。

总的来说，DexGraspVLA 框架得益于将多样的语言和视觉输入迭代转换为域不变表示，从而实现对广泛真实世界场景的鲁棒泛化。这意味着，DexGraspVLA 技术运用在机器人身上时，机器人的抓取能力将得到长足提升，进而提升机器人的通用能力。

写在最后

灵初智能等团队的 DexGraspVLA 与 Figure 公司的 Helix 几乎同一时间推出，而且方案逻辑极其相似。二者本质上都是双系统协同的端到端模型，DexGraspVLA 的低层控制器、高层规划器与 Helix 的 S1、S2 都分别起着「快慢脑」的作用，而快慢脑的组合，实现了机器人在多场景下的能力泛化。

这不仅仅是技术巧合，更多地反映了技术趋势。当前机器人的能力泛化正是靠端到端的技术方案拓展，一方面要依靠 VLM 这一慢脑对视觉与语言的理解，进而规划与推理，另一方面要依靠快脑对慢脑语义表征的进行实时转化，转化为精确的动作。（有关 Helix 的信息，参考《》）

值得注意的是，24 年 9 月成立于北京的灵初智能，11 月刚完成天使轮融资。作为成立不足半年的初创团队，近日其接连发四篇高质量论文，其他三篇的大致方向为：利用外部环境抓取单手抓不起的的物品；堆叠场景高速检索；安全对齐。而 DexGraspVLA 框架仅是其 Psi R0.5 端到端强化学习 VLA 模型的一部分。

作者：堃方

原标题：《狙击 Figure ，灵初智能团队研发分层 VLA 模型，数据利用率高 250 倍》

成为付费用户可以阅读灵初智能所有资料

了解更多 →

阅读原文 ↗澎湃新闻