灵初智能推出端到端 VLA 模型 Psi R1，让机器人变身麻将牌友、外卖小哥以及商店理货员

灵初智能正解决机器人 L3 级操作难题。

4 月 27 日，灵初智能正式推出分层端到端 VLA + 强化学习算法模型 Psi-R1。该模型基于自主推理框架 Chain of Action Thought（CoAT），实现了机器人在开放环境中的长程复杂操作，而灵初智能以麻将这一场景为例，展示了机器人 30 分钟以上持续任务。

今日，灵初智能再发第二弹操作能力详解。此次发布中，灵初智能展示了机器人在提袋与穿环等物流场景中的控制能力，或将解决外卖、物流行业「最后一公里」。同时，灵初智能还提出了商超补货的智能解决方案，R1 模型的支持下，机器人能跟进货物的种类规划补货的目标位置，并能精确操作，完成任务。

这些能力的获得离不开「快慢脑」分层 VLA 架构与仿真环境下的强化学习。

模型能力详解：解决机器人 L3 级操作难题

灵初智能指出，机器人的操作能力分为 3 个层次：

L1：物体泛化抓取，但无法实现复杂操作及思考推理；
L2：类人操作：握持、精确捏取圆盘、侧捏、三指捏握、侧三指捏握、强力抓握球体等，但缺失认知决策链条，无法处理多模态复杂指令；

L3：基于 Chain of Action Thought（CoAT）框架的自主推理系统，在开放环境下进行自主推理决策，完成长程复杂操作。

灵初智能认为「只有具备 L3 的长程 CoAT 灵巧操作能力，才能理解世界，并将学到的知识迁移到新的环境中落地」。让我们一起看看「打麻将」「取外卖」「商店理货」这些长程复杂操作都有哪些技术看点。

机器人打麻将，能碰会杠

我们先想象一下，一局麻将玩下来，我们都需要什么能力。首先最基础的是，要完成抓牌、出牌、理牌操作。其次，一定要理解麻将的规则，确保行为符合游戏规则。此外，我们还需要在动态环境中（各方不断的出牌中）调整自己的策略确保最大的胜率。

在视频中，机器人甚至超额完成这些任务，展示了模型优秀的能力：

毫米级精度灵巧操作：灵巧手攻克视觉-语言-动作模态对齐，实现精确翻牌、抓牌、理牌，展现类人类的灵巧操作水平。

人机交互与认知决策：机器人能够理解麻将规则，动态制定出牌、碰杠等策略，完成从规则理解到实时博弈的全流程推理与执行。

强化学习加持下的超长任务执行：R1 以麻将场景为验证，完成 30 分钟以上的 Chain of Action Thought （CoAT）长线思维链，打破传统机器人在复杂任务中的时间和思考瓶颈。
三重复合交互：实现「人-机」、「机-机」、「机-环境」之间的复合交互，包括多机器人合作递牌与信息共享。

不过这里值得一提的是，机器人打麻将某种程度上验证了「莫拉维克悖论」——计算、逻辑推理对机器来说相对简单，而感知、运动等低级智慧却对机器来说很复杂。

机器人能够很好地记牌、规划打牌策略，但这对于人类来说就比较烧脑。然而抓牌、打牌，人类甚至不需要看牌就可以摸出牌是哪张，但机器人则需要「手眼协同」，即视觉动作模态的对齐。

外卖最后一百米，机器帮你提

外卖、物流行业都存在「最后一百米」问题，即很多货物都送不到自己手上。不过灵初智能正在为外卖、物流配送等场景提供智能解决方案。

其研发的 Psi R1 VLA 模型在提袋与穿环等物流场景中展现了优秀的闭环控制能力。该系统能精准识别多种快递袋的不同摆放姿态，从多角度完成穿环提取，动作连贯流畅。

即使面对提环位置变化或垂坠等复杂情况，也能通过 VLA 的推理能力实时调整灵巧手姿态，确保高成功率。凭借强大的泛化性和动态性能，Psi R1 不仅能执行复杂灵巧操作，还能对变形物体进行处理。

商超补货小能手，挂钩都能精确穿过

商超补货涉及到将货物补到隔板货架上，或挂钩上。这个流程中，放置要做到平稳且可靠，要克服几点挑战，灵初智能带触觉的灵巧手在 R1 模型的支持下，能跟进货物的种类规划补货的目标位置，并能精确操作，完成任务。

事实上，将货物放置到目标位置，尤其是补货到挂钩上，这要求末端位姿与目标位置高精度对齐到毫米级，否则挂钩难以穿过商品的小挂孔。

同时，机械臂本体及灵巧手还需要具有较高的重复定位精度，过程中根据物体的重心分布、形状特征，机械手臂的抓取力配比都要精确控制，视觉／力觉校正等手段需要不断补偿误差。

灵初智能 R1 模型下的机器人，凭借灵巧手的高自由度动作能力与多感知融合，即便面对多样化商品形态与不断变化的环境，依然能够精准完成补货任务。不过这种商超补货方案，在现阶段或许在 24 小时无人售卖场合应用更合适。

快慢脑架构 + 强化学习：具身 A ha Mom ent 即将到来

当前，快慢脑分层架构已渐成行业共识（快脑：潜意识、直觉、运动控制、快速响应；慢脑：推理、规划、慢思考、有意识、刻意思考深度）。Physical Intelligence 今年 2 月从端到端的架构 π0 升级为分层架构 Hi Robot，前几日推出的 π0.5 也是快慢脑；Figure AI 则是在 3 月份发布了分层架构 Helix；此外，Google 于 3 月底发布了 Gemini Robotics，Nvidia 于 4 月发布了 GR00T N1，都是分层架构。

然而，Nvidia 机器人高级总监及华盛顿大学教授 Deiter Fox 表示，快慢脑架构目前仍存在两个核心问题尚未解决：

如何连接快慢脑，实现慢脑规划和快脑操作的模态对齐；
如何突破模仿学习的瓶颈，训练丰富技能。

目前来看，这两个问题正被灵初智能解决。

Action Tokenizer 连接快慢脑

灵初智能的 R1 模型的慢脑输入包括行动 Token（Action Tokenizer），构建了支持「动作感知-环境反馈-动态决策」全闭环的 VLA 模型，能够实现机器人操作的「视觉-语言-动作」多模态协同的 CoAT 思维链。这里需要说明，传统的 CoT 仅为「视觉-语言」层面，缺乏从认知层到物理世界的链路。

在这种分层中，快脑 S1 专注于操作，包含多种灵巧操作，如物体的遮掩抓取、物体轨迹约束的操作（如拉拉链）、工作使用技能泛化（如扫码，打电钻）、高动态操作（如抛接球）等。慢脑 S2 专注于推理规划。S1 的操作经过 tokenize 后，作为 S2 慢脑的输入，和语言、视觉模态融合，基于 Causal VLM 自回归架构，实现多模态融合的推理和任务规划。

快慢脑通过 Action Tokenizer 隐式连接，端到端训练，协同完成长程任务的灵巧操作。R1 模型能够结合历史动作与当前环境状态，理解动作的长期影响，避免重复试错和动作误差积累，建立动作与环境变化的因果链，解决传统 VLM 因缺乏动作历史导致的「决策短视」问题。

强化学习贯穿模型始终

模仿学习（IL）是一种观察并重复，也就是预训练、有监督的微调，而强化学习（RL）则是一种自我对弈，通过自我验证与反思不断突破认知上限甚至完成策略涌现。

灵初智能在模型训练中，贯穿始终着 RL 应用，并借此解决泛化与灵巧操作问题。在快脑侧，灵初智能拥有丰富的 Sim to Real 强化学习经验，可以大规模 Scale up 训练技能，以 RL 助力数据使用效率提升，形成数据飞轮。在慢脑侧，其通过 RL 不断完成任务成功率与 CoAT 长度的突破。

具体来说，灵初智能选择的路线是在仿真环境下进行强化学习与遥操作。

灵初智能举例了一种高自由度外骨骼，这种外骨骼拥有 16 个自由度，能够较为精确地同步人手复杂、多变的操作动作。同时，通过构建精确的仿真模型，这种外骨骼还全面支持仿真环境下的强化学习训练，可通过仿真加速灵巧手动作策略的训练与迭代，实现自主学习和性能持续优化。

写在最后：具身大模型正加速发展

此前，摩根士丹利曾在研报中指出中美两国在具身智能领域的差异，其中指出中国在本体硬件上有优势，而美国在大脑上领先。一时间，关于国内具身大模型能力不足的印象也逐渐加固。

然而，如果了解这家于 2024 年 9 月在北京成立的公司，我们会发现其研发的节奏和技术路径与国外几乎一致。

今年 3 月几乎与美国 Figure AI 推出 Helix 分层 VLA 模型同一时间，灵巧智能研发了分层 VLA 模型 DexGraspVLA 模型，作为其 Psi R0.5 端到端强化学习 VLA 模型的一部分。

紧接着，4 月 23 日，美国具身大脑公司 Physical Intelligence 推出了一款具备开放世界泛化能力的 VLA（视觉-语言-动作）模型——π0.5，灵巧智能紧接着于 4 月 27 日同一时间推出了 Psi-R1。

当然国内的具身大模型不止灵巧智能，像智平方、穹彻智能、智元机器人、千觉科技等企业也都在深耕具身大模型领域。目前来看，这种氛围也更加浓厚，我们看到资金的加速涌入与优秀模型产品的不断推出，未来具身大脑将更好的发展，并加速机器人进入生产生活场景。返回搜狐，查看更多

成为付费用户可以阅读灵初智能所有资料

了解更多 →

阅读原文 ↗roll.sohu.com