灵初智能正解决机器人 L3 级操作难题。
4 月 27 日,灵初智 能正式推出 分层端到端 VLA + 强化学习算法模型 Psi-R1。该模型基于自主 推理框架 Chain of Action Thought(CoAT),实现了机器人在开放环境中的长程复杂操作,而灵初智能以麻将这一场景为例,展示了机器人 30 分钟以上持续任务。
今日,灵初智能再发第二弹操作能力详解。此次发布中,灵初智能展示了机器人在提袋与穿环等物流场景中的控制能力,或将解决外卖、物流行业「最后一公里」。同时,灵初智能还提出了商超补货的智能解决方案,R1 模型的支持下,机器人能跟进货物的种类规划补货的目标位置,并能精确操作,完成任务。
这些能力的获得离不开「快慢脑」分层 VLA 架构与仿真环境下的强化学习。
模型能力 详解:解 决机器人 L3 级操作难题
灵初智能指出,机器人的操作能力分为 3 个层次:
- L1:物体泛化抓取,但无法实现复杂操作及思考推理 ;
- L2:类人操作:握持、精确捏取圆盘、侧捏、 三指捏握 、侧三指捏握、强力抓握球体等,但缺失认知决策链条,无法处理多模态复杂指令;
- L3:基于 Chain of Action Thought(CoAT)框架的自主推理系统,在开放环境下进行自主推理决策,完成长程复杂操作。
灵初智能认为「只有具备 L3 的长程 CoAT 灵巧操作能力,才能理解世界,并将学到的知识迁移到新的环境中落地」。让我们一起看看「打麻将」「取外卖」「商店理货」这些长程复杂操作都有哪些技术看点。
机器人打麻将,能碰会杠
我们先想象一下,一局麻将玩下来,我们都需要什么能力。首先最基础的是,要完成抓牌、出牌、理牌操作。其次,一定要理解麻将的规则,确保行为符合游戏规则。此外,我们还需要在动态环境中(各方不断的出牌中)调整自己的策略确保最大的胜率。
在视频中,机器人甚至超额完成这些任务,展示了模型优秀的能力:
- 毫米级精度灵巧操作:灵巧手攻克视觉-语言-动作模态对齐,实现精确翻牌、抓牌、理牌,展现类人类的灵巧操作水平。
- 人机交互与认知决策:机器人能够理解麻将规则,动态制定出牌、碰杠等策略,完成从规则理解到实时博弈的全流程推理与执行。
- 强化学习加持下的超长任务执行:R1 以麻将场景为验证,完成 30 分钟以上的 Chain of Action Thought (CoAT)长线思维链,打破传统机器人在复杂任务中的时间和思考瓶颈。
- 三重复合交互:实现「人-机」、「机-机」、「机-环境」之间的复合交互,包括多机器人合作递牌与信息共享。
不过这里值得一提的是,机器人打麻将某种程度上验证了「莫拉维克悖论」——计算、逻辑推理对机器来说相对简单,而感知、运动等低级智慧却对机器来说很复杂。
机器人能够很好地记牌、规划打牌策略,但这对于人类来说就比较烧脑。然而抓牌、打牌,人类甚至不需要看牌就可以摸出牌是哪张,但机器人则需要「手眼协同」,即视觉动作模态的对齐。
外卖最后一百米,机器帮你提
外卖、物流行业都存在「最后一百米」问题,即很多货物都送不到自己手上。不过灵初智能正在为外卖、物流配送等场景提供智能解决方案。
其研发的 Psi R1 VLA 模型在提袋与穿环等物流场景中展现了优秀的闭环控制能力。该系统能精准识别多种快递袋的不同摆放姿态,从多角度完成穿环提取,动作连贯流畅。
即使面对提环位置变化或垂坠等复杂情况,也能通过 VLA 的推理能力实时调整灵巧手姿态,确保高成功率。凭借强大的泛化性和动态性能,Psi R1 不仅能执行复杂灵巧操作,还能对变形物体进行处理。
商超补货小能手,挂钩都能精确穿过
商超补货涉及到将货物补到隔板货架上,或挂钩上。这个流程中,放置要做到平稳且可靠,要克服几点挑战,灵初智能带触觉的灵巧手在 R1 模型的支持下,能跟进货物的种类规划补货的目标位置,并能精确操作,完成任务。
事实上,将货物放置到目标位置,尤其是补货到挂钩上,这要求末端位姿与目标位置高精度对齐到毫米级,否则挂钩难以穿过商品的小挂孔。
同时,机械臂本体及灵巧手还需要具有较高的重复定位精度,过程中根据物体的重心分布、形状特征,机械手臂的抓取力配比都要精确控制,视觉/力觉校正等手段需要不断补偿误差。
灵初智能 R1 模型下的机器人,凭借灵巧手的高自由度动作能力与多感知融合,即便面对多样化商品形态与不断变化的环境,依然能够精准完成补货任务。不过这种商超补货方案,在现阶段或许在 24 小时无人售卖场合应用更合适。
快慢脑架构 + 强化学 习 :具身 A ha Mom ent 即将到来
当前,快慢脑分层架构已渐成行业共识(快脑:潜意识、直觉、运动控制、快速响应;慢脑:推理、规划、慢思考、有意识、刻意思考深度)。Physical Intelligence 今年 2 月从端到端的架构 π0 升级为分层架构 Hi Robot,前几日推出的 π0.5 也是快慢脑;Figure AI 则是在 3 月份发布了分层架构 Helix; 此外,Google 于 3 月底发布了 Gemini Robotics,Nvidia 于 4 月发布了 GR00T N1,都是分层架构。
然而,Nvidia 机器人高级总监及华盛顿大学教授 Deiter Fox 表示,快慢脑架构目前仍存在两个核心问题尚未解决:
- 如何连接快慢脑,实现慢脑规划和快脑操作的模态对齐;
- 如何突破模仿学习的瓶颈,训练丰富技能。
目前来看,这两个问题正被灵初智能解决。
Action Tokenizer 连接快慢脑
灵初智能的 R1 模型的慢脑输入包括行动 Token(Action Tokenizer),构建了支持「动作感知-环境反馈-动态决策」全闭环的 VLA 模型,能够实现机器人操作的「视觉-语言-动作」多模态协同的 CoAT 思维链。这里需要说明,传统的 CoT 仅为「视觉-语言」层面,缺乏从认知层到物理世界的链路。
在这种分层中,快脑 S1 专注于操作,包含多种灵巧操作,如物体的遮掩抓取、物体轨迹约束的操作(如拉拉链)、工作使用技能泛化(如扫码,打电钻)、高动态操作(如抛接球)等。慢脑 S2 专注于推理规划。S1 的操作经过 tokenize 后,作为 S2 慢脑的输入,和语言、视觉模态融合,基于 Causal VLM 自回归架构,实现多模态融合的推理和任务规划。
快慢脑通过 Action Tokenizer 隐式连接,端到端训练,协同完成长程任务的灵巧操作。R1 模型能够结合历史动作与当前环境状态,理解动作的长期影响,避免重复试错和动作误差积累,建立动作与环境变化的因果链,解决传统 VLM 因缺乏动作历史导致的「决策短视」问题。
强化学习贯穿模型始终
模仿学习(IL)是一种观察并重复,也就是预训练、有监督的微调,而强化学习(RL)则是一种自我对弈,通过自我验证与反思不断突破认知上限甚至完成策略涌现。
灵初智能在模型训练中,贯穿始终着 RL 应用,并借此解决泛化与灵巧操作问题。在快脑侧,灵初智能拥有丰富的 Sim to Real 强化学习经验,可以大规模 Scale up 训练技能,以 RL 助力数据使用效率提升,形成数据飞轮。在慢脑侧,其通过 RL 不断完成任务成功率与 CoAT 长度的突破。
具体来说,灵初智能选择的路线是在仿真环境下进行强化学习与遥操作。
灵初智能举例了一种高自由度外骨骼,这种外骨骼拥有 16 个自由度,能够较为精确地同步人手复杂、多变的操作动作。同时,通过构建精确的仿真模型,这种外骨骼还全面支持仿真环境下的强化学习训练,可通过仿真加速灵巧手动作策略的训练与迭代,实现自主学习和性能持续优化。
写在最后:具身大模型正加速发展
此前,摩根士丹利曾在研报中指出中美两国在具身智能领域的差异,其中指出中国在本体硬件上有优势,而美国在大脑上领先。一时间,关于国内具身大模型能力不足的印象也逐渐加固。
然而,如果了解这家于 2024 年 9 月在北京成立的公司,我们会发现其研发的节奏和技术路径与国外几乎一致。
今年 3 月几乎与美国 Figure AI 推出 Helix 分层 VLA 模型同一时间,灵巧智能研发了分层 VLA 模型 DexGraspVLA 模型,作为其 Psi R0.5 端到端强化学习 VLA 模型的一部分。
紧接着,4 月 23 日,美国具身大脑公司 Physical Intelligence 推出了一款具备开放世界泛化能力的 VLA(视觉-语言-动作)模型——π0.5,灵巧智能紧接着于 4 月 27 日同一时间推出了 Psi-R1。
当然国内的具身大模型不止灵巧智能,像智平方、穹彻智能、智元机器人、千觉科技等企业也都在深耕具身大模型领域。目前来看,这种氛围也更加浓厚,我们看到资金的加速涌入与优秀模型产品的不断推出,未来具身大脑将更好的发展,并加速机器人进入生产生活场景。返回搜狐,查看更多
成为付费用户可以阅读 灵初智能 所有资料
了解更多 →