光合及目
1lux.xyz
← 行研报告

我们来聊聊VLA、WM、WAM

更新于 7 天前更新作者:eli

最近智驾和具身智能行业的技术风向很好玩,大家讨论的焦点从之前的端到端控制,向拥有物理直觉的预测迁徙。我们来了解下VLA、世界模型(WM)以及最新的WAM。

一、 发展时间线与核心技术痛点

1. VLA(视觉-语言-动作模型)
  • 提出与火爆时间: 2023年 - 2024年(代表作如谷歌的RT-2、开源的OpenVLA、π₀)。

  • 技术逻辑: 它是反应式(Reactive)条件反射。输入当前视觉画面+自然语言指令,直接映射输出低层动作序列。直白说就是“看到什么就直接输出什么肌肉记忆”。

  • 技术痛点: 缺乏对物理世界的预见性。如果抓取物体时稍微滑了一下,它无法显式建模环境在干预下的未来状态,细微的偏差会在长程(Long-horizon)任务里累积,导致后面动作全盘崩溃。

2. 世界模型(World Models / WM)
  • 技术演进: 概念在强化学习和学术圈很早就有(如Yann LeCun推崇的JEPA架构、Dreamer系列),但在2024年底到2025年,随着互联网视频生成大模型(如Sora、Genie、Cosmos)爆发,大家发现它能给机器人提供极强的物理先验,开始被深度引入具身领域。

  • 技术逻辑: 它是环境动力学预测器。它的核心任务是去建模环境的动态转移,即“如果执行了A动作,接下来的环境视觉会发生什么改变”。

  • 技术痛点: 它是“纯旁观者”,造梦很强但不会干活。它能极其逼真地预测玻璃杯摔碎的未来画面,但它本身不生成动作,没办法直接输出高频、精确的关节扭矩或底层控制硬件参数。

3. WAM(World Action Models 世界动作模型)
  • 爆发时间: 2026年上半年的技术新前沿(代表作如NVIDIA的DreamZero,以及2026年5月复旦团队发布的万字综述论文)。

  • 技术逻辑: 它是“预测性世界建模+耦合动作生成”的融合体。不再单单学策略或单学转移动力学,而是联合建模未来状态与动作的联合分布。要求模型有“前向预测承诺”,在伸手前先在隐空间里推演物理后果,并让动作严格与预测出的状态对齐。

  • 技术痛点: 真机部署的实时性瓶颈。因为要在本地高频做未来状态预测或视频去噪,前向推理太重,真机部署延迟很高。目前的攻坚方向是不在测试时显式生成像素,用 Fast-WAM 等新架构将闭环控制延迟极限压缩到 190毫秒 左右。

二、 技术方向:三者的区别与概率对比

如果从底层的算法模型来看,这三者在优化目标和控制边界上有着本质的区别:

1,VLA(纯策略流派): 输入当前画面和口令➡️直接给动作。它的边界很短,属于快思考,在数学上完全不考虑动作执行后,物理世界下一秒会变成什么样。

2,世界模型(纯预测流派): 输入当前画面和假想动作➡️专门预测下一秒的场景。它不负责给动作,主要作为机器人的“虚拟评估器”或者帮机器人进行“脑内想象推演”。

3,WAM(联合模型流派): 输入当前画面和口令➡️脑内推演和手脚动作同时输出。它在概率上要求动作和未来世界的发展紧密耦合。

目前市面上可能有两种玩得多的技术路线:

1,级联式(先想后做): 模块分工。世界模型先显式生成未来几步的视觉画面,然后另一个运控策略网络看着这个画面来解码做动作(比如UniPi)。

2,联合式(边想边做): 端到端缝合。把画面和动作全部变成 AI 离散令牌(Tokens),用一个统一的大 Transformer(如自回归或者扩散模型)交错着同时吐出预测状态和动作(如 Fast-WAM、GR-2),效率更高,没有模块间的级联误差。

三、 横向对比:实现难度、达成阶段与市场认可度

1. 实现难度:从数据体力活到算力极限压榨
  • VLA 模型(难度:★★★☆☆): 算法框架已经标准化,核心工作量在数据采集和清洗上(堆遥操作和仿真数据)。由于开源底座普及,调参门槛在降,属于堆人力和数据的工程。

  • 世界模型(WM)(难度:★★★★☆): 难在如何干掉物理幻觉。纯视频大模型在生成视频时容易出现物体无故穿透或融化,而且如何把触觉、力觉等多模态信号纳入预测框架,目前还是个难题。

  • WAM 模型(难度:★★★★★): 属于算法与底层工程的地狱级重合。要把 Sora 级别的时空推演和极致的运控对齐,同时还要手写 CUDA 算子、死磕 TensorRT 端侧加速。在机器人异构算力下多卡调度,把推理延迟打下来,非常考验软硬件全栈功底。

2. 当前达成阶段:从量产Demo到真机攻坚
  • VLA 模型 ➡️ 【商业落地期】: 已经基本收敛。各大厂商在商超补货、产线分拣、保洁等标准的短程任务Demo里,基本拿它来做交付主力。

  • 世界模型(WM) ➡️ 【互联网基建期】: 处于用互联网级海量视频做自监督预训练的阶段。机器人主要把它当成一个“脑内可微分仿真器”或“高质量虚拟轨迹生成器”,用来填补昂贵的真实真机数据缺口。

  • WAM 模型 ➡️ 【真机闭环攻坚期】: 随着今年5月学术界框架被首次系统定型,目前各大头部具身独角兽正在死磕“去测试期未来想象(No test-time future imagination)”,尝试在推理时跳过大视频生成、直接输出动作,正在经历真机闭环控制的攻坚期。

3. 市场与资本认可度
  • VLA 模型 ➡️ 【高确定性的基本盘】: 投资人和大客户最容易看懂,因为能最快上真机跑Demo。在目前的量产和采购合同中属于不可或缺的基础策略。

  • 世界模型(WM) ➡️ 【长期的技术风向标】: 行业公认它代表了智能体的“认知上限”,也是解决长程规划(Long-horizon planning)的必备钥匙。

  • WAM 模型 ➡️ 【资本新宠与下代顶流】: 随着单纯的策略微调在非标、复杂长尾场景遇到瓶颈,懂物理预测和执行对齐的 WAM 模型开始受到智驾(车企跨域融合)和顶尖机器人厂的极大资源倾斜。

四、 从招聘角度看:JD需求有什么不同?

1. VLA 工程师
  • 大厂HC要求: 熟悉多模态大模型(MLLM)、大语言模型,主要负责做监督微调(SFT)和后训练(Post-training),但大多数企业招聘还是需要有VLA经验,目前智驾圈跑到具身来的居多。

  • 主要来源: 供需趋稳。有大量以前搞NLP或CV的同学转行过来,人才基本盘相对稳定。

2. WAM / 具身世界模型架构师
  • 大厂HC要求: 技能树极度跨界。算法端要精通 Video Diffusion 视频生成、DiT 架构、流匹配(Flow Matching)或自回归令牌交错序列;工程端单开一栏,死卡端侧极限软硬件工程调优(异构算力压榨、算子手写优化)。

  • 主要来源: 极其稀缺的六边形战士。能搞前沿去噪生成算法、又具备变态的底层底软系统优化经验的人,一个字难。

审批备注

VLA、WM、WAM

eli7 天前更新