李飞飞:世界模型到底是什么?
更新于 -344 分钟前更新作者:eli
本文背景:2026 年 6 月 3 日,斯坦福大学教授、World Labs CEO 李飞飞在 X 上发布长文 《A Functional Taxonomy of World Models》(世界模型的功能分类法,Substack 全文),基于强化学习中经典的 POMDP 框架,将世界模型按功能分为三类——Renderer、Simulator、Planner,并论证 Simulator 是最被忽视但最关键的一层。以下是对该文章的解读与延伸分析。
从 AI 视频到物理仿真,再到机器人行动:看懂世界模型三层能力
如果只记住一句话:世界模型不是“会生成视频”的模型,而是让机器理解空间、时间和行动后果的底层能力。它可以分成三层:Renderer 负责把世界画出来,Simulator 负责把世界算出来,Planner 负责让机器在世界里行动。
一、为什么现在都在讲世界模型?
过去两年,大众最熟悉的 AI 是语言模型。它能写作、问答、推理、写代码,本质上是在学习文字世界里的规律。
但真实世界不是由文字构成的。真实世界由空间、时间、物体、光线、重力、摩擦、遮挡、碰撞和动作组成。
一个机器人要进工厂、进仓库、进家庭,光会“理解一句话”远远不够。它还要知道杯子在哪里、桌子有多高、手伸过去会不会撞到东西、抓起杯子后水会不会洒、下一步应该怎么移动。
这就是世界模型的意义:让 AI 不只会说世界,而是开始理解世界如何运行。
二、世界模型不是一个东西,而是三种能力
李飞飞的分类并非凭空提出,而是根植于强化学习中的经典框架——POMDP(部分可观测马尔可夫决策过程)。这个框架有一个核心区分:
· 状态(State)是世界的底层现实,对任何智能体都不直接可见。
· 观测(Observation)是智能体对现实的部分观察——就像你看到的只是世界的一个切面。
基于这个区分,李飞飞把世界模型拆成三种不同的输出功能:
第一层:Renderer,渲染器
输出:像素形式的观测数据。核心指标:视觉保真度。
Renderer 的任务是把世界"画出来"。你输入一句话,它生成一段视频;你给一张图,它让图里的人动起来。
但李飞飞特别指出一个关键局限:Renderer 对三维结构没有显式理解。它生成的是观看者"会看到的东西",而非世界"实际的样子"。画面看起来真实,不代表背后有正确的物理结构。
· 典型代表:Google Genie 3、AI 视频生成模型(Sora、可灵、Seedance)。
· 商业成熟度:三层中最高,市场已在运转。
第二层:Simulator,模拟器
输出:世界状态本身——在几何、物理或动力学上忠实于现实。核心要求:结构契约。
Simulator 不只要画面好看,它要让世界的结构经得起检验:几何关系正确、物理遵守牛顿定律、动态行为符合真实规律。它的消费者不是人眼,而是计算机程序——强化学习算法、机器人控制器、工业数字孪生系统。
李飞飞的核心论断是:Simulator 是三层中最被忽视,但最具基础性的一层。她论证:
· 一个掌握模拟的模型,可以将理解向下投影为像素(供人类消费),也可以向上投影为动作预测(供具身智能体使用)。
· 仅掌握渲染或仅掌握规划的模型,都做不到这一点。
· NVIDIA Omniverse 估计 Simulator 的可寻址市场超过 1 万亿美元。
· 典型代表:World Labs Marble、NVIDIA Omniverse、智元 Genie Sim。
第三层:Planner,规划器
输出:动作选择。给定观测和目标,Planner 回答智能体下一步应该做什么。
这是渲染器的逆过程,闭合了"感知→行动"循环。机器人看到桌上的杯子,听到"把杯子放进水槽",Planner 要把这个任务拆成识别、靠近、伸手、抓取、移动、放下等动作序列。
这一层最接近具身智能落地,但李飞飞也坦率指出:大多数机器人演示局限于"狭窄物体集和短任务视野的高度受限实验室环境",实验室 Demo 和真实场景之间仍有巨大鸿沟。
· 典型代表:VLA 模型(Vision-Language-Action)、世界行动模型(WAM)。
· 融资热度:三层中最高,但落地验证最少。
三层正在融合
李飞飞在文中指出了一个关键趋势:三个类别正在互相融合。
World Labs 的 Marble 项目就是最好的例证——它从单一模型同时输出高斯椭球体(用于视觉探索)和碰撞网格(用于物理引擎操作),"溶解了渲染器和模拟器之间的边界"。
她描绘的终极方向是:一个统一的世界模型——一个基础模型,既能渲染照片级视图,又能产生物理准确结构,还能规划动作序列,根据下游需求切换输出模态。因为驱动这三种能力的底层知识——几何、物理、动力学——本质上是同一套。
三、为什么“会生成视频”还不够?
很多人第一次看到 AI 视频,会自然觉得模型已经“懂世界”了。因为画面里的人会走路,水会流动,车会转弯,火焰会燃烧。
但对机器人和工业系统来说,“像真的”不等于“能用”。
一个杯子在视频里被拿起来,看起来合理;但真实机械臂要拿起杯子,需要知道杯子的精确位置、重量、摩擦、抓取点、手指力度,以及拿起来后的稳定性。
所以世界模型的真正难点,不是只生成好看的画面,而是把画面背后的空间、物理和行动后果学出来。
四、中国公司图谱:谁在做哪一层?
下面按照三层功能放位。这里不是排名,而是帮助读者理解:这些公司分别在世界模型链条里的哪个位置发力。
A. Renderer 层:AI 视频与视觉世界生成
这一组公司的主要价值,是把世界以高质量画面生成出来。它们更接近内容生产、广告、影视、短剧、电商和交互视觉创作。

快手 可灵 Kling
一句话看懂:国内 AI 视频产品化的代表。
为什么放这里:快手官方资料将可灵定位为自研视频生成大模型,面向文本/图像生成视频和创作场景。
值得关注:它的优势在短视频生态、用户规模和商业化速度。

一句话看懂:多模态音视频生成的强势玩家。
为什么放这里:Seedance 2.0 官方页面和技术报告显示,它支持文本、图像、音频、视频输入,并采用音视频联合生成架构。
值得关注:它把视频生成从“单纯文生视频”推向更复杂的参考、编辑和音画一体。

一句话看懂:开源视频生成底座。
为什么放这里:Wan 技术报告将其定义为开放的大规模视频生成模型,覆盖文生视频、图生视频、视频编辑等任务。
值得关注:它的看点是开源生态和模型规模,对开发者很重要。

一句话看懂:腾讯系视频生成基础模型。
为什么放这里:HunyuanVideo 技术报告和开源仓库显示,它是腾讯混元团队推出的视频生成模型。
值得关注:它补上了腾讯在 AI 视频开源生态里的位置。

生数科技 Vidu
一句话看懂:从世界生成走向世界行动的跨层样本。
为什么放这里:生数官网把 Vidu 称为数字世界的“世界生成模型”,同时推出面向机器人的 MotuBrain。
值得关注:Vidu 更偏生成,MotuBrain 则说明生数正在往物理行动层延伸。

一句话看懂:大众内容创作型视频模型。
为什么放这里:MiniMax 平台文档将海螺视频列为 Text to Video 与 Image to Video 模型。
值得关注:它适合被理解为高质量内容生产工具,而不是严格物理仿真系统。

智象未来 HiDream
一句话看懂:多模态视觉生成平台。
为什么放这里:官方资料显示其支持文本、图像、视频、3D 等多模态内容生成,并提出全模态世界模型方向。
值得关注:现阶段更适合先看作视觉生成公司,世界模型能力还要继续看公开验证。

一句话看懂:开源视频生成模型样本。
为什么放这里:Step-Video-T2V / TI2V 技术报告聚焦文本驱动视频生成和图像到视频生成。
值得关注:它是国产开源视频模型生态的重要补充。
B. Simulator 层:物理世界的训练场
这一组更接近世界模型的核心。它们不只要画面好看,还要让生成出来的世界可以被机器继续计算、交互和训练。

一句话看懂:具身世界模型创业公司的代表样本。
为什么放这里:GigaWorld-0 技术报告将世界模型作为数据引擎,用于增强具身 AI;GigaWorld-Policy 进一步指向动作中心的世界-动作模型。
值得关注:它值得重点看,因为路线直接指向机器人训练和动作预测。
蚂蚁灵波 Robbyant / LingBot-World
一句话看懂:大厂体系里的开源世界模拟器。
为什么放这里:LingBot-World 项目页和技术报告将其定位为面向具身 AI、自动驾驶和游戏的开源世界模拟器。
值得关注:它的意义在于把世界模型、VLA 和真实机器人数据放到同一条线上。

一句话看懂:空间记忆和具身基础模型路线。
为什么放这里:RynnBrain 技术报告显示其包含 Nav、Plan、VLA、CoP 等变体;RynnEC 强调具身世界中的细粒度感知。
值得关注:阿里的看点不是机器人本体,而是空间理解、具身语境和开源模型矩阵。

智元机器人 Genie Sim / GE-Sim / AGIBOT WORLD
一句话看懂:把仿真、数据和模型闭环放在一起的全栈样本。
为什么放这里:智元官方资料显示 Genie Sim 3.0 面向环境生成、仿真、数据与评测;AGIBOT WORLD 提供大规模机器人轨迹和场景数据。
值得关注:智元的重要性在于它不只做模型,还在搭建机器人训练基础设施。

一句话看懂:视觉大厂切入具身训练场的样本。
为什么放这里:商汤官方将“悟能”定位为具身智能平台,以“开悟”世界模型为核心,为机器人和智能设备提供训练场。
值得关注:它适合观察视觉、多模态和算力基础如何进入物理 AI。

一句话看懂:平台型具身智能底座。
为什么放这里:Tairos 官方页面展示仿真平台、数据平台、工具链和具身开源模型,覆盖感知、规划与行动模型。
值得关注:腾讯更像在做行业开放平台,而不是单个机器人产品。

一句话看懂:从 AI 视频跨向机器人行动的桥。
为什么放这里:生数官网将 MotuBrain 定位为“为机器人打造的世界行动模型”。
值得关注:这是视频生成公司向物理世界外溢的典型信号。
一句话看懂:认知世界模型的待观察样本。
为什么放这里:公开报道显示其主打认知世界模型,并完成亿元级融资;但公开论文、开源模型和可复现实验仍相对有限。
值得关注:可以关注,但不宜过早视为已充分验证的成熟世界模型公司。
C. Planner 层:机器人真正行动的大脑
这一组最接近具身智能落地。它们的任务是把观察变成动作,把指令变成执行,把失败变成下一轮训练数据。

智元机器人 AgiBot
一句话看懂:国内全栈闭环样本。
为什么放这里:GO-2、Genie Studio、SOP 在线后训练、AGIBOT WORLD 和 Genie Sim 共同组成“模型-数据-部署-再训练”链路。
值得关注:智元最值得看的地方,是它同时抓住本体、数据、模型、仿真和部署。

一句话看懂:全域全身 VLA 路线。
为什么放这里:公司官网披露 AlphaBrain 搭载 GOVLA,强调全空间理解、全身协同控制和复杂任务推理。
值得关注:它的看点是把 VLA 从单臂操作推向全身控制和真实生产力场景。

一句话看懂:双系统 VLA 和开放数据集样本。
为什么放这里:G0 技术报告和项目文档显示,G0 由高层 VLM 规划器和低层 VLA 执行器组成,并配套开放世界数据集。
值得关注:它代表“模型 + 数据集 + 工具链”的具身路线。
一句话看懂:开源 VLA 与家庭场景泛化样本。
为什么放这里:Wall-OSS-0.5 技术报告显示其是开源 4B VLA,并在多本体、真实机器人任务上验证预训练能力。
值得关注:它的价值在于把预训练机器人能力直接拿到真实硬件上测。
一句话看懂:数据和开源程度都很高的大厂样本。
为什么放这里:LingBot-VLA 技术报告披露约 2 万小时真实双臂机器人数据;LingBot-VA 走因果视频-动作世界模型路线。
值得关注:它是国内大厂中非常值得重点跟踪的 Planner 样本。

一句话看懂:以力为中心的具身大脑。
为什么放这里:Noematrix Brain 官方介绍强调“以力为中心”的具身大模型、原子技能库、规划、记忆和执行。
值得关注:它补的是很多 VLA 不擅长的最后一厘米:力反馈、触觉和细腻操作。
原力灵机 Dexmal
一句话看懂:具身原生 VLA。
为什么放这里:DM0 技术报告强调 Embodied-Native VLA,Realtime-VLA 项目强调实时执行。
值得关注:它的核心差异是从一开始就为物理交互设计模型,而不是简单改造互联网 VLM。

一句话看懂:AI World Engine 和自然行为数据路线。
为什么放这里:公开资料显示其 AWE 路线强调自然行为数据、全视角通感决策、高密度触觉感知和隐空间动作。
值得关注:它是自动驾驶方法论迁移到具身智能的重要样本。

京东 JoyAI-RA / 物流超脑
一句话看懂:物流仓储场景里的行动大脑。
为什么放这里:公开论文和报道显示京东围绕物流、仓储、分拣和具身数据采集布局机器人行动模型。
值得关注:京东的优势在高密度真实场景,而不是单个 Demo。
一句话看懂:长程任务与强化学习具身模型样本。
为什么放这里:官网披露 Psi R0、R0.5、R1 等端到端强化学习具身模型,强调长程任务和多技能串联。
值得关注:它适合观察中早期长程任务模型如何走向真实环境。

一句话看懂:全身力控 VLA。
为什么放这里:官网披露 Spirit VLA 和全身力控机器人路线,强调跨场景泛化和精细物理交互。
值得关注:它的关键在于把全身力控本体和 VLA 模型绑定。
一句话看懂:零售补货场景里的 Planner。
为什么放这里:银河通用聚焦药店、商超、零售补货等真实任务,轮式双臂路线更偏可交付。
值得关注:它的价值在场景清晰,不是泛泛讲通用。
一句话看懂:大规模本体出货带来的数据入口。
为什么放这里:宇树拥有大量四足和人形本体出货,并持续推进机器人模型与开发者生态。
值得关注:它的脑子价值来自“身体跑得足够多”。
一句话看懂:产业化场景里的机器人行动系统。
为什么放这里:优必选有上市公司平台和工业/商用场景积累,正在把机器人能力推向产线和服务场景。
值得关注:它更适合作为产业化落地样本看,而不是单纯按模型论文看。
五、看懂世界模型公司的六个问题
1. 它输出的是画面、状态,还是动作?
2. 它能不能持续交互,而不是只生成一次视频?
3. 它有没有三维一致性,换角度以后世界还在不在?
4. 它是否遵守基本物理规律,比如重力、碰撞、摩擦和遮挡?
5. 它能不能被机器人、自动驾驶或工业系统调用?
6. 它有没有真实数据闭环,比如真机轨迹、失败轨迹、客户现场和在线后训练?
这六个问题,比问“它是不是世界模型”更有效。
六、世界模型的前世今生与未来挑战
从认知科学到 AI:世界模型的起源
"世界模型"并非新概念。1971 年,认知科学家 Kenneth Craik 就提出人脑通过构建"小型模型"来预测外部事件。1980 年代,强化学习研究者开始用"环境模型"让智能体在模拟中学习。2018 年,David Ha 和 Jürgen Schmidhuber 发表《World Models》论文,首次将"世界模型"作为一个独立的 AI 架构组件,让智能体在"梦境"中训练。
但真正让这个概念爆发的,是 2023-2026 年的三股力量交汇:
· 视频生成的飞跃:Sora、可灵、Seedance 等模型证明 AI 可以生成连贯的视觉世界。
· 具身智能的需求:机器人要进工厂、进家庭,必须理解物理世界,不能只会说话。
· 资本的涌入:世界模型成为 AI 投资的新叙事焦点。
全球重大投资一览
过去两年,世界模型赛道的融资密度显著加速:
· World Labs(李飞飞创办):累计融资超 2.3 亿美元,估值超 50 亿美元,投资方包括 a16z、Radical Ventures。
· Odyssey(前 Runway 联合创始人):完成数千万美元融资,专注世界模拟器。
· Decart(以色列):以游戏世界模型起步,获得 NVIDIA 等投资。
· 智元机器人 AgiBot:具身智能领域最大融资之一,Genie Sim + AGIBOT WORLD 构建仿真-数据闭环。
· 极佳视界 GigaAI、穹彻智能、灵初智能等中国创业公司:在世界模型-动作模型赛道持续获得融资。
投资热度的背后,是产业界的共识:语言模型解决了"机器会说话"的问题,世界模型要解决的是"机器能行动"的问题。
概念辨析:VLA、WM、WAM 到底什么关系?
当前具身智能领域有三个高频缩写经常被混用,有必要厘清:
WM(World Model,世界模型):最广义的概念,泛指任何学习世界运行规律的模型。按李飞飞的分类,Renderer、Simulator、Planner 都属于世界模型的不同功能实现。
VLA(Vision-Language-Action Model,视觉-语言-动作模型):本质上是 Planner 层的一种具体实现。它接收视觉观测和语言指令,直接输出机器人动作。代表:RT-2、Octo、OpenVLA、智平方 GOVLA、自变量 Wall-OSS。VLA 的优势是端到端简洁,劣势是缺乏对世界状态的显式建模——它不"理解"物理,只是学习输入到输出的映射。
WAM(World-Action Model,世界行动模型):试图弥合 WM 和 VLA 之间的鸿沟。它在生成动作之前,先用世界模型预测行动的后果,然后基于预测做出更好的决策。代表:NVIDIA GROOT、蚂蚁灵波 LingBot-VA。WAM 的理想是让机器人在"想象中试错",而不是在真实世界中犯错。
用一句话总结三者关系:WM 是认知基础,VLA 是行动捷径,WAM 是把认知和行动连起来的桥。
世界模型当前面临的困难
尽管热度极高,世界模型距离真正成熟还面临多重挑战:
1. 数据不均衡:Renderer 拥有近乎无限的互联网视频数据,但 Simulator 和 Planner 面临 3D 资产和机器人操作轨迹的严重短缺。李飞飞称之为"训练数据的结构性不对称"。
2. Sim-to-Real 鸿沟:在仿真环境中表现完美的模型,迁移到真实物理世界后性能往往大幅下降。材质、光照、摩擦系数、传感器噪声的微小差异都可能导致失败。
3. 多物理场模拟的复杂度:刚体、可变形物体、流体、布料、软体的联合模拟,比单一物理域的模拟"昂贵数个数量级"。真实世界同时存在所有这些物理现象。
4. AI 生成几何的物理可用性:AI 生成的 3D 模型可能视觉上正确,但包含自交、错误比例等问题,导致物理仿真时产生无意义的结果。好看 ≠ 能用。
5. 评估标准缺失:语言模型有 benchmark(MMLU、HumanEval),但世界模型的评估体系尚未建立。什么叫"理解世界"?怎么量化?行业还没有共识。
写在最后
李飞飞在文章中回溯了 1980 年代以来的核心赌注:一个足够丰富的世界模型,是任何智能体"看见世界、构建世界和在世界中行动"所需的全部。
AI 的第一阶段,是机器学会说话。
AI 的第二阶段,是机器学会看见和生成世界。
AI 的第三阶段,是机器学会在世界里行动。
世界模型就是从第二阶段走向第三阶段的桥。而李飞飞给出的最清晰的路标是:不要问一家公司"是不是在做世界模型",而要问它的模型输出的是像素、状态还是动作——以及它有没有把这三者连起来的能力。
未来几年,最值得关注的不是把"世界模型"喊得最响的公司,而是能把 Renderer、Simulator、Planner 真正连起来的公司。因为只有三层连起来,机器才不只是会生成一个世界,而是能理解、推演并改变真实世界。
这是李飞飞所说的"空间智能的长弧"——从 ImageNet 到 World Labs,从让机器看见图片到让机器理解物理世界,这条路她走了二十年。
审批备注
以李飞飞文章为起点,我们梳理三层模式下世界模型参与者有哪些,也顺便看看世界模型是什么,为什么, 及存在什么问题。科普。
allan2 小时前更新