李飞飞：世界模型到底是什么？

本文背景：2026 年 6 月 3 日，斯坦福大学教授、World Labs CEO 李飞飞在 X 上发布长文《A Functional Taxonomy of World Models》（世界模型的功能分类法，Substack 全文），基于强化学习中经典的 POMDP 框架，将世界模型按功能分为三类——Renderer、Simulator、Planner，并论证 Simulator 是最被忽视但最关键的一层。以下是对该文章的解读与延伸分析。

从 AI 视频到物理仿真，再到机器人行动：看懂世界模型三层能力

如果只记住一句话：世界模型不是“会生成视频”的模型，而是让机器理解空间、时间和行动后果的底层能力。它可以分成三层：Renderer 负责把世界画出来，Simulator 负责把世界算出来，Planner 负责让机器在世界里行动。

一、为什么现在都在讲世界模型？

过去两年，大众最熟悉的 AI 是语言模型。它能写作、问答、推理、写代码，本质上是在学习文字世界里的规律。

但真实世界不是由文字构成的。真实世界由空间、时间、物体、光线、重力、摩擦、遮挡、碰撞和动作组成。

一个机器人要进工厂、进仓库、进家庭，光会“理解一句话”远远不够。它还要知道杯子在哪里、桌子有多高、手伸过去会不会撞到东西、抓起杯子后水会不会洒、下一步应该怎么移动。

这就是世界模型的意义：让 AI 不只会说世界，而是开始理解世界如何运行。

二、世界模型不是一个东西，而是三种能力

李飞飞的分类并非凭空提出，而是根植于强化学习中的经典框架——POMDP（部分可观测马尔可夫决策过程）。这个框架有一个核心区分：

· 状态（State）是世界的底层现实，对任何智能体都不直接可见。

· 观测（Observation）是智能体对现实的部分观察——就像你看到的只是世界的一个切面。

基于这个区分，李飞飞把世界模型拆成三种不同的输出功能：

第一层：Renderer，渲染器

输出：像素形式的观测数据。核心指标：视觉保真度。

Renderer 的任务是把世界"画出来"。你输入一句话，它生成一段视频；你给一张图，它让图里的人动起来。

但李飞飞特别指出一个关键局限：Renderer 对三维结构没有显式理解。它生成的是观看者"会看到的东西"，而非世界"实际的样子"。画面看起来真实，不代表背后有正确的物理结构。

· 典型代表：Google Genie 3、AI 视频生成模型（Sora、可灵、Seedance）。

· 商业成熟度：三层中最高，市场已在运转。

第二层：Simulator，模拟器

输出：世界状态本身——在几何、物理或动力学上忠实于现实。核心要求：结构契约。

Simulator 不只要画面好看，它要让世界的结构经得起检验：几何关系正确、物理遵守牛顿定律、动态行为符合真实规律。它的消费者不是人眼，而是计算机程序——强化学习算法、机器人控制器、工业数字孪生系统。

李飞飞的核心论断是：Simulator 是三层中最被忽视，但最具基础性的一层。她论证：

· 一个掌握模拟的模型，可以将理解向下投影为像素（供人类消费），也可以向上投影为动作预测（供具身智能体使用）。

· 仅掌握渲染或仅掌握规划的模型，都做不到这一点。

· NVIDIA Omniverse 估计 Simulator 的可寻址市场超过 1 万亿美元。

· 典型代表：World Labs Marble、NVIDIA Omniverse、智元 Genie Sim。

第三层：Planner，规划器

输出：动作选择。给定观测和目标，Planner 回答智能体下一步应该做什么。

这是渲染器的逆过程，闭合了"感知→行动"循环。机器人看到桌上的杯子，听到"把杯子放进水槽"，Planner 要把这个任务拆成识别、靠近、伸手、抓取、移动、放下等动作序列。

这一层最接近具身智能落地，但李飞飞也坦率指出：大多数机器人演示局限于"狭窄物体集和短任务视野的高度受限实验室环境"，实验室 Demo 和真实场景之间仍有巨大鸿沟。

· 典型代表：VLA 模型（Vision-Language-Action）、世界行动模型（WAM）。

· 融资热度：三层中最高，但落地验证最少。

三层正在融合

李飞飞在文中指出了一个关键趋势：三个类别正在互相融合。

World Labs 的 Marble 项目就是最好的例证——它从单一模型同时输出高斯椭球体（用于视觉探索）和碰撞网格（用于物理引擎操作），"溶解了渲染器和模拟器之间的边界"。

她描绘的终极方向是：一个统一的世界模型——一个基础模型，既能渲染照片级视图，又能产生物理准确结构，还能规划动作序列，根据下游需求切换输出模态。因为驱动这三种能力的底层知识——几何、物理、动力学——本质上是同一套。

三、为什么“会生成视频”还不够？

很多人第一次看到 AI 视频，会自然觉得模型已经“懂世界”了。因为画面里的人会走路，水会流动，车会转弯，火焰会燃烧。

但对机器人和工业系统来说，“像真的”不等于“能用”。

一个杯子在视频里被拿起来，看起来合理；但真实机械臂要拿起杯子，需要知道杯子的精确位置、重量、摩擦、抓取点、手指力度，以及拿起来后的稳定性。

所以世界模型的真正难点，不是只生成好看的画面，而是把画面背后的空间、物理和行动后果学出来。

四、中国公司图谱：谁在做哪一层？

下面按照三层功能放位。这里不是排名，而是帮助读者理解：这些公司分别在世界模型链条里的哪个位置发力。

A. Renderer 层：AI 视频与视觉世界生成

这一组公司的主要价值，是把世界以高质量画面生成出来。它们更接近内容生产、广告、影视、短剧、电商和交互视觉创作。

快手可灵 Kling

一句话看懂：国内 AI 视频产品化的代表。

为什么放这里：快手官方资料将可灵定位为自研视频生成大模型，面向文本/图像生成视频和创作场景。

值得关注：它的优势在短视频生态、用户规模和商业化速度。

字节 Seedance / 即梦

一句话看懂：多模态音视频生成的强势玩家。

为什么放这里：Seedance 2.0 官方页面和技术报告显示，它支持文本、图像、音频、视频输入，并采用音视频联合生成架构。

值得关注：它把视频生成从“单纯文生视频”推向更复杂的参考、编辑和音画一体。

阿里通义万相 Wan

一句话看懂：开源视频生成底座。

为什么放这里：Wan 技术报告将其定义为开放的大规模视频生成模型，覆盖文生视频、图生视频、视频编辑等任务。

值得关注：它的看点是开源生态和模型规模，对开发者很重要。

腾讯混元 HunyuanVideo

一句话看懂：腾讯系视频生成基础模型。

为什么放这里：HunyuanVideo 技术报告和开源仓库显示，它是腾讯混元团队推出的视频生成模型。

值得关注：它补上了腾讯在 AI 视频开源生态里的位置。

生数科技 Vidu

一句话看懂：从世界生成走向世界行动的跨层样本。

为什么放这里：生数官网把 Vidu 称为数字世界的“世界生成模型”，同时推出面向机器人的 MotuBrain。

值得关注：Vidu 更偏生成，MotuBrain 则说明生数正在往物理行动层延伸。

MiniMax 海螺 AI

一句话看懂：大众内容创作型视频模型。

为什么放这里：MiniMax 平台文档将海螺视频列为 Text to Video 与 Image to Video 模型。

值得关注：它适合被理解为高质量内容生产工具，而不是严格物理仿真系统。

智象未来 HiDream

一句话看懂：多模态视觉生成平台。

为什么放这里：官方资料显示其支持文本、图像、视频、3D 等多模态内容生成，并提出全模态世界模型方向。

值得关注：现阶段更适合先看作视觉生成公司，世界模型能力还要继续看公开验证。

阶跃星辰 Step-Video

一句话看懂：开源视频生成模型样本。

为什么放这里：Step-Video-T2V / TI2V 技术报告聚焦文本驱动视频生成和图像到视频生成。

值得关注：它是国产开源视频模型生态的重要补充。

B. Simulator 层：物理世界的训练场

这一组更接近世界模型的核心。它们不只要画面好看，还要让生成出来的世界可以被机器继续计算、交互和训练。

极佳视界 GigaAI

一句话看懂：具身世界模型创业公司的代表样本。

为什么放这里：GigaWorld-0 技术报告将世界模型作为数据引擎，用于增强具身 AI；GigaWorld-Policy 进一步指向动作中心的世界-动作模型。

值得关注：它值得重点看，因为路线直接指向机器人训练和动作预测。

蚂蚁灵波 Robbyant / LingBot-World

一句话看懂：大厂体系里的开源世界模拟器。

为什么放这里：LingBot-World 项目页和技术报告将其定位为面向具身 AI、自动驾驶和游戏的开源世界模拟器。

值得关注：它的意义在于把世界模型、VLA 和真实机器人数据放到同一条线上。

阿里达摩院 Rynn 系列

一句话看懂：空间记忆和具身基础模型路线。

为什么放这里：RynnBrain 技术报告显示其包含 Nav、Plan、VLA、CoP 等变体；RynnEC 强调具身世界中的细粒度感知。

值得关注：阿里的看点不是机器人本体，而是空间理解、具身语境和开源模型矩阵。

智元机器人 Genie Sim / GE-Sim / AGIBOT WORLD

一句话看懂：把仿真、数据和模型闭环放在一起的全栈样本。

为什么放这里：智元官方资料显示 Genie Sim 3.0 面向环境生成、仿真、数据与评测；AGIBOT WORLD 提供大规模机器人轨迹和场景数据。

值得关注：智元的重要性在于它不只做模型，还在搭建机器人训练基础设施。

商汤悟能 / 开悟世界模型

一句话看懂：视觉大厂切入具身训练场的样本。

为什么放这里：商汤官方将“悟能”定位为具身智能平台，以“开悟”世界模型为核心，为机器人和智能设备提供训练场。

值得关注：它适合观察视觉、多模态和算力基础如何进入物理 AI。

腾讯 Tairos / RoboFusion

一句话看懂：平台型具身智能底座。

为什么放这里：Tairos 官方页面展示仿真平台、数据平台、工具链和具身开源模型，覆盖感知、规划与行动模型。

值得关注：腾讯更像在做行业开放平台，而不是单个机器人产品。

生数科技 MotuBrain

一句话看懂：从 AI 视频跨向机器人行动的桥。

为什么放这里：生数官网将 MotuBrain 定位为“为机器人打造的世界行动模型”。

值得关注：这是视频生成公司向物理世界外溢的典型信号。

具脑磐石 EBKernel

一句话看懂：认知世界模型的待观察样本。

为什么放这里：公开报道显示其主打认知世界模型，并完成亿元级融资；但公开论文、开源模型和可复现实验仍相对有限。

值得关注：可以关注，但不宜过早视为已充分验证的成熟世界模型公司。

C. Planner 层：机器人真正行动的大脑

这一组最接近具身智能落地。它们的任务是把观察变成动作，把指令变成执行，把失败变成下一轮训练数据。

智元机器人 AgiBot

一句话看懂：国内全栈闭环样本。

为什么放这里：GO-2、Genie Studio、SOP 在线后训练、AGIBOT WORLD 和 Genie Sim 共同组成“模型-数据-部署-再训练”链路。

值得关注：智元最值得看的地方，是它同时抓住本体、数据、模型、仿真和部署。

智平方 AI2 Robotics

一句话看懂：全域全身 VLA 路线。

为什么放这里：公司官网披露 AlphaBrain 搭载 GOVLA，强调全空间理解、全身协同控制和复杂任务推理。

值得关注：它的看点是把 VLA 从单臂操作推向全身控制和真实生产力场景。

星海图 Galaxea

一句话看懂：双系统 VLA 和开放数据集样本。

为什么放这里：G0 技术报告和项目文档显示，G0 由高层 VLM 规划器和低层 VLA 执行器组成，并配套开放世界数据集。

值得关注：它代表“模型 + 数据集 + 工具链”的具身路线。

自变量机器人 X Square

一句话看懂：开源 VLA 与家庭场景泛化样本。

为什么放这里：Wall-OSS-0.5 技术报告显示其是开源 4B VLA，并在多本体、真实机器人任务上验证预训练能力。

值得关注：它的价值在于把预训练机器人能力直接拿到真实硬件上测。

蚂蚁灵波 LingBot-VLA / LingBot-VA

一句话看懂：数据和开源程度都很高的大厂样本。

为什么放这里：LingBot-VLA 技术报告披露约 2 万小时真实双臂机器人数据；LingBot-VA 走因果视频-动作世界模型路线。

值得关注：它是国内大厂中非常值得重点跟踪的 Planner 样本。

穹彻智能 Noematrix

一句话看懂：以力为中心的具身大脑。

为什么放这里：Noematrix Brain 官方介绍强调“以力为中心”的具身大模型、原子技能库、规划、记忆和执行。

值得关注：它补的是很多 VLA 不擅长的最后一厘米：力反馈、触觉和细腻操作。

原力灵机 Dexmal

一句话看懂：具身原生 VLA。

为什么放这里：DM0 技术报告强调 Embodied-Native VLA，Realtime-VLA 项目强调实时执行。

值得关注：它的核心差异是从一开始就为物理交互设计模型，而不是简单改造互联网 VLM。

它石智航 TARS

一句话看懂：AI World Engine 和自然行为数据路线。

为什么放这里：公开资料显示其 AWE 路线强调自然行为数据、全视角通感决策、高密度触觉感知和隐空间动作。

值得关注：它是自动驾驶方法论迁移到具身智能的重要样本。

京东 JoyAI-RA / 物流超脑

一句话看懂：物流仓储场景里的行动大脑。

为什么放这里：公开论文和报道显示京东围绕物流、仓储、分拣和具身数据采集布局机器人行动模型。

值得关注：京东的优势在高密度真实场景，而不是单个 Demo。

灵初智能 PsiBot

一句话看懂：长程任务与强化学习具身模型样本。

为什么放这里：官网披露 Psi R0、R0.5、R1 等端到端强化学习具身模型，强调长程任务和多技能串联。

值得关注：它适合观察中早期长程任务模型如何走向真实环境。

千寻智能 Spirit AI

一句话看懂：全身力控 VLA。

为什么放这里：官网披露 Spirit VLA 和全身力控机器人路线，强调跨场景泛化和精细物理交互。

值得关注：它的关键在于把全身力控本体和 VLA 模型绑定。

银河通用 Galbot

一句话看懂：零售补货场景里的 Planner。

为什么放这里：银河通用聚焦药店、商超、零售补货等真实任务，轮式双臂路线更偏可交付。

值得关注：它的价值在场景清晰，不是泛泛讲通用。

宇树科技 Unitree

一句话看懂：大规模本体出货带来的数据入口。

为什么放这里：宇树拥有大量四足和人形本体出货，并持续推进机器人模型与开发者生态。

值得关注：它的脑子价值来自“身体跑得足够多”。

优必选 UBTECH

一句话看懂：产业化场景里的机器人行动系统。

为什么放这里：优必选有上市公司平台和工业/商用场景积累，正在把机器人能力推向产线和服务场景。

值得关注：它更适合作为产业化落地样本看，而不是单纯按模型论文看。

五、看懂世界模型公司的六个问题

1. 它输出的是画面、状态，还是动作？

2. 它能不能持续交互，而不是只生成一次视频？

3. 它有没有三维一致性，换角度以后世界还在不在？

4. 它是否遵守基本物理规律，比如重力、碰撞、摩擦和遮挡？

5. 它能不能被机器人、自动驾驶或工业系统调用？

6. 它有没有真实数据闭环，比如真机轨迹、失败轨迹、客户现场和在线后训练？

这六个问题，比问“它是不是世界模型”更有效。

六、世界模型的前世今生与未来挑战

从认知科学到 AI：世界模型的起源

"世界模型"并非新概念。1971 年，认知科学家 Kenneth Craik 就提出人脑通过构建"小型模型"来预测外部事件。1980 年代，强化学习研究者开始用"环境模型"让智能体在模拟中学习。2018 年，David Ha 和 Jürgen Schmidhuber 发表《World Models》论文，首次将"世界模型"作为一个独立的 AI 架构组件，让智能体在"梦境"中训练。

但真正让这个概念爆发的，是 2023-2026 年的三股力量交汇：

· 视频生成的飞跃：Sora、可灵、Seedance 等模型证明 AI 可以生成连贯的视觉世界。

· 具身智能的需求：机器人要进工厂、进家庭，必须理解物理世界，不能只会说话。

· 资本的涌入：世界模型成为 AI 投资的新叙事焦点。

全球重大投资一览

过去两年，世界模型赛道的融资密度显著加速：

· World Labs（李飞飞创办）：累计融资超 2.3 亿美元，估值超 50 亿美元，投资方包括 a16z、Radical Ventures。

· Odyssey（前 Runway 联合创始人）：完成数千万美元融资，专注世界模拟器。

· Decart（以色列）：以游戏世界模型起步，获得 NVIDIA 等投资。

· 智元机器人 AgiBot：具身智能领域最大融资之一，Genie Sim + AGIBOT WORLD 构建仿真-数据闭环。

· 极佳视界 GigaAI、穹彻智能、灵初智能等中国创业公司：在世界模型-动作模型赛道持续获得融资。

投资热度的背后，是产业界的共识：语言模型解决了"机器会说话"的问题，世界模型要解决的是"机器能行动"的问题。

概念辨析：VLA、WM、WAM 到底什么关系？

当前具身智能领域有三个高频缩写经常被混用，有必要厘清：

WM（World Model，世界模型）：最广义的概念，泛指任何学习世界运行规律的模型。按李飞飞的分类，Renderer、Simulator、Planner 都属于世界模型的不同功能实现。

VLA（Vision-Language-Action Model，视觉-语言-动作模型）：本质上是 Planner 层的一种具体实现。它接收视觉观测和语言指令，直接输出机器人动作。代表：RT-2、Octo、OpenVLA、智平方 GOVLA、自变量 Wall-OSS。VLA 的优势是端到端简洁，劣势是缺乏对世界状态的显式建模——它不"理解"物理，只是学习输入到输出的映射。

WAM（World-Action Model，世界行动模型）：试图弥合 WM 和 VLA 之间的鸿沟。它在生成动作之前，先用世界模型预测行动的后果，然后基于预测做出更好的决策。代表：NVIDIA GROOT、蚂蚁灵波 LingBot-VA。WAM 的理想是让机器人在"想象中试错"，而不是在真实世界中犯错。

用一句话总结三者关系：WM 是认知基础，VLA 是行动捷径，WAM 是把认知和行动连起来的桥。

世界模型当前面临的困难

尽管热度极高，世界模型距离真正成熟还面临多重挑战：

1. 数据不均衡：Renderer 拥有近乎无限的互联网视频数据，但 Simulator 和 Planner 面临 3D 资产和机器人操作轨迹的严重短缺。李飞飞称之为"训练数据的结构性不对称"。

2. Sim-to-Real 鸿沟：在仿真环境中表现完美的模型，迁移到真实物理世界后性能往往大幅下降。材质、光照、摩擦系数、传感器噪声的微小差异都可能导致失败。

3. 多物理场模拟的复杂度：刚体、可变形物体、流体、布料、软体的联合模拟，比单一物理域的模拟"昂贵数个数量级"。真实世界同时存在所有这些物理现象。

4. AI 生成几何的物理可用性：AI 生成的 3D 模型可能视觉上正确，但包含自交、错误比例等问题，导致物理仿真时产生无意义的结果。好看 ≠ 能用。

5. 评估标准缺失：语言模型有 benchmark（MMLU、HumanEval），但世界模型的评估体系尚未建立。什么叫"理解世界"？怎么量化？行业还没有共识。

写在最后

李飞飞在文章中回溯了 1980 年代以来的核心赌注：一个足够丰富的世界模型，是任何智能体"看见世界、构建世界和在世界中行动"所需的全部。

AI 的第一阶段，是机器学会说话。

AI 的第二阶段，是机器学会看见和生成世界。

AI 的第三阶段，是机器学会在世界里行动。

世界模型就是从第二阶段走向第三阶段的桥。而李飞飞给出的最清晰的路标是：不要问一家公司"是不是在做世界模型"，而要问它的模型输出的是像素、状态还是动作——以及它有没有把这三者连起来的能力。

未来几年，最值得关注的不是把"世界模型"喊得最响的公司，而是能把 Renderer、Simulator、Planner 真正连起来的公司。因为只有三层连起来，机器才不只是会生成一个世界，而是能理解、推演并改变真实世界。

这是李飞飞所说的"空间智能的长弧"——从 ImageNet 到 World Labs，从让机器看见图片到让机器理解物理世界，这条路她走了二十年。

本文背景：2026 年 6 月 3 日，斯坦福大学教授、World Labs CEO 李飞飞在 X 上发布长文《A Functional Taxonomy of World Models》（世界模型的功能分类法，Substack 全文），基于强化学习中经典的 POMDP 框架，将世界模型按功能分为三类——Renderer、Simulator、Planner，并论证 Simulator 是最被忽视但最关键的一层。以下是对该文章的解读与延伸分析。

从 AI 视频到物理仿真，再到机器人行动：看懂世界模型三层能力

一、为什么现在都在讲世界模型？

过去两年，大众最熟悉的 AI 是语言模型。它能写作、问答、推理、写代码，本质上是在学习文字世界里的规律。

但真实世界不是由文字构成的。真实世界由空间、时间、物体、光线、重力、摩擦、遮挡、碰撞和动作组成。

这就是世界模型的意义：让 AI 不只会说世界，而是开始理解世界如何运行。

二、世界模型不是一个东西，而是三种能力

李飞飞的分类并非凭空提出，而是根植于强化学习中的经典框架——POMDP（部分可观测马尔可夫决策过程）。这个框架有一个核心区分：

· 状态（State）是世界的底层现实，对任何智能体都不直接可见。

· 观测（Observation）是智能体对现实的部分观察——就像你看到的只是世界的一个切面。

基于这个区分，李飞飞把世界模型拆成三种不同的输出功能：

第一层：Renderer，渲染器

输出：像素形式的观测数据。核心指标：视觉保真度。

Renderer 的任务是把世界"画出来"。你输入一句话，它生成一段视频；你给一张图，它让图里的人动起来。

· 典型代表：Google Genie 3、AI 视频生成模型（Sora、可灵、Seedance）。

· 商业成熟度：三层中最高，市场已在运转。

第二层：Simulator，模拟器

输出：世界状态本身——在几何、物理或动力学上忠实于现实。核心要求：结构契约。

李飞飞的核心论断是：Simulator 是三层中最被忽视，但最具基础性的一层。她论证：

· 一个掌握模拟的模型，可以将理解向下投影为像素（供人类消费），也可以向上投影为动作预测（供具身智能体使用）。

· 仅掌握渲染或仅掌握规划的模型，都做不到这一点。

· NVIDIA Omniverse 估计 Simulator 的可寻址市场超过 1 万亿美元。

· 典型代表：World Labs Marble、NVIDIA Omniverse、智元 Genie Sim。

第三层：Planner，规划器

输出：动作选择。给定观测和目标，Planner 回答智能体下一步应该做什么。

· 典型代表：VLA 模型（Vision-Language-Action）、世界行动模型（WAM）。

· 融资热度：三层中最高，但落地验证最少。

三层正在融合

李飞飞在文中指出了一个关键趋势：三个类别正在互相融合。

三、为什么“会生成视频”还不够？

很多人第一次看到 AI 视频，会自然觉得模型已经“懂世界”了。因为画面里的人会走路，水会流动，车会转弯，火焰会燃烧。

但对机器人和工业系统来说，“像真的”不等于“能用”。

所以世界模型的真正难点，不是只生成好看的画面，而是把画面背后的空间、物理和行动后果学出来。

四、中国公司图谱：谁在做哪一层？

下面按照三层功能放位。这里不是排名，而是帮助读者理解：这些公司分别在世界模型链条里的哪个位置发力。

A. Renderer 层：AI 视频与视觉世界生成

这一组公司的主要价值，是把世界以高质量画面生成出来。它们更接近内容生产、广告、影视、短剧、电商和交互视觉创作。

快手可灵 Kling

一句话看懂：国内 AI 视频产品化的代表。

为什么放这里：快手官方资料将可灵定位为自研视频生成大模型，面向文本/图像生成视频和创作场景。

值得关注：它的优势在短视频生态、用户规模和商业化速度。

字节 Seedance / 即梦

一句话看懂：多模态音视频生成的强势玩家。

为什么放这里：Seedance 2.0 官方页面和技术报告显示，它支持文本、图像、音频、视频输入，并采用音视频联合生成架构。

值得关注：它把视频生成从“单纯文生视频”推向更复杂的参考、编辑和音画一体。

阿里通义万相 Wan

一句话看懂：开源视频生成底座。

为什么放这里：Wan 技术报告将其定义为开放的大规模视频生成模型，覆盖文生视频、图生视频、视频编辑等任务。

值得关注：它的看点是开源生态和模型规模，对开发者很重要。

腾讯混元 HunyuanVideo

一句话看懂：腾讯系视频生成基础模型。

为什么放这里：HunyuanVideo 技术报告和开源仓库显示，它是腾讯混元团队推出的视频生成模型。

值得关注：它补上了腾讯在 AI 视频开源生态里的位置。

生数科技 Vidu

一句话看懂：从世界生成走向世界行动的跨层样本。

为什么放这里：生数官网把 Vidu 称为数字世界的“世界生成模型”，同时推出面向机器人的 MotuBrain。

值得关注：Vidu 更偏生成，MotuBrain 则说明生数正在往物理行动层延伸。

MiniMax 海螺 AI

一句话看懂：大众内容创作型视频模型。

为什么放这里：MiniMax 平台文档将海螺视频列为 Text to Video 与 Image to Video 模型。

值得关注：它适合被理解为高质量内容生产工具，而不是严格物理仿真系统。

智象未来 HiDream

一句话看懂：多模态视觉生成平台。

为什么放这里：官方资料显示其支持文本、图像、视频、3D 等多模态内容生成，并提出全模态世界模型方向。

值得关注：现阶段更适合先看作视觉生成公司，世界模型能力还要继续看公开验证。

阶跃星辰 Step-Video

一句话看懂：开源视频生成模型样本。

为什么放这里：Step-Video-T2V / TI2V 技术报告聚焦文本驱动视频生成和图像到视频生成。

值得关注：它是国产开源视频模型生态的重要补充。

B. Simulator 层：物理世界的训练场

这一组更接近世界模型的核心。它们不只要画面好看，还要让生成出来的世界可以被机器继续计算、交互和训练。

极佳视界 GigaAI

一句话看懂：具身世界模型创业公司的代表样本。

为什么放这里：GigaWorld-0 技术报告将世界模型作为数据引擎，用于增强具身 AI；GigaWorld-Policy 进一步指向动作中心的世界-动作模型。

值得关注：它值得重点看，因为路线直接指向机器人训练和动作预测。

蚂蚁灵波 Robbyant / LingBot-World

一句话看懂：大厂体系里的开源世界模拟器。

为什么放这里：LingBot-World 项目页和技术报告将其定位为面向具身 AI、自动驾驶和游戏的开源世界模拟器。

值得关注：它的意义在于把世界模型、VLA 和真实机器人数据放到同一条线上。

阿里达摩院 Rynn 系列

一句话看懂：空间记忆和具身基础模型路线。

为什么放这里：RynnBrain 技术报告显示其包含 Nav、Plan、VLA、CoP 等变体；RynnEC 强调具身世界中的细粒度感知。

值得关注：阿里的看点不是机器人本体，而是空间理解、具身语境和开源模型矩阵。

智元机器人 Genie Sim / GE-Sim / AGIBOT WORLD

一句话看懂：把仿真、数据和模型闭环放在一起的全栈样本。

为什么放这里：智元官方资料显示 Genie Sim 3.0 面向环境生成、仿真、数据与评测；AGIBOT WORLD 提供大规模机器人轨迹和场景数据。

值得关注：智元的重要性在于它不只做模型，还在搭建机器人训练基础设施。

商汤悟能 / 开悟世界模型

一句话看懂：视觉大厂切入具身训练场的样本。

为什么放这里：商汤官方将“悟能”定位为具身智能平台，以“开悟”世界模型为核心，为机器人和智能设备提供训练场。

值得关注：它适合观察视觉、多模态和算力基础如何进入物理 AI。

腾讯 Tairos / RoboFusion

一句话看懂：平台型具身智能底座。

为什么放这里：Tairos 官方页面展示仿真平台、数据平台、工具链和具身开源模型，覆盖感知、规划与行动模型。

值得关注：腾讯更像在做行业开放平台，而不是单个机器人产品。

生数科技 MotuBrain

一句话看懂：从 AI 视频跨向机器人行动的桥。

为什么放这里：生数官网将 MotuBrain 定位为“为机器人打造的世界行动模型”。

值得关注：这是视频生成公司向物理世界外溢的典型信号。

具脑磐石 EBKernel

一句话看懂：认知世界模型的待观察样本。

为什么放这里：公开报道显示其主打认知世界模型，并完成亿元级融资；但公开论文、开源模型和可复现实验仍相对有限。

值得关注：可以关注，但不宜过早视为已充分验证的成熟世界模型公司。

C. Planner 层：机器人真正行动的大脑

这一组最接近具身智能落地。它们的任务是把观察变成动作，把指令变成执行，把失败变成下一轮训练数据。

智元机器人 AgiBot

一句话看懂：国内全栈闭环样本。

为什么放这里：GO-2、Genie Studio、SOP 在线后训练、AGIBOT WORLD 和 Genie Sim 共同组成“模型-数据-部署-再训练”链路。

值得关注：智元最值得看的地方，是它同时抓住本体、数据、模型、仿真和部署。

智平方 AI2 Robotics

一句话看懂：全域全身 VLA 路线。

为什么放这里：公司官网披露 AlphaBrain 搭载 GOVLA，强调全空间理解、全身协同控制和复杂任务推理。

值得关注：它的看点是把 VLA 从单臂操作推向全身控制和真实生产力场景。

星海图 Galaxea

一句话看懂：双系统 VLA 和开放数据集样本。

为什么放这里：G0 技术报告和项目文档显示，G0 由高层 VLM 规划器和低层 VLA 执行器组成，并配套开放世界数据集。

值得关注：它代表“模型 + 数据集 + 工具链”的具身路线。

自变量机器人 X Square

一句话看懂：开源 VLA 与家庭场景泛化样本。

为什么放这里：Wall-OSS-0.5 技术报告显示其是开源 4B VLA，并在多本体、真实机器人任务上验证预训练能力。

值得关注：它的价值在于把预训练机器人能力直接拿到真实硬件上测。

蚂蚁灵波 LingBot-VLA / LingBot-VA

一句话看懂：数据和开源程度都很高的大厂样本。

为什么放这里：LingBot-VLA 技术报告披露约 2 万小时真实双臂机器人数据；LingBot-VA 走因果视频-动作世界模型路线。

值得关注：它是国内大厂中非常值得重点跟踪的 Planner 样本。

穹彻智能 Noematrix

一句话看懂：以力为中心的具身大脑。

为什么放这里：Noematrix Brain 官方介绍强调“以力为中心”的具身大模型、原子技能库、规划、记忆和执行。

值得关注：它补的是很多 VLA 不擅长的最后一厘米：力反馈、触觉和细腻操作。

原力灵机 Dexmal

一句话看懂：具身原生 VLA。

为什么放这里：DM0 技术报告强调 Embodied-Native VLA，Realtime-VLA 项目强调实时执行。

值得关注：它的核心差异是从一开始就为物理交互设计模型，而不是简单改造互联网 VLM。

它石智航 TARS

一句话看懂：AI World Engine 和自然行为数据路线。

为什么放这里：公开资料显示其 AWE 路线强调自然行为数据、全视角通感决策、高密度触觉感知和隐空间动作。

值得关注：它是自动驾驶方法论迁移到具身智能的重要样本。

京东 JoyAI-RA / 物流超脑

一句话看懂：物流仓储场景里的行动大脑。

为什么放这里：公开论文和报道显示京东围绕物流、仓储、分拣和具身数据采集布局机器人行动模型。

值得关注：京东的优势在高密度真实场景，而不是单个 Demo。

灵初智能 PsiBot

一句话看懂：长程任务与强化学习具身模型样本。

为什么放这里：官网披露 Psi R0、R0.5、R1 等端到端强化学习具身模型，强调长程任务和多技能串联。

值得关注：它适合观察中早期长程任务模型如何走向真实环境。

千寻智能 Spirit AI

一句话看懂：全身力控 VLA。

为什么放这里：官网披露 Spirit VLA 和全身力控机器人路线，强调跨场景泛化和精细物理交互。

值得关注：它的关键在于把全身力控本体和 VLA 模型绑定。

银河通用 Galbot

一句话看懂：零售补货场景里的 Planner。

为什么放这里：银河通用聚焦药店、商超、零售补货等真实任务，轮式双臂路线更偏可交付。

值得关注：它的价值在场景清晰，不是泛泛讲通用。

宇树科技 Unitree

一句话看懂：大规模本体出货带来的数据入口。

为什么放这里：宇树拥有大量四足和人形本体出货，并持续推进机器人模型与开发者生态。

值得关注：它的脑子价值来自“身体跑得足够多”。

优必选 UBTECH

一句话看懂：产业化场景里的机器人行动系统。

为什么放这里：优必选有上市公司平台和工业/商用场景积累，正在把机器人能力推向产线和服务场景。

值得关注：它更适合作为产业化落地样本看，而不是单纯按模型论文看。

五、看懂世界模型公司的六个问题

1. 它输出的是画面、状态，还是动作？

2. 它能不能持续交互，而不是只生成一次视频？

3. 它有没有三维一致性，换角度以后世界还在不在？

4. 它是否遵守基本物理规律，比如重力、碰撞、摩擦和遮挡？

5. 它能不能被机器人、自动驾驶或工业系统调用？

6. 它有没有真实数据闭环，比如真机轨迹、失败轨迹、客户现场和在线后训练？

这六个问题，比问“它是不是世界模型”更有效。

六、世界模型的前世今生与未来挑战

从认知科学到 AI：世界模型的起源

但真正让这个概念爆发的，是 2023-2026 年的三股力量交汇：

· 视频生成的飞跃：Sora、可灵、Seedance 等模型证明 AI 可以生成连贯的视觉世界。

· 具身智能的需求：机器人要进工厂、进家庭，必须理解物理世界，不能只会说话。

· 资本的涌入：世界模型成为 AI 投资的新叙事焦点。

全球重大投资一览

过去两年，世界模型赛道的融资密度显著加速：

· World Labs（李飞飞创办）：累计融资超 2.3 亿美元，估值超 50 亿美元，投资方包括 a16z、Radical Ventures。

· Odyssey（前 Runway 联合创始人）：完成数千万美元融资，专注世界模拟器。

· Decart（以色列）：以游戏世界模型起步，获得 NVIDIA 等投资。

· 智元机器人 AgiBot：具身智能领域最大融资之一，Genie Sim + AGIBOT WORLD 构建仿真-数据闭环。

· 极佳视界 GigaAI、穹彻智能、灵初智能等中国创业公司：在世界模型-动作模型赛道持续获得融资。

投资热度的背后，是产业界的共识：语言模型解决了"机器会说话"的问题，世界模型要解决的是"机器能行动"的问题。

概念辨析：VLA、WM、WAM 到底什么关系？

当前具身智能领域有三个高频缩写经常被混用，有必要厘清：

用一句话总结三者关系：WM 是认知基础，VLA 是行动捷径，WAM 是把认知和行动连起来的桥。

世界模型当前面临的困难

尽管热度极高，世界模型距离真正成熟还面临多重挑战：

4. AI 生成几何的物理可用性：AI 生成的 3D 模型可能视觉上正确，但包含自交、错误比例等问题，导致物理仿真时产生无意义的结果。好看 ≠ 能用。

5. 评估标准缺失：语言模型有 benchmark（MMLU、HumanEval），但世界模型的评估体系尚未建立。什么叫"理解世界"？怎么量化？行业还没有共识。

写在最后

李飞飞在文章中回溯了 1980 年代以来的核心赌注：一个足够丰富的世界模型，是任何智能体"看见世界、构建世界和在世界中行动"所需的全部。

AI 的第一阶段，是机器学会说话。

AI 的第二阶段，是机器学会看见和生成世界。

AI 的第三阶段，是机器学会在世界里行动。

这是李飞飞所说的"空间智能的长弧"——从 ImageNet 到 World Labs，从让机器看见图片到让机器理解物理世界，这条路她走了二十年。

李飞飞：世界模型到底是什么？

一、为什么现在都在讲世界模型？

二、世界模型不是一个东西，而是三种能力

第一层：Renderer，渲染器

第二层：Simulator，模拟器

第三层：Planner，规划器

三层正在融合

三、为什么“会生成视频”还不够？

四、中国公司图谱：谁在做哪一层？

A. Renderer 层：AI 视频与视觉世界生成

B. Simulator 层：物理世界的训练场

C. Planner 层：机器人真正行动的大脑

五、看懂世界模型公司的六个问题

六、世界模型的前世今生与未来挑战

从认知科学到 AI：世界模型的起源

全球重大投资一览

概念辨析：VLA、WM、WAM 到底什么关系？

世界模型当前面临的困难

写在最后

审批备注

李飞飞：世界模型到底是什么？

一、为什么现在都在讲世界模型？

二、世界模型不是一个东西，而是三种能力

第一层：Renderer，渲染器

第二层：Simulator，模拟器

第三层：Planner，规划器

三层正在融合

三、为什么“会生成视频”还不够？

四、中国公司图谱：谁在做哪一层？

A. Renderer 层：AI 视频与视觉世界生成

B. Simulator 层：物理世界的训练场

C. Planner 层：机器人真正行动的大脑

五、看懂世界模型公司的六个问题

六、世界模型的前世今生与未来挑战

从认知科学到 AI：世界模型的起源

全球重大投资一览

概念辨析：VLA、WM、WAM 到底什么关系？

世界模型当前面临的困难

写在最后

审批备注