hidden: true
§1 发展历程
世界模型的历史横跨三十余年,从认知科学边缘概念演变为 2025–2026 年产业热点,可分为四个阶段。
阶段一:学术起源(1990–2017)
1990 年,Jürgen Schmidhuber 发表《Making the World Differentiable》,提出智能体可在内部维护一个对外部环境的压缩表征,并借此在"想象"中规划行动,无需每次都与真实环境交互。这一思想直接预示了今天世界模型的核心价值主张:用内部模型替代昂贵的真实世界采样。Schmidhuber 此后长期在 IDSIA(达尔文人工智能研究所)持续推进相关工作,是该领域最早的奠基人。
2018 年,David Ha(时在 Google Brain,后成为 Stability AI CEO)与 Schmidhuber 合作发表《World Models》,将概念系统化为三模块架构:V(视觉编码器,基于 VAE)+ M(循环神经网络 MDN-RNN,世界模型本体)+ C(线性控制器)。智能体在 M 生成的"梦境"中训练 C,再迁移到真实环境——这是首个端到端实现,在 CarRacing 和 VizDoom 等游戏环境中验证了"在梦中学习"的可行性。
这一阶段的特征是:理论清晰、规模有限、任务域窄。所有验证都局限于简单游戏环境,与真实物理世界的差距巨大。
阶段二:深度强化学习融合期(2019–2022)
DeepMind 的 Dreamer 系列将世界模型推进到强化学习主战场。2020 年 DreamerV1(ICLR 2020)引入 RSSM(循环状态空间模型),在潜空间中展开想象轨迹训练 Actor-Critic,首次在连续控制任务上取得竞争性成绩。2021 年 DreamerV2 将 Atari 游戏成绩提升至超越人类水平。
2022 年是这一阶段的思想转折点。Yann LeCun 发布长文《A Path Towards Autonomous Machine Intelligence》,系统批判生成式路线:真正的世界模型不应在像素层面重建未来,而应在抽象潜空间中预测高阶结构——无关的视觉细节(光线变化、纹理噪声)是噪音,不应浪费模型容量去重建。JEPA(联合嵌入预测架构)由此正式立论,成为与生成式路线对立的独立技术派系。LeCun 时任 Meta AI(FAIR)首席 AI 科学家,这一主张迅速引发广泛论战。
2022 年同期,DreamerV3 开始研发,目标是将世界模型扩展到 150+ 任务并使用单一超参数——它将在下一阶段完成并登上 Nature。
阶段三:大模型交汇期(2023–2024)
这一阶段的核心特征是:世界模型与大规模预训练范式(Transformer、扩散模型)深度融合,规模陡增,工业界密集入场。
2023 年:
- DreamerV3 发布(2023.1):150+ 任务、单一超参数集,首个在 Minecraft 中自主收集钻石的算法,无需任何人工奖励设计。2025 年 4 月正式登 Nature。
- Meta I-JEPA 发布(2023.6):图像级 JEPA 首个大规模实现,训练效率比同类监督方法提升约 5 倍,验证了潜空间预测路线的扩展性。
- Wayve GAIA-1 发布(2023.6):9B 参数,专为自动驾驶设计的生成式世界模型,从真实驾驶视频学习场景生成,是工业界首个大规模商业世界模型系统。
- UniSim(Google,2023.10,ICLR 2024):通用真实世界交互仿真器,首次验证世界模型生成的合成交互数据可实现零样本 Sim-to-Real 迁移。
2024 年:
- OpenAI Sora 发布(2024.2):OpenAI 自称"世界模拟器",以极高的视频保真度震撼业界,同时引发关于"像素生成是否等于物理理解"的路线论战——LeCun 明确回应 Sora 不是真正的世界模型。
- Meta V-JEPA 发布(2024.2):视频级 JEPA,使用 200 万小时无标签视频训练,将 JEPA 扩展到时序理解。
- DeepMind Genie 1 发布(2024.2):11B 参数,从无标签视频无监督生成可交互 2D 游戏世界,展示了"观察即学习"的能力上限。
- World Labs 成立(2024.9):李飞飞离开斯坦福创业,聚焦 3D 空间智能,完成 2.3 亿美元融资,估值 10 亿美元。3D 空间世界模型作为独立方向首次获得顶级资本背书。
阶段四:产业加速期(2025–2026)
2025 年:
- NVIDIA Cosmos 发布(CES 2025.1):2000 万小时、90,000T tokens 视频训练,Predict(视频预测)+ Transfer(Sim-to-Real 迁移)+ Reason(7B 推理 VLM,内置 step-by-step 物理推理)三条产品线,是迄今规模最大的工业级世界模型平台。1X Technologies、Figure AI、Agility Robotics 等机器人公司成为首批采用方。
- Meta V-JEPA 2 发布(2025.6):V-JEPA 2-AC 变体实现零样本机械臂规划,在真实 Franka 机械臂拾放任务成功率 65–80%,速度比 Cosmos 快 30 倍,仅用 62 小时无标签机器人视频训练——JEPA 路线首个里程碑级具身落地验证。
- DeepMind Genie 3(2025.8):实现 720p、24fps 实时可交互世界生成,生成式路线在实时化方向取得重大突破。
- 宇树科技开源 UnifoLM-WMA-0(2025.9):中国机器人硬件公司首个开源世界模型,推动国内具身智能数据生态共享。
- Physical Intelligence 完成 6 亿美元 B 轮(2025.11),估值 56 亿美元。
2026 年:
- World Labs 完成 10 亿美元融资(2026.2),Autodesk 战略投 2 亿,估值约 50 亿美元。空间智能赛道资本确认。
- AMI Labs 成立并完成 10.3 亿美元种子轮(2026.3),Yann LeCun 主导,以 JEPA 为核心架构,估值 35 亿美元,欧洲史上最大种子轮。JEPA 路线正式获主流资本大规模押注。
§2 技术路线与派系
世界模型当前形成三条主要技术路线,背后是关于"什么叫真正理解物理世界"的根本性哲学分歧。
路线一:生成式世界模型(VAE / 扩散 / 视频生成方向)
技术逻辑
将世界建模为连续视频帧序列。给定历史帧与动作条件,模型学习预测未来帧的像素分布。训练目标是最小化生成帧与真实帧的重建误差(或对抗损失),直接利用互联网规模的无标注视频。扩散 Transformer 架构的引入使生成质量和时序一致性大幅提升。
派系理念
生成式路线的核心主张是:感知保真度是物理理解的前提。如果模型能够准确预测每一帧的像素变化,它就必须隐式编码了物理规律。Sora、Cosmos、Genie 的支持者认为,扩大规模将自然涌现出物理因果理解能力,正如 LLM 扩大规模后涌现出逻辑推理能力。
代表人物
- Jürgen Schmidhuber(IDSIA / AI-SDV):世界模型概念奠基人,1990 年代即提出自预测压缩表征。其 2018 年与 David Ha 合作的 VAE-RNN 三模块框架奠定了生成式路线的基础架构。
- David Ha(前 Google Brain,前 Stability AI CEO):《World Models》论文一作,将生成式世界模型从概念推向可重复实验,推动该范式被更广泛的强化学习社区接受。
代表系统
| 系统 | 机构 | 规模 | 核心特点 |
|---|---|---|---|
| NVIDIA Cosmos | NVIDIA | 2000 万小时视频,90,000T tokens | 扩散+自回归双轨,含 Reason(7B 推理 VLM),Physical AI 基础设施定位 |
| Genie 2 / 3 | Google DeepMind | 11B+ | 单图生成可交互世界,Genie 3 达 720p 24fps 实时 |
| Wayve GAIA-3 | Wayve | 15B,9 国数据 | 自动驾驶多视角场景生成,覆盖 9 国 3 大洲 |
| Runway GWM-1 | Runway | 未披露 | GWM-Robotics 支持动作轨迹条件视频预测与反事实生成 |
| OpenAI Sora | OpenAI | 未披露 | 极高视觉保真度,定位"世界模拟器" |
核心挑战
| 挑战 | 具体表现 | 根本原因 |
|---|---|---|
| 物理一致性 | 玻璃破碎、液体流动、刚体碰撞无法正确模拟 | 以像素重建为目标,未显式建模物理定律 |
| 长时一致性 | 超过数分钟后场景状态失真 | 自回归误差累积,无全局约束 |
| 推理速度 | 难以支持高频实时机器人规划(>10Hz) | 扩散/自回归推理计算量大 |
| 因果控制 | 难以正确预测干预如何改变事件走向 | 捕捉统计相关性而非物理因果机制 |
路线二:JEPA / 能量模型路线(潜空间预测方向)
技术逻辑
JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)的核心是:不在像素层面重建未来,而在抽象潜空间中预测未来状态。上下文(当前帧)与目标(未来帧)被映射到同一表征空间,预测器在潜空间内完成预测。光线变化、纹理噪声等不影响行为的细节被自然过滤,模型被迫学习高阶结构特征。
派系理念
Yann LeCun(Meta AI / FAIR 首席 AI 科学家,AMI Labs 创始人)是 JEPA 路线的绝对核心人物。LeCun 的核心论点:生成式路线本质上是在预测无关信息。世界是部分可观测的,未来有无数可能,要求模型精确生成每一像素是错误的训练目标,这会迫使模型将计算资源浪费在无关细节上。真正的世界模型应该预测"哪些事情会发生"的抽象表征,而非"画面看起来是什么样子"。
LeCun 在 2022 年的长文《A Path Towards Autonomous Machine Intelligence》中将这一理念系统化,明确指出自回归语言模型和生成式视频模型都无法通往真正的物理理解,JEPA 才是通向自主机器智能的路径。他将能量模型(EBM)框架引入世界模型,用"能量"度量上下文与目标的兼容性,避免了生成式路线必须对所有可能未来建模的计算困境。
代表系统
| 系统 | 机构 | 发布时间 | 核心进展 |
|---|---|---|---|
| I-JEPA | Meta AI | 2023.6 | 图像级 JEPA,训练效率比同类提升约 5× |
| V-JEPA | Meta AI | 2024.2 | 200 万小时无标签视频,首个大规模视频 JEPA |
| V-JEPA 2 / 2-AC | Meta AI | 2025.6 | 零样本机械臂规划成功率 65–80%,速度比 Cosmos 快 30× |
| AMI Labs 世界模型 | AMI Labs | 研发中(2026+) | JEPA 为核心,目标通用世界模型,10.3 亿美元种子轮支撑 |
具身优势:V-JEPA 2-AC 仅使用 62 小时无标签机器人视频,通过 MPC(模型预测控制)在真实 Franka 机械臂上实现零样本拾放任务,速度比 Cosmos 快 30 倍。这个结果对具身应用场景意义重大:机器人实时控制要求规划频率 >10Hz,生成式路线的推理成本在此场景下构成根本性障碍。
核心挑战
| 挑战 | 具体表现 | 根本原因 |
|---|---|---|
| 可解释性差 | 无法直接"看到"预测结果,调试困难 | 预测在潜空间内完成,无像素解码 |
| 评估困难 | FVD/PSNR 等传统指标失效 | 潜空间无直接像素对应 |
| 潜空间坍缩风险 | 表征退化为常数 | 需要专门的正则化策略(如 VICReg) |
| 数据引擎场景受限 | 无法直接生成合成训练视频 | 不输出像素,难以用于视觉数据扩增 |
路线三:混合 / 具身应用路线
技术逻辑
混合路线不追求单一范式的纯粹性,而是结合生成式解码(保留视觉保真度)与潜空间规划(保留效率),或将预训练大模型语义能力与任务专用世界模型结合。代表架构包括 RSSM(循环状态空间模型,既在潜空间规划又可像素解码)和 VLM backbone + 流匹配动作头。
代表系统
- DreamerV3(DeepMind/Google):RSSM 潜状态 + 像素解码器,150+ 任务单一超参数,无奖励设计自主获取 Minecraft 钻石,2025.4 登 Nature。技术上是当前强化学习 + 世界模型融合最成熟的系统。
- Physical Intelligence π0 / π0.5:预训练 VLM backbone(继承语义知识)+ 流匹配(flow matching)动作头。2025.2 开源,支持折叠衣物、组装箱子、整理餐桌、制作咖啡等 10+ 多样任务,是当前最接近商业化的具身原生世界模型系统。π0.5 进一步强化开放世界环境泛化。
路线对比总结
| 维度 | 生成式路线 | JEPA 路线 | 混合路线 |
|---|---|---|---|
| 代表人物 | Schmidhuber、David Ha | Yann LeCun | Danijar Hafner(DreamerV3)、Sergey Levine(π) |
| 训练目标 | 像素重建 / 视频预测 | 潜空间状态预测 | 潜空间规划 + 可选像素解码 |
| 物理保真度 | 视觉逼真,物理一致性弱 | 物理结构提取强,不输出像素 | 中等,取决于解码器设计 |
| 推理速度 | 慢(扩散/自回归) | 快(30× vs Cosmos) | 中等 |
| 数据引擎能力 | 强(可直接生成合成视频) | 弱 | 中等 |
| 具身实时规划 | 受限 | 强 | 中等 |
§3 全球世界模型公司图谱
通用世界模型平台
| 公司 | 成立 | 核心产品/模型 | 代表融资 |
|---|---|---|---|
| NVIDIA | 1993 | Cosmos(Predict / Transfer / Reason 三条产品线,2000 万小时视频训练) | 上市公司(NVDA) |
| Google DeepMind | 2010/2023 合并 | Genie 系列(1/2/3)、DreamerV3、UniSim | Alphabet 旗下 |
| Meta AI(FAIR) | 2013 | I-JEPA、V-JEPA、V-JEPA 2(开源) | Meta 旗下 |
| OpenAI | 2015 | Sora(定位"世界模拟器",暂未开放 API) | 未公开,估值约 3000 亿美元(2025) |
具身智能世界模型
| 公司 | 成立 | 核心产品/模型 | 代表融资 |
|---|---|---|---|
| World Labs(李飞飞) | 2024 | 3D 空间智能世界模型(产品未公开) | 10 亿美元融资,估值约 50 亿美元(2026.2);此前 2.3 亿美元(2024.9) |
| AMI Labs(Yann LeCun) | 2025 | JEPA 通用世界模型(研发中) | 10.3 亿美元种子轮,估值 35 亿美元(2026.3) |
| Physical Intelligence | 2024 | π0(开源)、π0.5 | 6 亿美元 B 轮,估值 56 亿美元(2025.11);A 轮 7000 万美元(2024) |
| Wayve | 2017 | GAIA-1/2/3(自动驾驶生成世界模型) | D 轮 10.5 亿美元(2024),估值超 25 亿美元 |
| Runway | 2018 | GWM-1(含 GWM-Robotics 变体) | 未披露最新轮次 |
| 1X Technologies | 2014 | Eve / NEO 人形机器人,采用 NVIDIA Cosmos | 1 亿美元 A2 轮(2024,Microsoft 领投) |
中国玩家
| 公司 | 成立 | 核心产品/模型 | 代表融资 |
|---|---|---|---|
| 商汤科技 | 2014 | "开悟"3.0(自动驾驶世界模型)+"悟能"具身平台 | 上市公司(00020.HK) |
| 华为 | 1987 | 盘古世界模型、CloudRobo(20%+80% 合成数据策略) | 非上市 |
| 智源研究院(BAAI) | 2018 | UniSim-ZH 等研究项目 | 北京市政府背景 |
| 阶跃星辰 | 2023 | Step-Video 等多模态基础模型,含视频预测能力 | 数亿元融资(2023–2024) |
| 智谱 AI | 2019 | GLM 系列,CogVideo 视频生成方向 | 数十亿元融资 |
| 宇树科技 | 2016 | UnifoLM-WMA-0(2025.9 开源,中国首个机器人开源世界模型) | 未披露最新轮次 |
| 银河通用 | 2023 | 具身操作世界模型,与商汤"悟能"合作 | 未披露 |
§5 投资情况汇总
以下为近两年(2024–2026 年 Q1)主要融资事件,时间倒序排列:
| 时间 | 公司 | 轮次 | 金额 | 估值 | 主要投资方 |
|---|---|---|---|---|---|
| 2026.3 | AMI Labs(Yann LeCun) | 种子轮 | 10.3 亿美元 | 35 亿美元 | 未完全披露 |
| 2026.2 | World Labs(李飞飞) | 新一轮 | 10 亿美元 | 约 50 亿美元 | Autodesk(战略投 2 亿)、a16z 等 |
| 2025.11 | Physical Intelligence | B 轮 | 6 亿美元 | 56 亿美元 | Thrive Capital 等 |
| 2025.3 | World Labs | A 轮追加 | 未披露 | — | — |
| 2024.9 | World Labs | A 轮 | 2.3 亿美元 | 10 亿美元 | a16z、NEA 等 |
| 2024.5 | Wayve | D 轮 | 10.5 亿美元 | 超 25 亿美元 | SoftBank、Microsoft、NVIDIA |
| 2024.3 | Physical Intelligence | A 轮 | 7000 万美元 | — | Sequoia、Lux Capital 等 |
| 2024.2 | 1X Technologies | A2 轮 | 1 亿美元 | — | Microsoft 领投 |
阶段性特征:2025–2026 年是该赛道资本最密集进入的 24 个月。World Labs、AMI Labs、Physical Intelligence 三大标的合计融资超 26 亿美元,合计估值超 140 亿美元,全部在 15 个月内完成。当前估值以 30–60 亿美元为主,更多反映技术期权价值而非收入现金流——尚无世界模型纯标的突破 100 亿美元估值,是资本对"技术验证期末尾、产业化早期"的合理定价。
资本关注三个细分方向:
- 通用世界模型平台(World Labs、AMI Labs):押注基础设施逻辑,高估值、高风险;
- 具身原生基础模型(Physical Intelligence):押注机器人软件栈,商业路径相对清晰;
- 自动驾驶世界模型商业化(Wayve):最成熟的商业模式,已进入多车厂合作阶段。
§6 市场规模分析
世界模型作为独立市场品类尚无专项调研数据,以下数据均来自相关上下游赛道,来源均注明,未作推算外推。
具身 AI / Physical AI 市场(世界模型为其核心基础设施之一)
- 全球具身 AI 市场 2025 年达 44.4 亿美元,预计 2030 年达 230.6 亿美元,CAGR 约 39.0%
- 来源:MarketsandMarkets, Embodied AI Market, 2025
- 地区结构:北美 2024 年占比约 36.9%;亚太预计 2030 年成为最大市场,中日韩为核心驱动力
人形机器人细分
- Goldman Sachs 预测 2035 年全球人形机器人市场达 380 亿美元(2023 年报告)
- 来源:Goldman Sachs Global Investment Research, Humanoid Robots: Walking and Working Alongside Humans, Jan 2024
自动驾驶世界模型渗透率(中国)
- 中国超过 80% 的自动驾驶算法已采用世界模型辅助训练
- 来源:Frost & Sullivan,《2025 年中国世界模型发展白皮书》(2025 年发布)
数据说明:目前尚无机构发布"世界模型"独立品类的市场规模报告。世界模型的主要价值目前以嵌入方式实现(合成数据引擎、RL 训练环境、自动驾驶数据增强),难以独立核算市场规模。上述数据反映的是其服务的下游市场体量,而非世界模型本身的直接市场规模。随着 World Labs、AMI Labs 等公司逐步商业化,预计 2027 年后将出现针对世界模型平台 API 的独立市场数据。