黄冠

创始人兼CEO

履历简介

计算机视觉与物理AGI

清华大学自动化系创新领军工程博士，曾任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁，具备微软亚洲研究院、三星中国研究院顶尖研究机构工作经历。团队在FRVT、COCO、VOT三项计算机视觉世界冠军及BEVDet自动驾驶感知方向均有标志性成果。2023年创立极佳视界，以「物理AGI原生架构」为核心，推出GigaBrain具身基模、GigaWorld世界模型与Maker H01人形机器人，完成Pre-B近10亿元融资。

教育背景

华中科技大学·学士（自动化）2005-2009

中国科学院自动化研究所·硕士（模式识别）2009-2013

清华大学·创新领军工程博士（自动化）

职业履历

2015

微软亚洲研究院 · 实习研究员

接触前沿深度学习研究，与何恺明、孙剑等共事，ResNet诞生时期。

2016-2021

地平线机器人 · 视觉感知技术负责人

带领百人AI研发团队，COCO、FRVT等全球视觉AI竞赛多次冠军。

2021-2023

鉴智机器人 · 合伙人&算法副总裁

做出BEVDet系列——鸟瞰视角感知三维空间的模型，成为自动驾驶算法主流范式。

2023至今

极佳视界 · 创始人兼CEO

创立极佳视界，提出「物理AGI原生架构」，发布DriveDreamer世界模型、GigaBrain具身基模、Maker H01人形机器人。

代表成果

BEVDet

自动驾驶，2022

鸟瞰视角感知三维空间的模型系列，成为BEV感知方向被引用最广、被工业界最早采纳的方法之一。

DriveDreamer

世界模型，2023

国内首个面向物理世界的自动驾驶世界模型，后续迭代DriveDreamer2、DriveDreamer4D、ReconDreamer等。

GigaBrain具身基模

具身智能，2025

GigaBrain-0.1全球真机评测第一；GigaBrain-0.5M*为全球首个基于世界模型的强化学习具身基模。

Maker H01

人形机器人，2025

双臂+移动底盘人形机器人，身高1.6m，20+自由度，全栈自研。2026年2月启动规模化量产交付。

视界一粟YiSu

视频生成，2024

国内首个模型原生16秒视频生成模型，已在影视、游戏领域实现商业落地。

荣誉与奖项

·FRVT人脸识别世界冠军
·COCO通用物体检测世界冠军
·VOT视觉跟踪世界冠军
·BEVDet自动驾驶感知方向标志性成果
·中关村U30
·奇绩创坛校友

行业影响

黄冠是中国物理AI/世界模型方向最早的系统性探索者之一。BEVDet定义了自动驾驶BEV感知范式，DriveDreamer开创了国内自动驾驶世界模型方向。极佳视界从智驾世界模型延伸至具身智能，形成「物理AGI原生架构」完整技术栈，华为哈勃连续两轮参投验证了产业判断。

当前动态

2026年初完成Pre-B近10亿元融资，Maker H01人形机器人启动规模化量产交付，全年目标冲刺千台。GigaBrain具身基模持续迭代，GigaWorld世界模型实现世界-动作模型实时性突破。

历史定位

从BEVDet到DriveDreamer到GigaBrain，黄冠用十五年时间回答同一个问题：机器如何真正看懂物理世界。他是从自动驾驶视觉感知走向通用物理AGI的最早实践者之一。

深度档案

一、从自动化系到「看懂物理世界」：一条有内在逻辑的十五年

来源：中关村U30专访 / 奇绩创坛路演披露 / 2024–2025年

黄冠第一次意识到自己要做什么，大约是在2013年前后。那时他在中国科学院自动化研究所读硕士，专注模式识别，而就在同一年，AlexNet横空出世，深度学习引爆了整个计算机视觉领域。他后来回忆那段时光：「我们看到了整个AI和视觉智能巨大的潜力，决定更加深入地研究视觉方向。」这句话听起来像回望，但实际上是一种很早就锁定的方向感——他不是在追风口，而是在一个历史节点上看清楚了一件事，然后沿着这个判断走了十几年。

本科是华中科技大学自动化系。他说选这个专业是因为「自动化是结合硬件、软件和系统设计的综合学科，其广泛的知识体系为我打开了迈向计算机视觉的窗口」。这个看起来有些泛化的描述，背后藏着一种工科思维的底色：不满足于单点技术，要把感知、决策、控制串在一起。这种思维方式后来在他的每一段经历里都留下印记。

2015年，他进入微软亚洲研究院实习。那是一个密度极高的智识环境——何恺明在那里，孙剑在那里，ResNet就是那段时间诞生的。黄冠自己说，是在那里「接触前沿技术和开创性研究的宝贵机会，在中国较早开始深度学习研究和落地」。这段经历的意义不只是技术层面的，更是视野的刻度：他见过那个时代最顶尖的视觉AI研究者是怎么工作的，怎么定义问题的，怎么把一个想法变成改变行业的论文。

2016年他加入地平线机器人，负责视觉感知。在那里，他带领团队参加COCO、FRVT等全球视觉AI竞赛，多次拿到冠军，「在视觉感知领域取得了重要进展」。这段经历让他完成了从研究者到技术管理者的转变——他开始懂得怎么带百人AI研发团队，怎么在工程约束和算法边界之间找到突破口。

离开地平线之后，他以合伙人身份参与创办了鉴智机器人，专注自动驾驶。在那里，他们做出了BEVDet——一套从鸟瞰视角感知三维空间的模型系列。BEV感知后来成为自动驾驶算法的主流范式，BEVDet是这个方向上被引用最广、被工业界最早采纳的方法之一。那是他第一次真正在一个技术方向上留下了行业印记。

2023年，他创立极佳视界。

二、「从数字世界的AGI走向物理世界的AGI」：他怎么看这件事

来源：雷峰网论坛 / 智东西论坛 / 赛博汽车专访 / 2023–2024年

为什么是2023年？为什么是这件事？

黄冠给出过一个很清晰的自动驾驶历史框架。第一阶段是Waymo，用高精地图和L4系统化运营，代价是成本极高、场景极窄。第二阶段是特斯拉，靠视觉和AI降成本、提泛化性，让自动驾驶从「特殊场景工程」变成「可规模化的产品」。第三阶段，是大模型——

「它会把这个行业的上限无限撑高，走向L4或者AGI，并且同时提升数据、研发、测试等各个层面的效率。」

他在2023年9月的一次公开论坛上讲这段话，台下是一群还在讨论渐进式功能迭代的自动驾驶从业者。他说的不是「大模型会有用」，而是在陈述一个他认为已经确定的历史逻辑。

他对大模型在自动驾驶里的作用，有一个很具体的判断，不是抽象的「赋能」。他举了一个例子：

「我知道开车不能走悬崖，但现在的自动驾驶方案既识别不了悬崖，也不知道能不能走——但语言大模型是知道的。」

这句话点出了纯视觉感知系统的根本局限：没有认知，只有感知。机器能看见，但不理解「看见的东西意味着什么」。他的结论是：「冷启动不是只靠驾驶数据训出来的模型，那样永远没有认知，没有多模态能力。语言模型已经见过海量数据，有非常强的认知能力。」语言必须引进来，不是作为附加功能，而是作为构建认知的基础。

他对这个趋势的最终判断，是2023年在雷峰网论坛上说的一句话：

「大模型对从驾驶到具身智能到通用机器人，都会带来很不一样的东西，会从数字世界的AGI走向物理世界的AGI。」

这句话后来几乎成了极佳视界整个战略逻辑的注脚。

三、DriveDreamer：国内最早做世界模型的人之一

来源：亿欧汽车论坛 / 亿咖通合作公告 / 中关村U30 / 2023–2024年

2023年8月，极佳视界发布了DriveDreamer——国内首个面向物理世界的自动驾驶世界模型。这不是一个改进既有系统的工作，而是一个方向性的声明：不做更好的感知模型，要做能理解和预测物理世界的生成式模型。业界把它视为这个方向的奠基性工作之一。

2024年底，极佳的产品负责人孙韶言在亿欧汽车论坛上代表公司阐述了他们对世界模型技术路线的看法。那次演讲把行业的选择说得很直白：很多公司选择纯3D重建路线，但这条路有结构性缺陷——

「对不可见的视角无法重建。当视角偏移时就会出现很多问题，比如模糊、空洞、拖影。」

极佳的答案是把生成和重建融合在一起，「弥补重建看不见的盲区」。技术方案是「融合图像、3D和视频生成三方面能力构建的4D基础大模型」，具备对4D空间的理解、重建、预测和交互能力。

此后论文发布节奏维持了相当高的密度：DriveDreamer2、DriveDreamer4D、ReconDreamer，WorldDreamer，HumanDreamer——每一篇都是对同一个核心问题的不同切面的探索：如何让模型真正理解物理世界的四维结构，而不只是拟合二维图像的统计规律。

与此同时，极佳视界把这套能力商业化：与亿咖通合作共建智能驾驶仿真平台，针对Corner case量化生成数据；推出视频生成模型「视界一粟YiSu」——国内首个模型原生16秒视频生成模型，已在影视、游戏领域实现商业落地。

四、从世界模型到具身智能：「物理AGI原生架构」

来源：智东西论坛 / 中关村U30 / 奇绩创坛路演 / 2024–2025年

2024年5月，黄冠在智东西论坛上说了一句话，可以视为他对整个技术路线的最简洁表述：

「世界模型是未来具身智能最重要的高质量数据来源。」

这句话背后有一个完整的逻辑链：真实数据稀缺且昂贵，仿真数据与现实有域差距，遥操数据规模有限——唯一能同时解决质量、成本和规模问题的，是一个能生成符合物理规律的交互式世界模拟器。他的判断是：

「未来的数据来源一定会走向世界模型，它会结合互联网数据、仿真数据、遥操数据、真实采集数据进行学习训练组合，得到交互式的物理世界模拟器，广泛服务于具身智能行业。」

这个判断直接驱动了极佳视界从自动驾驶世界模型向具身智能的战略延伸。他把这个方向叫做「物理AGI原生架构」——不是「AI for robotics」，也不是「foundation model for autonomous driving」，而是一个能在物理世界中理解、推理、预测和行动的通用智能，原生地为物理世界设计，而非从数字世界迁移过来的。

2025年，极佳推出GigaBrain具身基模系列：GigaBrain-0.1在全球真机评测中拿到第一；GigaBrain-0.5M*是全球首个基于世界模型的强化学习具身基模，将世界模型引入强化学习训练闭环，使机器人在虚拟环境中大量试错，大幅降低对真实数据的依赖。GigaWorld系列世界模型同步迭代，GigaWorld-Policy实现「世界-动作模型WA的实时性、成功率、训练效率全面突破」。

2025年11月26日，Maker H01人形机器人本体发布——双臂+移动底盘，身高1.6m，20+自由度，全栈自研。2026年2月启动规模化量产交付，首台发货给湖北人形机器人创新中心，2026年全年目标冲刺千台交付。

五、团队：一批在各自方向上拿过世界冠军的人

来源：奇绩创坛2024春季创业营路演 / 极客公园 / 2024年

极佳视界的核心团队，是一批在各自方向上都有过世界级成果的人。

朱政，首席科学家，中科院博士、清华大学博后，发表50余篇AI顶级论文，近万次引用，是真正意义上的学术带头人。孙韶言，产品负责人，中科大博士，曾任阿里云总监、地平线产品线总经理，黄冠在地平线时期的老同事，懂技术也懂产品商业化。陈新泽，算法负责人，中科院硕士，拿过多个AI方向世界冠军，有丰富的算法研发和infra经验。毛继明，工程负责人，百度赢彻T10架构师，Apollo仿真和工程负责人——把研究级系统落地成工业级产品的人。

这个团队的组合逻辑很清晰：有能发顶会论文的科学家，有能把技术变成产品的产品经理，有能拿竞赛冠军的算法工程师，有能搭大规模系统的工程师。黄冠自己在路演中用了一个数字描述自己：「累计主导或参与融资数亿美金，多次带领百人AI研发团队。」

融资历程也佐证了外部的判断：2024年初Pre-A和Pre-A+近5000万元，2025年中A1轮亿元级由华为哈勃和华控基金领投，2025年底A2轮2亿元由达晨财智领投，2026年初Pre-B近10亿元，投资方涵盖中芯聚源、上海半导体产投、华为哈勃、北汽产投、PKSHA、中金资本、奇绩创坛。华为哈勃连续参投A1和Pre-B，汽车产业资本、半导体产业资本同时入场——这个组合说明资本市场对极佳视界的定位判断和黄冠自己的判断高度一致：这不是一家做某个垂直应用的AI公司，而是在做物理世界AI的基础设施。

从2009年华中科技大学自动化系，到2013年中科院实验室里看着AlexNet改变世界，到2015年在微软亚研院与何恺明孙剑一起工作，到2016年在地平线带团队拿竞赛冠军，到在鉴智做出BEVDet，再到2023年创立极佳视界、发布DriveDreamer、提出物理AGI原生架构——这条线走下来，没有一步是随机的。每一段经历都在加厚他对同一件事的理解：机器如何真正看懂物理世界。

他在公开场合说话的方式，是那种只陈述判断、不做过多铺垫的风格。不怎么说「我们希望」或「我们相信」，更多是「这个行业的逻辑是……」「未来一定走向……」「冷启动不能只靠……」。这种表达方式背后，是一个在技术和产业都浸泡了十几年的人，对自己判断的高度确信。

访谈 & 演讲 (17)

2026-06-15

极佳视界再获10亿B2轮融资持续领跑世界模型驱动的物理AGI_中华网· hea.china.com