光合及目
1lux.xyz
← 创始人
创始人深度银河通用

王鹤

联合创始人兼CEO

履历简介

具身智能与三维视觉

1992年生,清华大学电子系2014届本科,斯坦福大学2021年博士,师从美国三院院士Leonidas J.Guibas教授。现任北京大学前沿计算研究中心助理教授、博士生导师,北大具身感知与交互实验室(EPIC Lab)主任,北大-银河通用具身智能联合实验室主任,北京智源人工智能研究院具身大模型负责人。学术荣誉包括ICCV 2023马尔奖候选、ICRA 2023最佳操纵论文提名、2022世界人工智能大会青年优秀论文奖。2023年5月与姚腾洲联合创立银河通用,公司两年融资超24亿元,Galbot G1已获宁德时代、博世、丰田等客户数千台订单。2026年1月银河通用成为央视春晚指定具身大模型机器人。

教育背景

·
清华大学·学士(电子信息)2010-2014
·
斯坦福大学·博士(计算机科学)2016-2021

职业履历

2016-2021

斯坦福大学 · 博士研究生

师从美国三院院士Leo Guibas教授,研究类别级六维位姿估计,CVPR 2019 oral论文NOCS开辟子领域。

2021至今

北京大学 · 助理教授/博士生导师

北大前沿计算研究中心,创立EPIC Lab(具身感知与交互实验室),兼任北大-银河通用联合实验室主任、智源研究院具身大模型负责人。

2023至今

银河通用 · 联合创始人兼CEO

与姚腾洲联合创立银河通用,两年融资超24亿元,Galbot G1获宁德时代、博世、丰田等数千台订单。

代表成果

NOCS

CVPR 2019 Oral,2019

开辟类别级六维位姿估计子领域,从实例到类别的关键跨越。

十亿级合成抓取数据

,2024

银河通用合成十亿条机器人抓取数据,是业界最大规模的合成操作数据集之一。

Galbot G1

,2023

轮式双臂人形机器人,360度全向移动底盘+2.4米臂展,已获宁德时代、博世、丰田等数千台订单。

GroceryVLA端到端大模型

银河通用核心技术,三层架构(硬件+技能模型+大模型调度)的端到端视觉语言动作模型。

荣誉与奖项

  • ·ICCV 2023马尔奖候选
  • ·ICRA 2023最佳操纵论文提名
  • ·2022世界人工智能大会青年优秀论文奖
  • ·2026年央视春晚指定具身大模型机器人

行业影响

王鹤是合成数据驱动机器人泛化这一路线的最坚定实践者。十亿级合成数据的规模优势,以及"小模型泛化是大模型泛化前提"的判断,为行业提供了区别于纯遥操数据路线的可规模化替代方案。银河通用成为央视春晚指定具身大模型机器人,是商业化进展的标志。

当前动态

银河通用两年融资超24亿元,Galbot G1已获宁德时代、博世、丰田等客户数千台订单。2026年1月成为央视春晚指定具身大模型机器人。持续推进合成数据规模从十亿向百亿、千亿扩展。

历史定位

从一篇CVPR oral到十亿级合成数据,王鹤始终在回答同一个问题:真正能泛化的机器人视觉和操控系统到底长什么样。他的答案是:合成数据是唯一真正可规模化的数据来源。

深度档案

一、从斯坦福到北大:一个关于「泛化」的执念

来源:北京大学前沿计算研究中心 / 2021年

王鹤在斯坦福读博的时候,做的是一件看起来很基础的事情:让机器看懂物体的位置和朝向。

但他早早意识到,这件事的难点不在于「看懂某个物体」,而在于「看懂没见过的物体」。2019年,他在CVPR以口头报告发表的NOCS论文开辟了类别级六维位姿估计这个子领域——不再只估计已知的几个物体实例,而是对一整类物体中任何一个陌生的成员都能准确感知。这一步,是从实例到类别,是从记忆到理解,更是从专用到通用的一个隐喻。

加入北京大学之后,王鹤把这个问题的边界推得更远——不是类别级,而是跨类别,是「在仿真世界里学到的东西能不能用在真实世界里」。这个问题在学术界有一个专有名词,叫sim-to-real gap(仿真与现实的迁移鸿沟)。而他创立EPIC Lab、与斯坦福合作、发表ICRA最佳操纵论文候选……每一项工作背后,都是在用不同维度的方式回答同一个问题:

「真正能泛化的机器人视觉和操控系统,到底长什么样?」

2023年,王鹤选择从学术走向商业,联合创办银河通用。有人问他为什么,他的答案很简单:在大学里能往前走一步,在公司里能往前走三步。

二、数据是答案,但不是你以为的那种数据

来源:2024年中国生成式AI大会 / 2024年4月

谷歌在加州某个厨房里花了十七个月,采集了十三万条机器人操作数据。在那个厨房里,成功率达到97%。一旦换了场景,成功率骤降到30%。

王鹤用这个例子说明通用机器人面临的核心矛盾:

「今天有百万台车主在开特斯拉,为特斯拉的端到端模型提供数据。互联网上有无穷无尽的照片作为多模态大模型的数据。那么机器人大模型的数据在哪儿?」

他的答案是合成数据——从仿真世界里生成。不是补充,不是辅助,是唯一真正可以规模化的数据来源:

「只有合成数据才是真正的'想要什么就有什么,想要多少就有多少'。」

银河通用2023年合成了一百万条抓取数据,2024年一口气合成了十亿条。这不是规模上的区别,是方法论上的区别。用十亿条数据训练后,仿真环境中的测试成功率达到86%;用十万条时,只有58%。王鹤做过一道算术:

「靠遥操什么时候能采到十亿?而今天我们站在十亿规模上,就可以做一百亿、一千亿。这是银河通用最大的技术特色。」

这条逻辑链完整而清晰:大模型需要数据,真实数据无法规模化,合成数据是唯一出路,因此能把合成数据用好的公司才有可能做出真正泛化的通用机器人。

三、轮式机器人、三层架构与最终的 VLA 赌注

来源:2024年WAIC大会分享 / 2024年7月

银河通用的 Galbot G1 不是一台标准的双足人形机器人。它的下半身是一个360度全向移动底盘,双臂却足够长,能摸到2.4米的高处,配合底盘还能蹲下捡起地面的物品。这个设计被很多人问过:为什么不做双腿?

王鹤的回答,是一道工程经济学题:

「今天,腿的价格相对底盘非常高,而腿能实现稳定下蹲、弯腰捡物的技能还不够成熟。我们关注的是机器人的上半身能否完成泛化工作,整体形态能否支持场景中完全闭环的作业需求。」

他明确说了一个「切换时间点」:等腿的价格逼近轮、等腿能稳定下蹲,那时银河通用会切换到「全面人形」。但那不是现在。

在技术架构上,银河通用的三层系统是他学术研究的直接商业化:底层是硬件,中间是用仿真合成数据训练的各种泛化技能模型(抓取、开门、导航、柔性物体操作),顶层是调度这些技能 API 的大模型。三层各司其职,大模型管规划、小模型管执行、合成数据管泛化。

「没有做好小模型的公司、没有能让动作小模型泛化的公司,不可能让大模型泛化。因为大模型在单一任务上的数据需求远高于小模型。」

这是他对那些试图跳过中间层、直接端到端训练的路线的回应。他不否认端到端是未来,但他认为谁能让动作模型先泛化,谁才有资格做端到端:

「我们携带着一系列从抓取、放置到关节类物体操作的各种小模型,百川归海,最终融汇到大模型里。我们相信这样的 Vision Language Action Model 将迅速革命现有的机器人产业格局,在非具身大模型和自动驾驶大模型之后,创造出一条万亿的赛道。」

从一篇CVPR oral出发,绕了一大圈仿真数据、三维视觉、三层架构,王鹤最终在押注的,是同一件事:泛化。

访谈 & 演讲 (4)

2025-11-01

启明创投对王鹤进行深度访谈,从投资人视角呈现银河通用为何能在国内外机器人竞争中保持差异化优势。

2025-03-27

王鹤阐述从展示型机器人到生产力型机器人的行业跨越节点,分析具身大模型技术成熟度与工业客户采购节奏的关系。

2025-01-15

王鹤深度阐述"真正能干活的机器人不怕价格战"的核心逻辑,分享GroceryVLA端到端大模型的技术路线,以及宁德时代等工业客户的场景需求。