履历简介
具身智能与强化学习
高阳,清华大学交叉信息研究院助理教授,EVAR Lab(具身视觉与机器人实验室)负责人,上海期智研究院PI。本科清华姚班,博士UC Berkeley师从计算机视觉权威Trevor Darrell,博士后师从强化学习先驱Pieter Abbeel与Sergey Levine,2020年回国加入清华IIIS。核心成果:EfficientZero(NeurIPS 2021,500倍样本效率提升,John Schulman公开称赞),EfficientZero V2(ICML 2024 Spotlight,击败DreamerV3),ViLa算法(被Figure AI采用),Google Scholar引用5000+,CoRL 2024最佳论文奖。 2024年与韩峰涛联合创立千寻智能,Spirit V1.5开源模型登顶RoboChallenge基准,公全26个月完成六轮融资逾33亿元,估值超百亿。
教育背景
职业履历
博士期间
Intel Research · 研究实习
与Vladlen Koltun合作研究端到端自动驾驶。
博士期间
Waymo · 实习生
从事摄像头感知研究。
博士后
UC Berkeley · 博士后研究员
师从Pieter Abbeel与Sergey Levine,研究强化学习。
2020至今
清华大学交叉信息研究院 · 助理教授
作为"伯克利归国四子"之一回国,负责EVAR Lab(具身视觉与机器人实验室),兼任上海期智研究院PI。
2024至今
千寻智能 · 联合创始人兼首席科学家
与韩峰涛联合创立千寻智能,主导VLA大模型与具身智能算法研发。
代表成果
EfficientZero
NeurIPS 2021,2021
用2小时游戏数据在Atari 100k基准上达到超越人类水平,样本效率提升500倍,John Schulman公开称赞为里程碑。
EfficientZero V2
ICML 2024 Spotlight,2024
将方法扩展到连续动作控制,击败DeepMind的DreamerV3。
ViLa
机器人视觉语言规划,2023
用GPT-4V做机器人任务规划的框架,被Figure AI CEO公开点赞并采用。
ATM
RSS,2024
获得满分评价的机器人研究工作。
Spirit V1.5
千寻智能开源模型,2024
登顶RoboChallenge基准的开源VLA模型。
荣誉与奖项
- ·CoRL 2024最佳论文奖
- ·Google Scholar引用5000+
- ·NeurIPS 2021论文获John Schulman公开称赞
行业影响
高阳是中国具身智能学术界最具国际影响力的青年学者之一。EfficientZero定义了样本高效强化学习的新范式,ViLa被Figure AI直接采用,其提出的RobotGPT路线图成为行业讨论具身智能演进的重要参照框架。
当前动态
2024年与韩峰涛联合创立千寻智能,26个月完成六轮融资逾33亿元,估值超百亿。提出RobotGPT路线图,判断当前处于1.0阶段,4年后将达3.5阶段。
历史定位
从EfficientZero到ViLa到千寻智能,高阳用"规模化学习"这一信仰贯穿了从学术到创业的完整路径,是中国具身智能从实验室走向产业的标志性人物。
深度档案
一、一个像机器人的人
来源:晚点聊 LateTalk 第112期 / 2024年12月
高阳在媒体上有一个流传很广的描述:「一个像机器人的人」。
他每天7:30开机,骑轣31到33分钟去实验室,每周固定时间运动,不熟夸,所有事情都按照「COT」(Chain of Thought,链式推理)一步步拆解。他自认是ISTJ(物流师型),面对问题的第一反应永远是拆分、分析、执行:
「所有事情都可以按照COT一步步解决,不管是生活、科研还是创业。」
这种像机器人一样的确定性,和他的研究方向产生了一种奇特的呼应:他研究的核心问题,恰恰是如何让机器人变得不像机器人——更泛化,更自适应,更像人。
高阳本科就读于清华大学姚班,毕业后赴UC Berkeley读博,导师是计算机视觉权威Trevor Darrell。期间还在Intel Research与Vladlen Koltun合作研究端到端自动驾驶,并在Waymo做过摄像头感知实习。博士毕业后在伯克利做博士后,合作者是强化学习领域最具影响力的两位学者:Pieter Abbeel和Sergey Levine。
2020年,他作为「伯克利归国四子」之一回到清华IIIS,另外三位是吴翄、徐化哲和陈建宇,四人在清华IIIS形成了一个密度极高的具身智能研究群落。
二、EfficientZero:用2小时超越人类玩游戏
来源:NeurIPS 2021论文 / 上海期智研究院 / John Schulman公开评价
2021年,高阳以通讯作者身份在NeurIPS发表了EfficientZero,在强化学习圈引发了广泛关注。
问题的核心是「样本效率」。深度强化学习是出了名的「数据饵蛮」——训练一个能打Atari游戏的AI,需要数亿次游戏互动。在游戏里这还可以接受,但如果要在真实物理世界里训练机器人,每一次互动都消耗真实时间和成本,这条路根本走不通。
EfficientZero的解法是:让模型自己学会预测「未来会发生什么」,通过构建世界模型(World Model),机器人可以在脑子里「想象」动作的结果,大幅减少真实互动需求。
结果令人震惊:EfficientZero用相当于剠2小时真实游戏数据,在Atari 100k基准上达到了超越人类的水平,比此前最好的方法效率提高了500倍。OpenAI联合创始人John Schulman公开表示高度赞赏,称其为样本效率强化学习的里程碑进展。
2024年,EfficientZero V2在ICML以Spotlight论文(全会前3.5%)发表,将方法从 Atari扩展到连续动作控制,在50k-200k交互预算下击败了DeepMind的DreamerV3。
三、ViLa:被Figure AI采用的那篇论文
来源:知乎 / Figure AI Brett Adcock公开评价 / 2024年
2023年底,高阳团队发布了ViLa——让机器人用视觉语言大模型做任务规划的框架。
问题来自一个显而易见的矛盾:LLM已经有了强大的推理能力,但对物理世界是「盲」的——它们通过文字描述理解世界,无法真正「看见」机器人面前的场景。ViLa的解法是用GPT-4V作为视觉语言理解的骨干,让机器人直接从摄像头画面提取信息,结合自然语言指令做出分步推理和任务规划。
论文发出后,Figure AI的CEO Brett Adcock在社交媒体公开点赞,并表示Figure在实际研究中采用了ViLa的方法。这个细节后来被反复引用——千寻智能被称为「中国版Figure」,不只是因为商业模式像,连技术方法论都有直接的交汇点。
同期其他重要工作:ATM(RSS会议,满分评价)、OneTwoVLA(与上海人工智能实验室合作)、CoRL 2024 X-Embodiment赛道最佳论文奖。Google Scholar引用总量超5000次。
四、RobotGPT路线图:4年后到达3.5阶段
来源:量子位 MEET 2025演讲 / 2025年1月
2025年1月的MEET大会,高阳提出了RobotGPT路线图——用GPT的发展史来类比具身智能的演进:
- RobotGPT 1.0(2025年初,现在):基本原理已确立,端到端VLA是正确路径,机器人展现出早期能力,但在大多数人看来仍然有限。就像GPT-1发布时,只有少数人看到了它的意义。
- RobotGPT 3.5(剠4年后,2029年):机器人将展现出「让人惊讶的能力」,在多数场景下真正有用,虽然仍有明显局限。
- 10年愿景:「10%的人类能拥有自己的机器人」,机器人从工厂走进家庭。
他明确拒绝用L1-L5类比自动驾驶等级:
「定义具身智能L1-L5没有意义,很长时间内都只能停留在L2.99。」
当前最大的瓶颈是数据规模。语言模型训练用了超过100万亿个token,而当前最大的机器人操作数据集只有几百到几千条轨迹。解法是「数据金字塔」:底层用海量互联网人类视频(便宜、规模大),中间层用遥操作和可穿戴设备采集,顶层用真机部署数据。端到端VLA的优势,就是能把三层数据统一放入一个Transformer里训练。
「走向具身智能肇定是端到端,行业内可能只有少数人不这么认同。」
五、「不擅长的事,我会承认,然后去补」
来源:36氪 / 晚点聊 / 2024-2025年
从清华大学教授到联合创始人,高阳对这个转变的描述是清醒的:
「科学家追求真理,是兴趣驱动的工作。但是创业……是关乎怎么去服务好客户。」
他承认自己不擅长很多创业者必备的事情:「我在不断承认自己的局限性,我知道我不擅长什么,然后我再尝试去弥补。」这个态度解释了他为什么要找韩峰涛——一个在工业机器人行业做了这十年、交付20000台机器人的产业老兵来负责CEO和商业化。
2023年夏天,两人各自在找合伙人,各自从另一个方向出发:高阳想找有硬件和产业背景的人,韩峰涛想找AI研究的人。见面后发现彼此都在找对方——一次「双向奔赴」。
被问到是否享受创业,这个像机器人一样规律生活的人,给出了一个出乎意料的答案:
「我觉得我还挺享受的,它是个挺有意思的游戏。」
访谈 & 演讲 (4)
高阳畅谈从清华教授到联合创始人的心路历程,自述为ISTJ、「一个像机器人的人」,用COT方法论处理生活和科研中的一切问题。
高阳提出RobotGPT路线图,认为当前处于1.0阶段,4年后将达3.5阶段,并阐述端到端VLA是具身智能唯一正确路径,反对定义L1-L5框架。
深度对话高阳:从2016年端到端自动驾驶论文到EfficientZero再到千寻智能,一条关于「规模化学习」的完整信仰路径。