卢策吾

联合创始人兼首席科学家

履历简介

具身智能与计算机视觉

卢策吾，1982年10月生，上海交通大学电子信息与电气工程学院计算机系教授、博士生导师，人工智能学院副院长，长江学者特聘教授。先后就读于重庆邮电大学、中国科学院大学、香港中文大学、香港科技大学，2015年赴斯坦福大学AI实验室从事博士后研究，师从李飞飞教授与美国工程院院士Leo Guibas教授，2016年加入上海交通大学。2018年入选MIT TR35中国区35岁以下科技精英，获科学探索奖、求是杰出青年学者、上海市科技进步特等奖等荣誉。开源了AlphaPose、HAKE、GraspNet等具国际先进水平的AI框架。2023年底与王世全联合创立穹彻智能，推动「以力为中心」具身大脑商业化落地。

教育背景

重庆邮电大学·学士

中国科学院大学·硕士

香港中文大学/香港科技大学·博士

斯坦福大学·博士后（人工智能）2015

职业履历

2015

斯坦福大学AI实验室 · 博士后

师从李飞飞教授与Leo Guibas教授，研究计算机视觉与物体理解。

2016至今

上海交通大学 · 教授/博士生导师

以海外高层次青年引进人才加入上交大计算机系，任人工智能学院副院长，长江学者特聘教授。开源AlphaPose、HAKE、GraspNet三大系统。

2023至今

穹彻智能（Noematrix） · 联合创始人兼首席科学家

与王世全联合创立穹彻智能，推动"以力为中心"具身大脑商业化落地。

代表成果

AlphaPose

人体姿态估计系统，谷歌学术"Pose Estimation"近五年排名第一，GitHub Star超5000，被华为、商汤评价为"关键核心技术"。

HAKE（人体行为知识引擎）

提出"视觉关系检测"新问题方向，构建像素到行为语义的桥梁，斯坦福、MIT、谷歌等跟进研究。

GraspNet

高性能机器人抓取系统，半自动生成20亿个抓取点位数据，论文两年引用超150次。

AnyGrasp

世界首个能抓取未知动态物体的机器人系统，成功率达99.5%。

PIE框架

中国人工智能学会，2023

系统提出具身智能三模块框架：具身感知→具身想象→具身执行。

RFUniverse仿真引擎

IROS 2022最佳论文提名

支持7种物体类型和87种原子操作的物理仿真引擎。

荣誉与奖项

·MIT TR35中国区35岁以下科技精英（2018）
·科学探索奖
·求是杰出青年学者
·上海市科技进步特等奖
·长江学者特聘教授
·IROS 2022最佳论文提名

行业影响

卢策吾是中国具身智能学术界最具体系化贡献的学者之一。从AlphaPose到PIE方案，从GraspNet到AnySkill，他建立了一套清晰的技术语言，让行业对"具身智能该怎么做"有了可讨论、可比较的坐标系。穹彻智能"以力为中心"的技术路线，是对当前VLA模型缺乏力控反馈的系统性回应。

当前动态

2023年底与王世全联合创立穹彻智能，作为具身AI软件提供商输出具身大脑、AnySkill原子技能库和开发工具链。机器人"为人类刮胡子"的演示视频广泛流传，成为柔顺操作成熟度的标志性证明。

历史定位

感知要全面，想象要仿真，执行要有力。卢策吾用十年时间从AlphaPose走到穹彻具身大脑，建立了中国具身智能从视觉感知到力控操作的完整技术谱系。

深度档案

一、从重庆到斯坦福：一个关于「看见」的执念

来源：上海交通大学官网 / 2016年

1982年10月，卢策吾出生在重庆。他的求学路径异常漫长而完整：重庆邮电大学本科，中国科学院大学硕士，香港中文大学与香港科技大学博士阶段，再到2015年赴斯坦福大学人工智能实验室做博士后，导师是李飞飞教授和美国工程院院士Leonidas J. Guibas教授。

这条轨迹的核心问题，始终只有一个：机器怎么才算真正「看见」了一个物体？

不是识别出类别，不是检测出边框，而是理解它的结构、它的关节、它能被怎样拿起来、用多大的力、从哪个角度——这些问题在深度学习席卷视觉界的年代，仍然是未被真正解决的底层难题。卢策吾选择在这些地方扎根，不是因为它们容易，而是因为它们是通向真正智能的必经之路。

2016年9月，他以海外高层次青年引进人才的身份加入上海交通大学计算机系，任特别研究员、博士生导师。从那时起，他开始系统地把「看见」这件事分解成一系列可测量、可验证的科学问题。

二、三个开源系统与一种学术信仰

来源：上海交通大学官网 / 中国人工智能学会演讲 / 2023年

卢策吾在上交大的工作，留下了三个在全球开源社区被广泛引用的系统，每一个都代表着「看见」这个问题的一个维度：

AlphaPose — 人体姿态估计系统。在「Pose Estimation」关键词下，谷歌学术近五年排名第一，GitHub Star超过5000。这不是一个普通的学术成果，而是被华为、商汤等企业评价为「关键核心技术」的工程级系统。它解决的问题是：如何实时、鲁棒地估计真实世界中人体的每一个关节位置——在人群密集、遮挡严重的场景下，仍然准确。

HAKE（人体行为知识引擎） — 卢策吾将其描述为「沟通像素到行为语义大鸿沟的桥梁」。他提出了「视觉关系检测」这一新问题方向，斯坦福、MIT、谷歌等机构随后跟进研究。HAKE构建了一种「中间层知识推理」基础设施：机器看到画面，不只说出「这是人」，而是推理出「这个人正在以这种方式与这个物体交互」。

GraspNet（高性能机器人抓取系统） — 这是从视觉到操作的关键跨越。给定一个物体的点云，机器人该从哪里抓、怎么抓？这个问题此前无法被大规模解决，原因是没有足够的数据。卢策吾的方法是：先扫描物体得到数字孪生，让力觉模型在虚拟空间自动标注，最终半自动生成了20亿个抓取点位数据。论文两年内引用量超150次，系统在全球机器人研究界被广泛采用。

「我们认为，对于人工智能这样的科学领域，做基础科学探索会是很大的机会，而基础研究的前进才是AI领域包括产业繁荣的源泉，这是一件能做很久的事情。」

2018年，MIT TR35将他评为中国35岁以下科技精英，评语是：「他在计算机视觉领域的研究对解决视觉关系识别、行为理解、深层次语义理解等一系列难题产生了至关重要的作用。」

三、PIE：具身智能的三模块框架

来源：中国人工智能学会演讲 / 2023年1月

2023年，卢策吾在中国人工智能学会的演讲中，第一次系统提出了具身智能的PIE方案——他认为，所有具身智能系统都必须包含且只包含三个核心模块：

具身感知（Perception）→ 具身想象（Imagination）→ 具身执行（Execution）

这不是随意的分类。他的逻辑来自对人类操作行为的观察：我们看到一个电饭锅，下意识地在脑海里模拟它怎么开，然后才伸出手去执行。这个「看-想-做」的循环，对应的就是PIE三模块。

感知层：卢策吾将其定义为「全概念感知」。光识别物体不够，机器人需要知道物体的结构关节（电饭锅怎么拧）、外形（体积、重量估计）、语义，以及可抓取方式。他的AKB-48数据集覆盖了48种真实世界关节体类别的完整物理属性标注。

一个关键创新是「具身交互感知」：机器人不需要在接触前就完全理解物体，而是可以通过初次接触获得的力反馈不断修正对物体的模型估计——就像人第一次拿起一个陌生的桶时，通过手感调整力度。卢策吾将此建模为物理方程（牛顿定律）与数据驱动的混合优化问题。

想象层：他开发了RFUniverse仿真引擎，支持7种物体类型（关节体、柔性体、透明体、流体等）和87种原子操作的物理仿真。机器人先在仿真空间中「想象」如何操作，经过策略学习后再迁移到真实世界。这个引擎已开源，并在IROS 2022上获得最佳论文提名（与康奈尔大学合作的医疗护理机器人方向）。

执行层：这是PIE中「最难的部分」。卢策吾将其落地为元操作库——AnyGrasp是第一个被验证的原子技能，针对未知物体（包括透明物体、动态物体）的抓取成功率达到人类水平（99.5%）。他的表述：

「这是世界上首个能抓取未知动态物体的机器人。」

四、两级火箭：规模化具身智能的第一性原理

来源：2024年具身智能大会演讲 / 2024年7月

2024年，卢策吾对具身智能的规模化路径提出了更清晰的架构表述。他的出发点是一个第一性原理问题：

「具身智能大模型要能理解这个物理世界，知道『世界是什么』；其次它要知道『如何决策』，才能展现出足够鲁棒的行为。」

为了实现这两点，他设计了两级火箭：

第一级：实体世界大模型 — 让机器人在训练中掌握常识性的、低维的操作物理表征，从而理解客观物理事实，并与人类概念对齐。它解决「世界是什么」的问题。

第二级：机器人行为大模型 — 充分耦合操作物理常识表征和执行体的高精度力反馈能力，作出仿人化的「力位混合行为决策」，使操作具备极佳的鲁棒性和通用性。它解决「如何决策」的问题。

两级串联做端到端联合训练时，数据量需求大幅降低，增长斜率更加明显，「使训练变得足够的低成本、可规模化」。

这一框架与他对AnySkill的理解一脉相承：

「AnySkill其实是一种Scaling law by skill。它可以通过推进基础技能的鲁棒性和通用性达到99.X%，使其产生一个能力跃迁，从而被观察到增长质变。而人类绝大多数的任务完成，都是通过基础技能的组合排列。」

原子技能库AnySkill的逻辑是：不追求一个万能的端到端大模型，而是把机器人的操作能力分解为有限的原子技能（抓取、推拉、旋转、插拔……），将每一种技能的成功率推到接近100%，再通过语言/视觉大模型做任务规划层的调度组合。这样，「通过最精简的原子通用技能集，支持各类场景的快速开发」。

五、穹彻具身大脑：「以力为中心」的商业化赌注

来源：穹彻智能官网 / 新华网专访 / 2025年

2023年11月，卢策吾与王世全（非夕科技创始人，力控机器人专家）联合创立穹彻智能（Noematrix），将PIE框架和两级火箭架构转化为可向机器人公司输出的「大脑层」商业产品。

穹彻的定位是具身AI软件提供商，而非整机制造商：提供具身大脑（Brain）、原子技能库（AnySkill）、基础软件框架和开发工具链，与各类机器人本体——无论双足、轮式还是机械臂——进行硬件无关的对接。

「以力为中心」是穹彻区别于其他具身AI公司的核心主张。卢策吾的判断是：当前市场主流的视觉-语言-动作（VLA）模型仅输出位置指令，不包含力控反馈，导致机器人在接触复杂物体时表现不稳定。穹彻的两个大模型均将力反馈作为核心信号嵌入训练循环，使机器人具备「感受到阻力就自动调整」的柔顺操作能力。

最广为人知的演示，是穹彻的机器人为人类刮胡子——这段视频在网络上广泛流传，被视为柔顺操作成熟度的标志性证明：它要求机器人在剃须刀贴近皮肤时，实时感知并控制力度在极小的安全窗口内，稍有偏差即划伤皮肤。这件事，在没有高精度力控闭环的机器人上，根本不可能完成。

「当执行体被具身智能加持，它们能够在很多行业成为人类的帮手：繁琐如工业产线上一颗螺丝的安装，危险如极端场景中的拆装爆破任务，细致如与日常生活息息相关的做家务、下厨、看护病患……我们会持续用技术推动行业进步，期待这一天早日到来。」

卢策吾是以学者的方式进入这个赛道的——他的核心贡献不是融了多少钱，而是建立了一套清晰的技术语言，让行业对「具身智能该怎么做」有了可讨论、可比较的坐标系。从AlphaPose到PIE方案，从GraspNet到AnySkill，从RFUniverse到穹彻具身大脑，这条线索完整而连贯：感知要全面，想象要仿真，执行要有力。

访谈 & 演讲 (78)

2026-04-17

重磅！ImageNet作者、李飞飞高徒苏昊回国任教复旦，具身第一高引，出任通用物理AI院长· 36氪