光合及目
1lux.xyz
← 创始人
创始人深度穹彻智能

卢策吾

联合创始人兼首席科学家

履历简介

具身智能与计算机视觉

卢策吾,1982年10月生,上海交通大学电子信息与电气工程学院计算机系教授、博士生导师,人工智能学院副院长,长江学者特聘教授。先后就读于重庆邮电大学、中国科学院大学、香港中文大学、香港科技大学,2015年赴斯坦福大学AI实验室从事博士后研究,师从李飞飞教授与美国工程院院士Leo Guibas教授,2016年加入上海交通大学。2018年入选MIT TR35中国区35岁以下科技精英,获科学探索奖、求是杰出青年学者、上海市科技进步特等奖等荣誉。开源了AlphaPose、HAKE、GraspNet等具国际先进水平的AI框架。2023年底与王世全联合创立穹彻智能,推动「以力为中心」具身大脑商业化落地。

教育背景

·
重庆邮电大学·学士
·
中国科学院大学·硕士
·
香港中文大学/香港科技大学·博士
·
斯坦福大学·博士后(人工智能)2015

职业履历

2015

斯坦福大学AI实验室 · 博士后

师从李飞飞教授与Leo Guibas教授,研究计算机视觉与物体理解。

2016至今

上海交通大学 · 教授/博士生导师

以海外高层次青年引进人才加入上交大计算机系,任人工智能学院副院长,长江学者特聘教授。开源AlphaPose、HAKE、GraspNet三大系统。

2023至今

穹彻智能(Noematrix) · 联合创始人兼首席科学家

与王世全联合创立穹彻智能,推动"以力为中心"具身大脑商业化落地。

代表成果

AlphaPose

人体姿态估计系统,谷歌学术"Pose Estimation"近五年排名第一,GitHub Star超5000,被华为、商汤评价为"关键核心技术"。

HAKE(人体行为知识引擎)

提出"视觉关系检测"新问题方向,构建像素到行为语义的桥梁,斯坦福、MIT、谷歌等跟进研究。

GraspNet

高性能机器人抓取系统,半自动生成20亿个抓取点位数据,论文两年引用超150次。

AnyGrasp

世界首个能抓取未知动态物体的机器人系统,成功率达99.5%。

PIE框架

中国人工智能学会,2023

系统提出具身智能三模块框架:具身感知→具身想象→具身执行。

RFUniverse仿真引擎

IROS 2022最佳论文提名

支持7种物体类型和87种原子操作的物理仿真引擎。

荣誉与奖项

  • ·MIT TR35中国区35岁以下科技精英(2018)
  • ·科学探索奖
  • ·求是杰出青年学者
  • ·上海市科技进步特等奖
  • ·长江学者特聘教授
  • ·IROS 2022最佳论文提名

行业影响

卢策吾是中国具身智能学术界最具体系化贡献的学者之一。从AlphaPose到PIE方案,从GraspNet到AnySkill,他建立了一套清晰的技术语言,让行业对"具身智能该怎么做"有了可讨论、可比较的坐标系。穹彻智能"以力为中心"的技术路线,是对当前VLA模型缺乏力控反馈的系统性回应。

当前动态

2023年底与王世全联合创立穹彻智能,作为具身AI软件提供商输出具身大脑、AnySkill原子技能库和开发工具链。机器人"为人类刮胡子"的演示视频广泛流传,成为柔顺操作成熟度的标志性证明。

历史定位

感知要全面,想象要仿真,执行要有力。卢策吾用十年时间从AlphaPose走到穹彻具身大脑,建立了中国具身智能从视觉感知到力控操作的完整技术谱系。

深度档案

一、从重庆到斯坦福:一个关于「看见」的执念

来源:上海交通大学官网 / 2016年

1982年10月,卢策吾出生在重庆。他的求学路径异常漫长而完整:重庆邮电大学本科,中国科学院大学硕士,香港中文大学与香港科技大学博士阶段,再到2015年赴斯坦福大学人工智能实验室做博士后,导师是李飞飞教授和美国工程院院士Leonidas J. Guibas教授。

这条轨迹的核心问题,始终只有一个:机器怎么才算真正「看见」了一个物体?

不是识别出类别,不是检测出边框,而是理解它的结构、它的关节、它能被怎样拿起来、用多大的力、从哪个角度——这些问题在深度学习席卷视觉界的年代,仍然是未被真正解决的底层难题。卢策吾选择在这些地方扎根,不是因为它们容易,而是因为它们是通向真正智能的必经之路。

2016年9月,他以海外高层次青年引进人才的身份加入上海交通大学计算机系,任特别研究员、博士生导师。从那时起,他开始系统地把「看见」这件事分解成一系列可测量、可验证的科学问题。

二、三个开源系统与一种学术信仰

来源:上海交通大学官网 / 中国人工智能学会演讲 / 2023年

卢策吾在上交大的工作,留下了三个在全球开源社区被广泛引用的系统,每一个都代表着「看见」这个问题的一个维度:

AlphaPose — 人体姿态估计系统。在「Pose Estimation」关键词下,谷歌学术近五年排名第一,GitHub Star超过5000。这不是一个普通的学术成果,而是被华为、商汤等企业评价为「关键核心技术」的工程级系统。它解决的问题是:如何实时、鲁棒地估计真实世界中人体的每一个关节位置——在人群密集、遮挡严重的场景下,仍然准确。

HAKE(人体行为知识引擎) — 卢策吾将其描述为「沟通像素到行为语义大鸿沟的桥梁」。他提出了「视觉关系检测」这一新问题方向,斯坦福、MIT、谷歌等机构随后跟进研究。HAKE构建了一种「中间层知识推理」基础设施:机器看到画面,不只说出「这是人」,而是推理出「这个人正在以这种方式与这个物体交互」。

GraspNet(高性能机器人抓取系统) — 这是从视觉到操作的关键跨越。给定一个物体的点云,机器人该从哪里抓、怎么抓?这个问题此前无法被大规模解决,原因是没有足够的数据。卢策吾的方法是:先扫描物体得到数字孪生,让力觉模型在虚拟空间自动标注,最终半自动生成了20亿个抓取点位数据。论文两年内引用量超150次,系统在全球机器人研究界被广泛采用。

「我们认为,对于人工智能这样的科学领域,做基础科学探索会是很大的机会,而基础研究的前进才是AI领域包括产业繁荣的源泉,这是一件能做很久的事情。」

2018年,MIT TR35将他评为中国35岁以下科技精英,评语是:「他在计算机视觉领域的研究对解决视觉关系识别、行为理解、深层次语义理解等一系列难题产生了至关重要的作用。」

三、PIE:具身智能的三模块框架

来源:中国人工智能学会演讲 / 2023年1月

2023年,卢策吾在中国人工智能学会的演讲中,第一次系统提出了具身智能的PIE方案——他认为,所有具身智能系统都必须包含且只包含三个核心模块:

具身感知(Perception)→ 具身想象(Imagination)→ 具身执行(Execution)

这不是随意的分类。他的逻辑来自对人类操作行为的观察:我们看到一个电饭锅,下意识地在脑海里模拟它怎么开,然后才伸出手去执行。这个「看-想-做」的循环,对应的就是PIE三模块。

感知层:卢策吾将其定义为「全概念感知」。光识别物体不够,机器人需要知道物体的结构关节(电饭锅怎么拧)、外形(体积、重量估计)、语义,以及可抓取方式。他的AKB-48数据集覆盖了48种真实世界关节体类别的完整物理属性标注。

一个关键创新是「具身交互感知」:机器人不需要在接触前就完全理解物体,而是可以通过初次接触获得的力反馈不断修正对物体的模型估计——就像人第一次拿起一个陌生的桶时,通过手感调整力度。卢策吾将此建模为物理方程(牛顿定律)与数据驱动的混合优化问题。

想象层:他开发了RFUniverse仿真引擎,支持7种物体类型(关节体、柔性体、透明体、流体等)和87种原子操作的物理仿真。机器人先在仿真空间中「想象」如何操作,经过策略学习后再迁移到真实世界。这个引擎已开源,并在IROS 2022上获得最佳论文提名(与康奈尔大学合作的医疗护理机器人方向)。

执行层:这是PIE中「最难的部分」。卢策吾将其落地为元操作库——AnyGrasp是第一个被验证的原子技能,针对未知物体(包括透明物体、动态物体)的抓取成功率达到人类水平(99.5%)。他的表述:

「这是世界上首个能抓取未知动态物体的机器人。」

四、两级火箭:规模化具身智能的第一性原理

来源:2024年具身智能大会演讲 / 2024年7月

2024年,卢策吾对具身智能的规模化路径提出了更清晰的架构表述。他的出发点是一个第一性原理问题:

「具身智能大模型要能理解这个物理世界,知道『世界是什么』;其次它要知道『如何决策』,才能展现出足够鲁棒的行为。」

为了实现这两点,他设计了两级火箭

第一级:实体世界大模型 — 让机器人在训练中掌握常识性的、低维的操作物理表征,从而理解客观物理事实,并与人类概念对齐。它解决「世界是什么」的问题。

第二级:机器人行为大模型 — 充分耦合操作物理常识表征和执行体的高精度力反馈能力,作出仿人化的「力位混合行为决策」,使操作具备极佳的鲁棒性和通用性。它解决「如何决策」的问题。

两级串联做端到端联合训练时,数据量需求大幅降低,增长斜率更加明显,「使训练变得足够的低成本、可规模化」。

这一框架与他对AnySkill的理解一脉相承:

「AnySkill其实是一种Scaling law by skill。它可以通过推进基础技能的鲁棒性和通用性达到99.X%,使其产生一个能力跃迁,从而被观察到增长质变。而人类绝大多数的任务完成,都是通过基础技能的组合排列。」

原子技能库AnySkill的逻辑是:不追求一个万能的端到端大模型,而是把机器人的操作能力分解为有限的原子技能(抓取、推拉、旋转、插拔……),将每一种技能的成功率推到接近100%,再通过语言/视觉大模型做任务规划层的调度组合。这样,「通过最精简的原子通用技能集,支持各类场景的快速开发」。

五、穹彻具身大脑:「以力为中心」的商业化赌注

来源:穹彻智能官网 / 新华网专访 / 2025年

2023年11月,卢策吾与王世全(非夕科技创始人,力控机器人专家)联合创立穹彻智能(Noematrix),将PIE框架和两级火箭架构转化为可向机器人公司输出的「大脑层」商业产品。

穹彻的定位是具身AI软件提供商,而非整机制造商:提供具身大脑(Brain)、原子技能库(AnySkill)、基础软件框架和开发工具链,与各类机器人本体——无论双足、轮式还是机械臂——进行硬件无关的对接。

「以力为中心」是穹彻区别于其他具身AI公司的核心主张。卢策吾的判断是:当前市场主流的视觉-语言-动作(VLA)模型仅输出位置指令,不包含力控反馈,导致机器人在接触复杂物体时表现不稳定。穹彻的两个大模型均将力反馈作为核心信号嵌入训练循环,使机器人具备「感受到阻力就自动调整」的柔顺操作能力。

最广为人知的演示,是穹彻的机器人为人类刮胡子——这段视频在网络上广泛流传,被视为柔顺操作成熟度的标志性证明:它要求机器人在剃须刀贴近皮肤时,实时感知并控制力度在极小的安全窗口内,稍有偏差即划伤皮肤。这件事,在没有高精度力控闭环的机器人上,根本不可能完成。

「当执行体被具身智能加持,它们能够在很多行业成为人类的帮手:繁琐如工业产线上一颗螺丝的安装,危险如极端场景中的拆装爆破任务,细致如与日常生活息息相关的做家务、下厨、看护病患……我们会持续用技术推动行业进步,期待这一天早日到来。」

卢策吾是以学者的方式进入这个赛道的——他的核心贡献不是融了多少钱,而是建立了一套清晰的技术语言,让行业对「具身智能该怎么做」有了可讨论、可比较的坐标系。从AlphaPose到PIE方案,从GraspNet到AnySkill,从RFUniverse到穹彻具身大脑,这条线索完整而连贯:感知要全面,想象要仿真,执行要有力。

访谈 & 演讲 (9)