光合及目
1lux.xyz
← 报道
创始人访谈雷峰网· 2026-06-03

对话桥介数物尚阳星:机器人运动能力,远远没有被解决 | 雷峰网

雷峰网报道:机器人进入真实世界“干活”,到底需要什么数据?

面对这个问题,大多数具身智能从业者可能都会回答“操作”。的确,人们干活离不开双手,那么人形机器人的末端精细操作数据,顺理成章地成了重中之重。

但桥介数物创始人尚阳星,给出了一个截然不同的答案。

在他看来,机器人全身运动数据的重要性被大大低估了,机器人想进入真实环境完成复杂任务,仅靠操作能力远远不够,底层的全身运动能力才是基础。

他做了一个比喻:如果把机器人类比成电脑,运动控制能力相当于操作系统的内核,操作模型则是应用软件。没了底层系统,应用就无法运行。

也就是说,缺少高质量的运动数据和全身运动模型,机器人将难以适应不同地形、应对突发扰动,实现长时间稳定运行和落地。

基于这个判断,桥介数物在半年前启动了“跨本体全身运动数据工厂”的建设,并于近期正式投入使用。

桥介将他们采集的数据定义为跨本体全身运动数据(Cross-Embodiment Whole-Body Motion Data),简称CWM

CWM包含人体全身动作、第一人称和第三人称视角视频、语义标签、环境信息以及接触与物理状态信息,是一种多模态数据,用于训练通用的全身运动模型,最大的亮点是具备跨本体能力

有了数据工厂,深耕运动控制基础设施,桥介数物想构建一个人形机器人的通用操作系统,类似于尚阳星早些时候在中国移动具身智能产业大会上提出的Runtime Robot OS(运行时机器人操作系统)。

简单来说,这是一套通用的底层运动能力基础设施,让不同机器人复用同一套运动模型,新机型接入后,也无需再为大量动作重复训练。

桥介的定位也随之发生变化,由具身小脑厂商,成长为具身智能基础设施公司。不过在某种意义上,这其实是一种回归,尚阳星说:“从创业开始,我想做的就是机器人时代的基础设施。”

对话桥介数物尚阳星:机器人运动能力,远远没有被解决

01

运动泛化,仍是人形机器人的难题

AI科技评论:现在机器人Demo已经能跑能跳能越障了,看起来全身运动已经算不上核心瓶颈,为什么你们还要做运动数据工厂?

尚阳星目前能看到的机器人运动视频,基本都是针对特定场景调出来的。例如春晚的机器人,七八个工程师花三四个月才能完成一个表演,换个场景就不行了

这里的核心问题是运动泛化能力差。我们理解的泛化,是让一套系统适应不同地形、不同机型、不同动作,在复杂环境中长期稳定运行。现在还没有机器人能做到这一点。

我们之前给客户做运动控制,用的虽是通用框架,但还需针对性适配。建数据工厂,就是为了训练出真正通用的底层运动模型,让机器人能拥有像人类一样的运动能力,而这件事目前远远没有被解决。

AI科技评论:真实环境里,机器人最容易在哪些地方出问题?

尚阳星首先是感知问题,当前机器人的感知是被动的,就像人闭着眼睛走路,所以遇到意外时反应很剧烈,人流密集时存在安全隐患。最近也有些公司发布了机器人的语言交互demo,但这种理解都比较浅,没有对真实外部世界的理解。

其次是长期运行问题。长时间运行后,关节出现磨损、性能变化时,机器人很难像人类受伤后那样继续调整动作并适应环境,持续学习与自我补偿能力仍然不足。这都是我们会着力解决的方向。

AI科技评论:做通用的底层运动模型,对具身智能落地有实质性价值吗?

尚阳星行业大多仅聚焦人形机器人上半身控制,往后要实现机器人全身协同作业,就必须搭建通用全身运动控制基础模型。依托这套模型,手部动作操作模型可直接部署应用,不用重复解决全身运动适配难题。

AI科技评论:机器人全身运动能力那么重要,为什么行业不太重视运动数据,反而都聚焦上半身控制,去采集操作数据了?

尚阳星因为叠衣服、端咖啡、拧螺丝这些操作类任务成果直观,价值容易被看见

机器人的运动能力可以视为Windows、iOS这些底层的基础运行系统,操作能力则相当于系统之上的各种APP。如果没了底层系统,所有应用都无法运行。

机器人也一样,没有稳定的全身运动能力,复杂操作只能局限在固定桌面,无法真正落地。

市场需要大家多做应用,但也需要有人做基础设施。基础设施平时不被注意,一坏就出问题;做好了却不容易被察觉,但非常重要。

AI科技评论:为什么不去外面买数据,而是选择自建数据工厂?

尚阳星三个原因。一是市面上买不到高质量的运动控制数据,卖这类数据的人极少,而且价格贵。国内专注于运动控制且特别重视这件事的,可能只有桥介。我们内部之前也有用动捕设备采集,但进度很慢,需要更加工业化、规模化的采集手段。

二是我们发现过去数据都有很强的“本体绑定”问题。机型变了数据就没法用了,迁移能力很差。我们需要更多无本体的数据,促进模型快速迭代。

三是我们发现数据量越多,全身运动基础模型表现越好。这不仅是我们在工作过程中发现的规律,英伟达在一个项目中也提到了这个观点,数据规模越大,模型效果会更好。英伟达开源了数百小时的运动数据,不过这个量级离上限还差得很远。既然发现这个领域也存在Scaling Law ,我们就下定决心投入了。

AI科技评论:最近大家都在谈世界模型,很多人认为它会成为机器人理解物理世界的关键能力。桥介也会往这个方向布局吗?

尚阳星我们也在训练动作层面的世界模型。训练世界模型本身也需要大量数据,视频是其中重要的一类。不过,世界模型可以接受任何形式的视频,但在处理动作这个维度上,需要做一些特殊处理。

对话桥介数物尚阳星:机器人运动能力,远远没有被解决

02

人形机器人,会比四足更先落地

AI科技评论:你们是怎么采集数据的?

尚阳星我们的数据工厂使用动捕 + 视频(包括第一人称和第三人称)方式,采集后还会人为标注语义标签。

我们采集的是人类全身运动数据,包括手部和全身的动作,一开始会从不涉及精细操作的全身动作入手。这类数据可以和行业现有的操作数据配合使用,是一种补充。

AI科技评论:为什么要选择这种采集方式?这会比行业主流的方式更好吗

尚阳星优势在于两点。一是无本体,数据可以跨本体迁移,且采集更为简单。很多厂商采用遥操作,数据和本体强绑定,复用性较差,而且还需要人去适应机器人,动捕不需要。

二是数据精度更高。现在很多人体数据依赖视频提取,全身动作还原精度有限。要采集高精度、高质量的全身人体动作,目前只有全身动捕这一种方法。这些高精度数据后续也能用于训练视频动作提取模型。

AI科技评论:去年开始行业开始流行无本体采集方案,UMI就很受欢迎,为什么不用这种成本更低且简易的方案?

尚阳星UMI 本质上是去掉机器人本体,只保留末端执行器,用夹爪和相机采集数据。问题在于,如果用夹爪采集,以后本体上的夹爪无法换成其他执行器,灵活性也比人手差,而且视频提取的人体全身动作精度也不够高。

后来行业开始转向采集人体数据,因为人体数据更通用,不会绑定某一个机器人。

新的问题是,人和机器人结构不同,不同机器人之间也有差异,所以人体动作还需要经过重定向和适配。因此我们特别强调跨本体能力。

AI科技评论:你们的跨本体是如何实现的,有技术壁垒吗?

尚阳星 迁移中涉及的核心技术是重定向。我们做了一套自己的重定向引擎,可以自动适配不同机器人构型、动作和地形,还支持边采集边重定向。

行业很多重定向方案只考虑运动学,就是只复现运动轨迹,我们还加入了动力学,会同时考虑重力、受力和平衡问题。一般的数据工厂都不会做到这一步。这也属于我们的技术优势。

比如人跳起来是一条抛物线,如果机器人只是照着轨迹模仿,很容易落地失败。加入动力学后,它会结合自身结构和受力情况调整动作,更符合真实物理规律。

AI科技评论:在数据迁移过程中,哪些构型的机器人更容易迁移,哪些更难?

尚阳星桥介采集的是人类数据,因此主要面向与人类形态最接近的双足人形机器人。机器人的形态与人越像,数据迁移越容易;越不像则越难。

AI科技评论:为什么不选落地更容易的四足狗或者轮足人形做运动控制?很多人觉得,四足狗加个机械臂比人形落地更快、成本更低,轮足在很多场景也够用了。

尚阳星轮足在特定场景确实够用,但如果目标是物理世界的AGI,就需要更通用的形态,也就是双足人形。

至于落地,我有个非共识的看法:人形机器人会比四足更先落地。

这有点像大语言模型。语言能力其实是人类后演化出来的,但因为互联网文本数据足够多,所以它反而最先突破。机器人运动也是一样,过去运动数据没人系统记录,但现在如果开始大规模采集,可能也会很快突破。

对话桥介数物尚阳星:机器人运动能力,远远没有被解决

03

做数据工厂,最难的不是采集

AI科技评论:你们收集的全身运动数据不涉及精细操作,未来要怎么和市面上的操作数据融合?

尚阳星我觉得不会有融合问题,或者说我们会把融合做好。我们更倾向于分层式架构:上层负责认知和任务理解,底层负责实时运动控制,而桥介提供的是底层运动控制模型

原因是认知模型体量大、推理慢,运动控制模型则对实时性和安全性要求很高,两者很难用同一个模型兼顾。Figure的具身模型就是多个系统。

未来机器人行业也会像操作系统和应用软件一样,形成更明确的软件分工。

AI科技评论:这其中有个很大的问题是行业数据格式不统一,你们怎么处理?

尚阳星现在行业的数据格式,大多沿用了影视动画行业的体系,所以标准并没有特别混乱。

出现这个问题的原因之一就是数据和本体强绑定,应该采集无本体数据,现在这已经是大趋势。

AI科技评论:做数据工厂,最难的环节是什么?

尚阳星:数据处理、数据闭环是最难的。

大规模数据需要完整的数据管线,解决调配、算力处理等问题。数据工厂还要跑通“设计—采集—处理—训练—反馈”的完整闭环,背后涉及大量系统协同和流程管理。

其中采集环节是成本最高的,反馈环节决定数据有效性。单纯动作采集难度不高,花钱配齐设备就能做,难的是后续整体运营与统筹管理。

AI科技评论:你们怎么定义高质量运动数据,数据质量又如何保障?

尚阳星高质量数据首先要噪声小、轨迹稳定,动作姿态自然,不能出现肢体穿插、穿透等异常情况。

数据质量主要取决于录制方式和动捕设备精度。动捕设备直接录制的数据精度高、质量好;从视频提取的数据精度就差不少。

因此在源头环节,就得高精度动捕设备做标准化采集,我们设计了涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准在内的准入体系。

但设备本身存在局限,难免出现异常数据,所以采集完成后会经过人工核验,程序自动筛选环节,通过自研管线完成跨本体的数据清洗、动作重定向等等,就连训练阶段也会再次筛查。

最后,训练结果还会反向指导数据采集。比如哪些动作效果不好、哪些场景覆盖不够,都会反馈给采集端,用来调整下一轮的数据采集方向,形成持续优化的数据闭环。

对话桥介数物尚阳星:机器人运动能力,远远没有被解决

AI科技评论:行业有种观点是脏数据也有用,你们也会收集这类数据吗?

尚阳星:脏数据应该分为两类,任务失败数据和低质量数据,两类数据的价值完全不一样。

大家说的脏数据,应该是指机器人执行任务失利后恢复的数据,比如摔倒后自主起身,这类数据很有采集价值。

而低质量数据,是采集时因设备故障等问题录出来本身就是错误失常的动作数据,这类数据没有用处,不需要留存。

AI科技评论:同时满足高质量和大规模两个要求一直是具身数据领域的难题,桥介是怎么平衡数据规模和数据质量的?

尚阳星 先用一小批有一定规模、高质量的数据训练模型,再用该模型从视频中挖掘更大规模的数据,相互增强。

视频包含了一切信息,只是目前提取不出来。就像自动驾驶,视频里可能包含深度信息,但模型能力不够就提取不了,需要视频与深度的配对数据训练模型。

机器人同理,视频包含大量人体动作信息,人看视频就能学会,但当前从视频中提取这些信息的基础设施还没建好。

AI科技评论:训练过程中会用仿真数据吗?

尚阳星会,而且仿真数据是必须的。人体数据经过重定向后,机器人还需要在仿真环境里做强化学习训练,用来弥补人体动作和机器人实际执行之间的差距。

离开数据工厂后的复杂环境适应,本质上也依赖强化学习来完成泛化。

AI科技评论:使用的真实数据和仿真数据的比例是多少?

尚阳星仿真数据会比真实数据多好几个量级。

对话桥介数物尚阳星:机器人运动能力,远远没有被解决

04

我们的最终目标,是做机器人的基础设施

AI科技评论:现在数据工厂处于什么阶段?

尚阳星已经跑通了所有流程,在产能爬坡阶段。过去三个月,我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路,累计产出了近千小时高质量 CWM 数据,数据训练出的模型在十多款不同足式机器人上完成了验证。

我们规划今年内一天采集数十个小时的数据,一个月就是数千小时。今年预计会收集上万小时的数据

AI科技评论:这些数据会带来哪些提升?未来会开放给行业吗?

尚阳星主要是我们模型泛化能力的提升,特别是不同动作之间的泛化。目前机器人跳不高或做不好极端动作,补充更多数据后就能学会。

我们的数据主要服务于内部模型训练,不会直接给外部使用。但如果有合作方想购买数据,也可以谈。

AI科技评论:具体到产品上,今年会拿出什么?

尚阳星数据训练出来的能力,会通过我们的平台化产品提供给大家。

去年更多的是非泛化的动作。今年我们重点解决两个泛化:跨本体和跨机型

6月我们会推出一个革命性的产品,这会是历史上第一个将机器人运动控制做成标准化方案的产品。

我们的设想是,未来任意机器人接入平台后,就能快速获得对应运动能力,不再为每个动作重复训练。

比如平台可以和机器人拳赛结合,让用户自由组合不同机型的技能,分力量型、速度型等不同能力,不同本体之间的比赛才更有看头。

AI科技评论:目前桥介在数据工厂上的投入,大概是什么量级?

尚阳星我们采购了一批动捕设备,一套动捕设备约几十万元,再算上场地搭建、团队人员运营等成本,整体投入在千万级别

AI科技评论:数据合格率高吗?一条数据的成本是多少?

尚阳星现在数据合格率可以达到90%以上。我们不按“条”,按“小时”计价,因为不同数据条的时长差异很大。一小时数据的采集成本大约是几百元,未来也会继续降本。

AI科技评论:如果想让机器人真正达到接近人类的运动能力,需要多大规模的数据量?

尚阳星大概需要几十万小时量级的数据,人形机器人运动才会达到很好效果。这是基于人的一生约几十万小时推断,但人动作有重复,也不可能做遍所有动作,所以只是非常粗略的估算。

如果数据量上来,发现数据对模型训练没用了,我们也会停止。

AI科技评论:这么说的话,聚焦运动控制,天花板会不会很低,未来你们还会拓展其他方向吗?

尚阳星等到集齐足量运动数据、机器人运动能力成熟后,我们也不会止步于此。先依靠海量全身运动动捕数据打好基础,让模型拥有动作组合能力,可灵活搭配不同动作完成各类任务。

后续场景类、融合感知的规划数据,可依托成熟模型从视频中提取,覆盖海量复杂现实场景。

我们的最终目标是提供基础设施,让用户在平台上做组合创新,壁垒在于构建应用生态。

AI科技评论:基础设施的概念,听起来比你们之前“小脑厂商”的定位更为宏大。

尚阳星:其实从创业开始,我们想做的就是通用机器人时代的基础设施厂商。运动控制虽然不等于操作系统,但是操作系统中很重要的一部分。桥介的长期定位是做人形机器人的操作系统,打造生态。

AI科技评论:之前有投资人和你说,你做硬件他们才投,现在他们的看法改变了吗?

尚阳星我们最近每天都在接待投资人,最近关闭了一轮融资,正在开启新一轮融资。我感觉越来越多投资人都看明白了,有投资人和我直说,硬件现在太卷了,投了那么多家,最后能留下来的估计没几家。有长期价值的是底层平台能力。(雷峰网(公众号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

成为付费用户可以阅读 桥介数物 所有资料

了解更多 →