对话桥介数物尚阳星：机器人运动能力，远远没有被解决 | 雷峰网

雷峰网报道：机器人进入真实世界“干活”，到底需要什么数据？

面对这个问题，大多数具身智能从业者可能都会回答“操作”。的确，人们干活离不开双手，那么人形机器人的末端精细操作数据，顺理成章地成了重中之重。

但桥介数物创始人尚阳星，给出了一个截然不同的答案。

在他看来，机器人全身运动数据的重要性被大大低估了，机器人想进入真实环境完成复杂任务，仅靠操作能力远远不够，底层的全身运动能力才是基础。

他做了一个比喻：如果把机器人类比成电脑，运动控制能力相当于操作系统的内核，操作模型则是应用软件。没了底层系统，应用就无法运行。

也就是说，缺少高质量的运动数据和全身运动模型，机器人将难以适应不同地形、应对突发扰动，实现长时间稳定运行和落地。

基于这个判断，桥介数物在半年前启动了“跨本体全身运动数据工厂”的建设，并于近期正式投入使用。

桥介将他们采集的数据定义为跨本体全身运动数据（Cross-Embodiment Whole-Body Motion Data），简称CWM。

CWM包含人体全身动作、第一人称和第三人称视角视频、语义标签、环境信息以及接触与物理状态信息，是一种多模态数据，用于训练通用的全身运动模型，最大的亮点是具备跨本体能力。

有了数据工厂，深耕运动控制基础设施，桥介数物想构建一个人形机器人的通用操作系统，类似于尚阳星早些时候在中国移动具身智能产业大会上提出的Runtime Robot OS（运行时机器人操作系统）。

简单来说，这是一套通用的底层运动能力基础设施，让不同机器人复用同一套运动模型，新机型接入后，也无需再为大量动作重复训练。

桥介的定位也随之发生变化，由具身小脑厂商，成长为具身智能基础设施公司。不过在某种意义上，这其实是一种回归，尚阳星说：“从创业开始，我想做的就是机器人时代的基础设施。”

运动泛化，仍是人形机器人的难题

▎AI科技评论：现在机器人Demo已经能跑能跳能越障了，看起来全身运动已经算不上核心瓶颈，为什么你们还要做运动数据工厂？

尚阳星：目前能看到的机器人运动视频，基本都是针对特定场景调出来的。例如春晚的机器人，七八个工程师花三四个月才能完成一个表演，换个场景就不行了。

这里的核心问题是运动泛化能力差。我们理解的泛化，是让一套系统适应不同地形、不同机型、不同动作，在复杂环境中长期稳定运行。现在还没有机器人能做到这一点。

我们之前给客户做运动控制，用的虽是通用框架，但还需针对性适配。建数据工厂，就是为了训练出真正通用的底层运动模型，让机器人能拥有像人类一样的运动能力，而这件事目前远远没有被解决。

▎AI科技评论：真实环境里，机器人最容易在哪些地方出问题？

尚阳星：首先是感知问题，当前机器人的感知是被动的，就像人闭着眼睛走路，所以遇到意外时反应很剧烈，人流密集时存在安全隐患。最近也有些公司发布了机器人的语言交互demo，但这种理解都比较浅，没有对真实外部世界的理解。

其次是长期运行问题。长时间运行后，关节出现磨损、性能变化时，机器人很难像人类受伤后那样继续调整动作并适应环境，持续学习与自我补偿能力仍然不足。这都是我们会着力解决的方向。

▎AI科技评论：做通用的底层运动模型，对具身智能落地有实质性价值吗？

尚阳星：行业大多仅聚焦人形机器人上半身控制，往后要实现机器人全身协同作业，就必须搭建通用全身运动控制基础模型。依托这套模型，手部动作操作模型可直接部署应用，不用重复解决全身运动适配难题。

▎AI科技评论：机器人全身运动能力那么重要，为什么行业不太重视运动数据，反而都聚焦上半身控制，去采集操作数据了？

尚阳星：因为叠衣服、端咖啡、拧螺丝这些操作类任务成果直观，价值容易被看见。

机器人的运动能力可以视为Windows、iOS这些底层的基础运行系统，操作能力则相当于系统之上的各种APP。如果没了底层系统，所有应用都无法运行。

机器人也一样，没有稳定的全身运动能力，复杂操作只能局限在固定桌面，无法真正落地。

市场需要大家多做应用，但也需要有人做基础设施。基础设施平时不被注意，一坏就出问题；做好了却不容易被察觉，但非常重要。

▎AI科技评论：为什么不去外面买数据，而是选择自建数据工厂？

尚阳星：三个原因。一是市面上买不到高质量的运动控制数据，卖这类数据的人极少，而且价格贵。国内专注于运动控制且特别重视这件事的，可能只有桥介。我们内部之前也有用动捕设备采集，但进度很慢，需要更加工业化、规模化的采集手段。

二是我们发现过去数据都有很强的“本体绑定”问题。机型变了数据就没法用了，迁移能力很差。我们需要更多无本体的数据，促进模型快速迭代。

三是我们发现数据量越多，全身运动基础模型表现越好。这不仅是我们在工作过程中发现的规律，英伟达在一个项目中也提到了这个观点，数据规模越大，模型效果会更好。英伟达开源了数百小时的运动数据，不过这个量级离上限还差得很远。既然发现这个领域也存在Scaling Law ，我们就下定决心投入了。

▎AI科技评论：最近大家都在谈世界模型，很多人认为它会成为机器人理解物理世界的关键能力。桥介也会往这个方向布局吗？

尚阳星：我们也在训练动作层面的世界模型。训练世界模型本身也需要大量数据，视频是其中重要的一类。不过，世界模型可以接受任何形式的视频，但在处理动作这个维度上，需要做一些特殊处理。

人形机器人，会比四足更先落地

▎AI科技评论：你们是怎么采集数据的？

尚阳星：我们的数据工厂使用动捕 + 视频（包括第一人称和第三人称）方式，采集后还会人为标注语义标签。

我们采集的是人类全身运动数据，包括手部和全身的动作，一开始会从不涉及精细操作的全身动作入手。这类数据可以和行业现有的操作数据配合使用，是一种补充。

▎AI科技评论：为什么要选择这种采集方式？这会比行业主流的方式更好吗？

尚阳星：优势在于两点。一是无本体，数据可以跨本体迁移，且采集更为简单。很多厂商采用遥操作，数据和本体强绑定，复用性较差，而且还需要人去适应机器人，动捕不需要。

二是数据精度更高。现在很多人体数据依赖视频提取，全身动作还原精度有限。要采集高精度、高质量的全身人体动作，目前只有全身动捕这一种方法。这些高精度数据后续也能用于训练视频动作提取模型。

▎AI科技评论：去年开始行业开始流行无本体采集方案，UMI就很受欢迎，为什么不用这种成本更低且简易的方案？

尚阳星：UMI 本质上是去掉机器人本体，只保留末端执行器，用夹爪和相机采集数据。问题在于，如果用夹爪采集，以后本体上的夹爪无法换成其他执行器，灵活性也比人手差，而且视频提取的人体全身动作精度也不够高。

后来行业开始转向采集人体数据，因为人体数据更通用，不会绑定某一个机器人。

新的问题是，人和机器人结构不同，不同机器人之间也有差异，所以人体动作还需要经过重定向和适配。因此我们特别强调跨本体能力。

▎AI科技评论：你们的跨本体是如何实现的，有技术壁垒吗？

尚阳星： 迁移中涉及的核心技术是重定向。我们做了一套自己的重定向引擎，可以自动适配不同机器人构型、动作和地形，还支持边采集边重定向。

行业很多重定向方案只考虑运动学，就是只复现运动轨迹，我们还加入了动力学，会同时考虑重力、受力和平衡问题。一般的数据工厂都不会做到这一步。这也属于我们的技术优势。

比如人跳起来是一条抛物线，如果机器人只是照着轨迹模仿，很容易落地失败。加入动力学后，它会结合自身结构和受力情况调整动作，更符合真实物理规律。

▎AI科技评论：在数据迁移过程中，哪些构型的机器人更容易迁移，哪些更难？

尚阳星：桥介采集的是人类数据，因此主要面向与人类形态最接近的双足人形机器人。机器人的形态与人越像，数据迁移越容易；越不像则越难。

▎AI科技评论：为什么不选落地更容易的四足狗或者轮足人形做运动控制？很多人觉得，四足狗加个机械臂比人形落地更快、成本更低，轮足在很多场景也够用了。

尚阳星：轮足在特定场景确实够用，但如果目标是物理世界的AGI，就需要更通用的形态，也就是双足人形。

至于落地，我有个非共识的看法：人形机器人会比四足更先落地。

这有点像大语言模型。语言能力其实是人类后演化出来的，但因为互联网文本数据足够多，所以它反而最先突破。机器人运动也是一样，过去运动数据没人系统记录，但现在如果开始大规模采集，可能也会很快突破。

做数据工厂，最难的不是采集

▎AI科技评论：你们收集的全身运动数据不涉及精细操作，未来要怎么和市面上的操作数据融合？

尚阳星：我觉得不会有融合问题，或者说我们会把融合做好。我们更倾向于分层式架构：上层负责认知和任务理解，底层负责实时运动控制，而桥介提供的是底层运动控制模型。

原因是认知模型体量大、推理慢，运动控制模型则对实时性和安全性要求很高，两者很难用同一个模型兼顾。Figure的具身模型就是多个系统。

未来机器人行业也会像操作系统和应用软件一样，形成更明确的软件分工。

▎AI科技评论：这其中有个很大的问题是行业数据格式不统一，你们怎么处理？

尚阳星：现在行业的数据格式，大多沿用了影视动画行业的体系，所以标准并没有特别混乱。

出现这个问题的原因之一就是数据和本体强绑定，应该采集无本体数据，现在这已经是大趋势。

▎AI科技评论：做数据工厂，最难的环节是什么？

尚阳星：数据处理、数据闭环是最难的。

大规模数据需要完整的数据管线，解决调配、算力处理等问题。数据工厂还要跑通“设计—采集—处理—训练—反馈”的完整闭环，背后涉及大量系统协同和流程管理。

其中采集环节是成本最高的，反馈环节决定数据有效性。单纯动作采集难度不高，花钱配齐设备就能做，难的是后续整体运营与统筹管理。

▎AI科技评论：你们怎么定义高质量运动数据，数据质量又如何保障？

尚阳星：高质量数据首先要噪声小、轨迹稳定，动作姿态自然，不能出现肢体穿插、穿透等异常情况。

数据质量主要取决于录制方式和动捕设备精度。动捕设备直接录制的数据精度高、质量好；从视频提取的数据精度就差不少。

因此在源头环节，就得高精度动捕设备做标准化采集，我们设计了涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准在内的准入体系。

但设备本身存在局限，难免出现异常数据，所以采集完成后会经过人工核验，程序自动筛选环节，通过自研管线完成跨本体的数据清洗、动作重定向等等，就连训练阶段也会再次筛查。

最后，训练结果还会反向指导数据采集。比如哪些动作效果不好、哪些场景覆盖不够，都会反馈给采集端，用来调整下一轮的数据采集方向，形成持续优化的数据闭环。

▎AI科技评论：行业有种观点是脏数据也有用，你们也会收集这类数据吗？

尚阳星：脏数据应该分为两类，任务失败数据和低质量数据，两类数据的价值完全不一样。

大家说的脏数据，应该是指机器人执行任务失利后恢复的数据，比如摔倒后自主起身，这类数据很有采集价值。

而低质量数据，是采集时因设备故障等问题录出来本身就是错误失常的动作数据，这类数据没有用处，不需要留存。

▎AI科技评论：同时满足高质量和大规模两个要求一直是具身数据领域的难题，桥介是怎么平衡数据规模和数据质量的？

尚阳星： 先用一小批有一定规模、高质量的数据训练模型，再用该模型从视频中挖掘更大规模的数据，相互增强。

视频包含了一切信息，只是目前提取不出来。就像自动驾驶，视频里可能包含深度信息，但模型能力不够就提取不了，需要视频与深度的配对数据训练模型。

机器人同理，视频包含大量人体动作信息，人看视频就能学会，但当前从视频中提取这些信息的基础设施还没建好。

▎AI科技评论：训练过程中会用仿真数据吗？

尚阳星：会，而且仿真数据是必须的。人体数据经过重定向后，机器人还需要在仿真环境里做强化学习训练，用来弥补人体动作和机器人实际执行之间的差距。

离开数据工厂后的复杂环境适应，本质上也依赖强化学习来完成泛化。

▎AI科技评论：使用的真实数据和仿真数据的比例是多少？

尚阳星：仿真数据会比真实数据多好几个量级。

我们的最终目标，是做机器人的基础设施

▎AI科技评论：现在数据工厂处于什么阶段？

尚阳星：已经跑通了所有流程，在产能爬坡阶段。过去三个月，我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路，累计产出了近千小时高质量 CWM 数据，数据训练出的模型在十多款不同足式机器人上完成了验证。

我们规划今年内一天采集数十个小时的数据，一个月就是数千小时。今年预计会收集上万小时的数据。

▎AI科技评论：这些数据会带来哪些提升？未来会开放给行业吗？

尚阳星：主要是我们模型泛化能力的提升，特别是不同动作之间的泛化。目前机器人跳不高或做不好极端动作，补充更多数据后就能学会。

我们的数据主要服务于内部模型训练，不会直接给外部使用。但如果有合作方想购买数据，也可以谈。

▎AI科技评论：具体到产品上，今年会拿出什么？

尚阳星：数据训练出来的能力，会通过我们的平台化产品提供给大家。

去年更多的是非泛化的动作。今年我们重点解决两个泛化：跨本体和跨机型。

6月我们会推出一个革命性的产品，这会是历史上第一个将机器人运动控制做成标准化方案的产品。

我们的设想是，未来任意机器人接入平台后，就能快速获得对应运动能力，不再为每个动作重复训练。

比如平台可以和机器人拳赛结合，让用户自由组合不同机型的技能，分力量型、速度型等不同能力，不同本体之间的比赛才更有看头。

▎AI科技评论：目前桥介在数据工厂上的投入，大概是什么量级？

尚阳星：我们采购了一批动捕设备，一套动捕设备约几十万元，再算上场地搭建、团队人员运营等成本，整体投入在千万级别。

▎AI科技评论：数据合格率高吗？一条数据的成本是多少？

尚阳星：现在数据合格率可以达到90%以上。我们不按“条”，按“小时”计价，因为不同数据条的时长差异很大。一小时数据的采集成本大约是几百元，未来也会继续降本。

▎AI科技评论：如果想让机器人真正达到接近人类的运动能力，需要多大规模的数据量？

尚阳星：大概需要几十万小时量级的数据，人形机器人运动才会达到很好效果。这是基于人的一生约几十万小时推断，但人动作有重复，也不可能做遍所有动作，所以只是非常粗略的估算。

如果数据量上来，发现数据对模型训练没用了，我们也会停止。

▎AI科技评论：这么说的话，聚焦运动控制，天花板会不会很低，未来你们还会拓展其他方向吗？

尚阳星：等到集齐足量运动数据、机器人运动能力成熟后，我们也不会止步于此。先依靠海量全身运动动捕数据打好基础，让模型拥有动作组合能力，可灵活搭配不同动作完成各类任务。

后续场景类、融合感知的规划数据，可依托成熟模型从视频中提取，覆盖海量复杂现实场景。

我们的最终目标是提供基础设施，让用户在平台上做组合创新，壁垒在于构建应用生态。

▎AI科技评论：基础设施的概念，听起来比你们之前“小脑厂商”的定位更为宏大。

尚阳星：其实从创业开始，我们想做的就是通用机器人时代的基础设施厂商。运动控制虽然不等于操作系统，但是操作系统中很重要的一部分。桥介的长期定位是做人形机器人的操作系统，打造生态。

▎AI科技评论：之前有投资人和你说，你做硬件他们才投，现在他们的看法改变了吗？

尚阳星：我们最近每天都在接待投资人，最近关闭了一轮融资，正在开启新一轮融资。我感觉越来越多投资人都看明白了，有投资人和我直说，硬件现在太卷了，投了那么多家，最后能留下来的估计没几家。有长期价值的是底层平台能力。（雷峰网(公众号：雷峰网)）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

成为付费用户可以阅读桥介数物所有资料

了解更多 →

阅读原文 ↗雷峰网