中国具身数据开采与物理 AI 基础设施企业(30家)
更新于 8 天前更新作者:dexter
在目前的中国具身智能产业链中,纯粹作为第三方独立存在、以"具身数据"为核心商品或服务的垂直数据公司,数量极少。这是因为具身智能数据(如 UMI、真机轨迹、触觉和多模态物理 AI 数据)对硬件本体和采集场景的依赖性极高,导致行业形成了两种截然不同的数据供给路径:
纯垂直具身数据/物理 AI 数据基础设施公司:不以卖机器人本体为目的,纯粹研发数采硬件(如无本体数采套件)、仿真引擎或数据加工平台,向全行业提供数据商品与服务。此类公司全市场仅约 6-8 家。
"软硬一体"的具身本体企业:这类公司数量较多,虽然它们本质是整机厂或大脑大模型公司,但由于市场买不到现成的高质量数据,它们全部在内部建设"数据飞轮",通过自研数采设备、建立数字工厂或现地场景来开采训练数据。注意:这些公司的数据能力是内部战略资产,并非对外销售的商品。
具身数据产业链全景
| 环节 | 说明 | 代表玩家 |
|---|---|---|
| 数据采集硬件 | 无本体数采套件、外骨骼手套、遥操设备 | 鹿明(FastUMI)、觅蜂(MEgo)、灵初(触觉手套)、诺亦腾(PN动捕)、渊澈太初(NeuroScale)、灵御智能(遥操作)、艾欧智能(动捕)、它石智航(数据引擎) |
| 数据采集服务 | 场景搭建、真机操作数据规模化采集 | 简智(GenRobot)、海宇数维、鲸跃动力(Robo Labor) |
| 仿真与合成数据 | 物理引擎、世界模型生成虚拟训练数据 | 光轮(EgoSuite)、极佳视界(GigaWorld)、流形空间 |
| 数据处理与标注 | 轨迹对齐、多模态清洗、质量打分 | 简智(Gen ADP)、光轮 |
| 数据标准与评测 | 数据集 benchmark、质量评估体系 | 光轮(RoboFinals)、杭州具身智能中试基地 |
| 数据交易与分发 | 数据超市、数据集开源/商业授权 | 鹿明(数据超市)、戴盟(Daimon-Infinity开源) |
| 模型训练消费 | VLA/世界模型等具身大模型消费数据 | 各本体企业(智元、星动纪元、银河通用等) |
| 算力基础设施 | 具身模型训练的云端/本地算力 | 百度百舸具身计算算力中心 |
| 部署与数据回流 | 真机部署后产生新数据反哺模型迭代 | 宇树(开发者社区)、优必选(工厂部署) |
中国具身数据开采与物理 AI 基础设施企业(28家)
一、纯垂直具身数据基础设施公司(6家)
以数据采集硬件、数据加工服务或合成数据为核心商品,不以卖机器人本体为目的。
工商主体: 鹿明机器人科技(深圳)有限公司
核心产品: FastUMI Pro 无本体数采硬件 + "数据超市"数据商城。2026年产能目标100万小时。
最新融资: 2026年5月连获三菱电机领投的A1、A2轮融资,累计融近10亿元。
工商主体: 简智新创(北京)机器人科技有限公司
核心产品: Gen ADP 数据管线,服务 30+ 具身AI公司,70%+ 收入来自海外。纯数据服务商。
最新融资: 成立4个月内连融3轮超2亿元,由顺为资本、速腾聚创、百度风投等领投。
工商主体: 海宇数维(苏州)科技有限公司
核心产品: 纯垂直具身数据加工与交付服务商,专为全球头部具身团队定制大规模高精度实机与仿真数据集。
工商主体: 光轮智能(北京)科技有限公司
核心产品: 仿真合成数据引擎 + EgoSuite 人类视频数据 + RoboFinals 数据评测平台。号称全球80%头部具身AI团队使用其数据。全球首个具身数据独角兽(估值100亿+)。
最新融资: 2026年3月宣布完成10亿元A++及A+++轮融资。
工商主体: 上海觅蜂具身智能科技有限公司(智元机器人孵化的独立数据子公司)
核心产品: MEgo 系列无本体数据采集硬件 + 一站式物理AI数据服务平台。2026年目标1000万小时产能。
工商主体: 北京灵初智能科技有限公司
核心产品: Psi-SynEngine 外骨骼触觉手套(62+ DOF),开源全球最大人手操作数据集。数采硬件和管线为核心产品。
最新融资: 2026年3月完成一轮高达20亿元人民币的巨额融资。
二、世界模型与仿真数据生成(2家)
主要身份是基础模型公司,但其世界模型能力可为行业生成大规模仿真训练数据,具备数据供给属性。
极佳视界(GigaAI)
工商主体: 北京极佳视界科技有限公司
定位: "世界模型 + 本体"双轮驱动。GigaWorld 视频世界模型可生成物理一致的仿真训练数据,同时推出数采原生本体 Maker H01。
最新融资: 2026年3月完成近10亿元人民币Pre-B轮融资。
工商主体: 流形空间(北京)科技有限公司
定位: WorldScape 具身基础世界模型,通过预测世界变化为机器人生成模拟训练数据。数据生成是模型能力的副产品。
三、具身数据平台与基础设施(3个)
京东宿迁数采中心: 京东科技扩建的 4000 平米巨型基地,专门承担真实商业/仓储场景模拟、动作捕捉与真机验证数据采集。
百度百舸具身计算算力中心: 依托百度智能云,提供具身大模型训练的软硬件一体基础设施,是国内具身数据清洗与训练的主要云端底座。
杭州具身智能中试基地: 2026年最新建设的全国性具身智能数据开源及合规流转交易平台。
四、自建数据飞轮的头部本体企业(代表性15家)
以下企业本质是机器人公司或大脑模型公司,但因行业缺乏第三方数据供给,全部在内部大规模建设数据采集能力。它们的数据是内部战略资产,非对外销售的商品。
自研 WALL-B 具身大模型,核心战略是通过58到家等生态在100个真实家庭开采"真实乱序数据"。
2026年1月完成字节跳动、红杉中国、深创投等联合投资的10亿元融资。
银河通用(Galbot)
自研"银河星脑"AstraBrain,采取"仿真数据为主、真机为辅"的 VLA 数据路线。
2026年3月完成25亿元新一轮巨额融资。
发布开源具身模型 Spirit 系列,进入宁德时代工厂产线进行实机操作数据的闭环开采。
工业具身智能新锐,主打低成本硬软件一体的工业具身场景数据开采与智能操作解决方案。
短期内完成多轮累计20亿元融资。
开源 GOD 数据集(60万+下载),研发全尺寸双臂仿人机器人。数据开源为生态策略。
2026年4月完成20亿元B+轮融资,估值突破200亿元。
自研端到端 VLA 大模型 ERA-42,拥有大规模双臂灵巧操作数采工站。Q2已交付1000+台。
智元机器人(Agibot)
自研 AGI-ROS 及数采标注套件,在工业制造、临港产业园大规模部署数采真机。已孵化觅蜂科技独立承接数据服务。
由非夕机器人团队孵化,主打 NoetixBrain 具身大脑,核心在于高精度力控与触觉数据的开采与对齐。
主攻具身智能"小脑"控制与灵巧抓取,收集高频的电机反馈、关节扭矩与姿态控制数据。
2026年3月提交科创板IPO申请,H1/G1本体在全球拥有庞大开发者社区,真机部署数据回流形成飞轮。
优必选(UBTECH)
在比亚迪、东风汽车等产线实驻,开采汽车总装、物流搬运等工业级真机数据。港交所上市(09880)。
全尺寸人形机器人,A/A+轮融资5亿元,自建运动控制数据采集体系。
五、开源数据贡献者(硬件公司兼具数据生态贡献)
以下公司主营业务为硬件(灵巧手/触觉传感器),但通过开源大规模数据集对行业数据生态有实质贡献。
工商为戴盟(深圳)机器人科技有限公司。主营触觉灵巧手,但联合 Google DeepMind 等发布 Daimon-Infinity 开源数据集(1万小时多模态及触觉真机数据,目标百万小时级)。
开源 GOD 数据集(全球最大具身操作数据集之一,60万+下载),虽主业为机器人本体,但数据开源贡献显著。
各公司关于具身数据的核心观点
"机器人训练数据本不应该如此昂贵和稀缺。人类在物理世界作业过程中产生的数据无处不在,只是没有被很好地收集。"
— 喻超,创始人兼CEO|钛媒体
"从长期看,真正昂贵的并不是采集一次数据,而是反复重建整套数据体系。如果要迎来具身智能的"GPT-3时刻",行业需要的训练数据规模将达到数亿小时级别。"
— 丁琰,联席CTO|科技行者
"合成数据不是简单的模拟真实,而是以更高效率、更大规模为AI提供物理世界的反馈与认知,是具身智能迈向规模化应用的必经之路。"
— 杨海波,联合创始人兼总裁|新浪财经
"具身智能领域数据需求远超其他赛道,规模将达自动驾驶或大语言模型的千倍万倍。"
— 杨海波,联合创始人兼总裁|新京报
"百亿小时是通用智能的基础门槛。沿着文本模型从Bert到ChatGPT的路径,3-4年左右,具身智能会达到GPT-3的智能雏形。"
— 姚卯青,CEO|极新
"最大卡点是:没有数据"国家电网"。各行业需要数据时,没有平台可调用、没有供给可匹配、没有标准可互通。数据流通平台,是行业必须补上的基础设施。"
— 姚卯青,CEO|极新
"如果没有很好的预训练,模型在没有见过的样本数据上并不知道物理世界的运行规律,导致需要很多后训练数据来补充。世界模型的预训练能让模型获得物理世界的先验知识,从而减少对真实数据的依赖。"
— 武伟,创始人|甲子光年
"花一年把数据成本打下来,比抢着做人形机器人更重要。具身智能正处于需要"冷启动"的关键阶段,破局的关键是高质量、低成本的人类操作数据。"
— 王启斌,创始人兼CEO|知乎
"未来两年的胜负手在数据周期,谁先建立起高质量、可持续的数据飞轮,谁就能在场景周期爆发时最快完成能力迁移。"
— 王启斌,创始人兼CEO|钛媒体
"具身智能目前仍处于最基础也最关键的'数据饥饿期'。好的数据范式是你工作、你生活,而我记录你。构建通用物理智能的关键是让模型学习人类在真实环境中的自然行为,而不是用遥操或仿真数据得到一个头重脚轻、不能在真实复杂环境用的VLA模型。"
— 陈亦伦,CEO|启明创投
审批备注
作为一个比较基础的细分领域公司分析和学习的文章,比较够用了,批准发布。
allan8 天前更新