腾讯张正友：具身智能必须回答的三个「真问题」

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！（来源：机器之心Pro）机器之心原创作者：闻菲7 月 27 日，腾讯发布了具身智能开放平台 Tairos，以模块化的方式向行业提供大模型、开发工具和数据服务，试图为具身智能的研发和应用提供一套通用的支撑体系。在 Tairos 问世之前，腾讯 Robotics X 实验室已在具身领域探索七年多。从多模态四足机器人 Max 到轮腿机器人 Ollie，从灵巧手 TRX-Hand 到人居环境机器人原型小五，这些自研项目不仅是技术展示，更是其探索感知、规划、控制、硬件设计等全栈机器人技术的载体。如今，将七年积累沉淀为一个开放平台，这一举动本身便值得深思。在具身智能的技术路线尚无定论，产业模式快速发展的背景下，腾讯的平台化路径，既是对行业现阶段挑战的回应，也预示了其对未来生态的布局。发布会后，腾讯首席科学家、Robotics X 实验室主任、福田实验室主任张正友博士接受了机器之心的专访，深入剖析了这一战略选择背后的三个核心问题：架构、原理与定力。端到端 vs 分层：为什么说分层架构是当下更务实的路径机器之心：当前具身智能技术路径尚无定论，业界对于「端到端」与「分层架构」的路线选择争议颇多。您主张分层架构，能否进一步阐述层与层之间的功能边界如何划分，这些边界是固定不变的，还是会根据任务的复杂度和紧急程度进行动态调整？更重要的，「小脑」在物理交互中获得宝贵经验（比如一次失败），这个知识是如何反馈、反哺给「大脑」，从而实现整个架构的自我学习与进化？张正友：这是一个非常深刻且直击要害的问题，它触及了当前具身智能领域最核心的哲学思辨与工程实践的交叉点。要回答这个问题，我们必须先理解理想与现实之间的差距。首先，我们来谈谈为什么选择分层，这本质上是一个效率与现实的权衡。在理想状态下，一个拥有无穷多高质量数据的端到端模型，或许是通往通用人工智能的终极路径。理论上，如果分层架构确实是最高效的组织形式，那么一个足够强大的端到端模型在海量数据（维权）的训练下，应该会自发地、内生地演化出类似分层的结构。这就好比一个全连接的神经网络，如果某些连接是冗余的，在充分训练后，它们的权重会自然趋近于零，从而形成事实上的稀疏连接和功能分区，也就是我们所说的「层」。这个逻辑同样适用于混合专家模型（MoE）。在理想状态下，一个巨大的、全连接的模型，为了追求低能耗和高效率，最终也应该会演化出「专家系统」，也即在处理特定任务时，只有部分网络被激活。但现实是，我们永远没有理想状态下的无穷数据。用有限的数据去训练一个参数量动辄万亿且全连接的模型，其难度和成本是天文数字。这也是为什么现在主流的大语言模型会采用 MoE 架构。因此，我们选择分层，本质上是将人类对智能结构的先验知识主动注入到模型架构中。就像我们知道人脑有左右脑分工，有不同脑区负责不同功能一样，我们预先设定感知、规划、行动这样的分层，是一种高效的引导，它能显著降低模型学习的难度，减少对数据的依赖，提升整体训练效率。其次，关于你问到的边界划分与知识反馈闭环。我们提出的 SLAP³ 架构，包含多模态感知模型（右脑）、规划大模型（左脑）以及感知行动联合大模型（小脑），其边界并非静态的，在处理不同任务时，各层之间的协作模式和信息流权重是动态变化的。例如，一个需要快速反应的避障任务，可能会绕过「左脑」，形成「右脑」到「小脑」的快速通路，而在一个需要精密操作的长期任务中，「左脑」的规划和拆解则会占据主导地位。腾讯 Robotics X 机器人实验室在 2025 WAIC 发布的 SLAP³ 体系，基于张正友博士 2018 年提出的 SLAP（Sense 感知、Learning 学习、Action 行动、Planning 规划）框架，包含 3 个紧密结合的大模型，不同功能的大模型可以相对独立地发展和更新，同时又能高效地协同工作、互相增强。底层「小脑」的感知行动联合大模型，其内部在很大程度上是端到端训练的。当它在执行任务中遇到意外情况，比如杯子滑落摔碎了这个具体的失败经验，会被捕捉下来，我们会将这些代表着意外或新知识的特殊交互数据，编码成一种类似于Embedding 的形式，并将其存入一个共享的「记忆库」（Memory）。这个记忆库起到了桥梁作用：对下，它可以直接被「小脑」在未来的快速反应中调用，相当于形成肌肉记忆；对上，它可以上传给「右脑」，当上层模型读取到这条「杯子滑落」的记忆后，它就会修正自己对这个物体的认知模型，比如更新它的属性描述，比如「该类表面光滑的物体，在特定角度下有滑落风险」。通过这种机制，底层的物理交互经验，就有效地反哺了上层的模型，实现了闭环。更重要的是，这个架构本身是需要不断迭代的。我们今天注入的先验知识，可能在明天就会被证明是次优的。因此，真正的反馈闭环，不仅仅是行动结果对规划的修正，更是整个系统对架构本身的修正。就像 Transformer 架构从最初的翻译模型，演化到成为今天大模型的核心组件，其内部结构也经历了巨大的变化。具身智能的架构也必将经历类似甚至更剧烈的演化。最后，我想强调一点，也是当前领域内一个巨大的挑战：我们应该用什么「语言」来构建这个反馈闭环？目前，许多多模态大模型本质上是以语言为中心的。先训练一个强大的语言模型基座，然后将图像、视频、语音等其他模态的信息对齐到语言的语义空间。这是一个工程上的捷径，但可能不是通往真正具身智能的正确道路。我们必须认识到，动物没有复杂的语言，却能在三维物理世界中完美地生存和互动。这证明了，对物理世界的原生理解，比语言符号更根本。如果我们的反馈闭环过度依赖语言作为中间表示，就必然会在转换过程中丢失大量关键的物理世界信息。因此，理想的反馈闭环，必须建立在「原生多模态」的基础上。这意味着模型需要直接从像素、声音、力反馈等原始信号中学习，而不总是要转换成文字。这又回到了理想与现实的困境——原生多模态需要海量且多样化的数据，目前只有极少数公司有能力真正朝这个方向探索。就像自动驾驶领域，人人都说端到端，但真正有数据底气去做的可能只有特斯拉。综上所述，我们选择分层架构，是一种基于现实考量的务实策略。但这只是一个起点，目标是驱动整个架构向着更高效、更原生的多模态智能形态不断进化。机器之心：既然您已经意识到理想的终极形态或许是一个用海量数据端到端训练出的原生多模态模型，为什么不一开始就全力朝这个方向前进（比如搭建为此所需要的数据基础设施），而要「绕路」走分层呢？初期人为划定的分层是否有可能阻碍模型后期向着更高智能演进？张正友：我认为端到端与分层这两条路并非相互排斥，而是殊途同归。我们今天选择分层架构，恰恰是为了最终能抵达那个理想的、由数据驱动的端到端未来。我用一个类比来说明这个问题。马斯克的宏大愿景是实现人类的火星移民，这是一个极其遥远且昂贵的目标。他并没有坐等万亿资金从天而降，而是通过一系列务实的、可商业化的步骤来逐步接近这个目标：先是研发可回收火箭来大幅降低发射成本，然后通过星链（Starlink）计划提供卫星互联网服务来产生持续的商业回报，等等。这些商业上的成功，都在为他最终的火星计划输送资金、积累技术。这与我们做具身智能的逻辑是一致的。要达到我们的理想——拥有无穷数据、通过端到端训练出的通用具身智能模型，我们面临许多现实的约束：理想中那海量的数据从何而来？由谁去收集？成本有多高？更重要的是，在模型架构本身尚未完全探索清楚的时候，大规模收集有效数据可能是纸上谈兵。因此，我们选择分层架构，是一个在当前数据和技术条件下，能够实际运行、解决问题、并部署到真实场景中的方案。它能让我们先动起来。最关键的是，这个务实的路径本身就是一个数据收集和模型迭代的引擎。通过在实际应用中部署分层架构，我们才能高效地收集到最有价值的交互数据，然后用这些数据去迭代我们的模型，无论是上层的规划大模型、感知模型，还是底层的感知行动联合大模型。这是一个螺旋式上升的过程，持续地推动我们向最终的目标前进。为什么说「身脑融合」是具身智能的第一性原理机器之心：在您看来，具身智能领域「第一性原理」问题是什么？张正友：我认为，具身智能的第一性原理，就是探究「身体」与「大脑」如何实现真正有机的、无缝的融合。它绝不是简单地拿一个现成的 AI 大模型，做一些适配，然后「安装」到机器人上就能解决的。我经常举两个例子来说明什么不是真正的具身智能：真正的具身智能，必须对自己身体的形态和状态、对外部环境的物理规律，以及对当前任务的目标，都有深刻的、统一的理解。它的核心任务，就是将一个抽象的目标，转化为一个物理世界中可以一步步实现的、具体的行为序列。以世界顶尖跳水运动员为例，在学习初期，她的每一次尝试都离不开教练的指导和自身的刻意思考——这正是「系统2」主导的过程，充满了反复试错和有意识的调整。通过成千上万次的练习，这些复杂的动作序列最终被内化为肌肉记忆，在比赛中能够以「系统1」的方式，快速、直觉地执行出来，达到了水花近乎消失的境界。然而，一个关键的环节是，即便技能已经纯熟，在跳水前依然存在一个「系统2」的规划阶段。当她站在跳板上进行心理预演时，她正在大脑中完整地「播放」一遍即将要做的动作流程。这个短暂而高度集中的心理模拟，就是上层的规划。一旦这个规划完成并启动，接下来的执行过程就完全交由下层的、自动化的「系统1」来接管，从而实现精准而流畅的动作。机器之心：您提到了心理预演的规划，这种在大脑中「播放」动作画面的过程，与视频生成模型在原理上似乎相通。这是否意味着，具身智能的「动作规划」，其本质可能就是一种「视频生成」？这两条技术路径最终会统一到一个大的生成式框架下吗？张正友：虽然将动作规划类比为生成模型很贴切，但我认为，两者之间存在着本质的区别。将它们混为一谈，可能会忽略具身智能最核心的特质。首先，两者目标不同。在物理世界中生存，理解是每个智能体的必备基础能力，就像我们每个人都需要看懂世界才能生活。但生成，尤其像导演一样创作出一部精美的影片，是一种高度专业的、非必需的技能——我们不能要求每个智能体都成为一个电影导演。其次，也是最关键的一点，两者生成的内容不同：动作规划是稀疏的、第一人称的，而视频生成是稠密的、第三人称的。让我们再次回到跳水运动员的例子。当她在跳板上进行心理预演时，她脑海中关注的焦点是自己的身体姿态、起跳的时机、空中翻转的角度、入水的角度。她绝不会去费心「生成」观众席上每个人的脸，或者灯光的精确颜色。看台上的人是五根手指还是六根手指，对她的动作规划毫无影响。她生成的「视频」是与自身运动能力、身体状态完全绑定的，这是一个关于「我」该如何运动的内在模拟。而通用的视频生成模型，往往是第三人称的、全局的，它追求的是整个画面在物理和视觉上的合理性与连贯性，关心的是画面中的每一个像素。这就引出了对「生成即理解」这一观点的进一步思考。我同意其基本逻辑，即无法准确生成就意味着不够理解。但关键在于，我们要生成什么，以及这种生成证明了哪种理解？一个模型能生成一段赏心悦目的视频，证明了它对视觉规律和物理常识的理解。但一个具身智能体能成功「规划」并完成一次复杂的抓取，它所「生成」的是一个高度抽象、与自身能力紧密相关的动作序列。这证明了它对自己身体、对目标物体以及对任务逻辑的深刻理解，这是一种完全不同维度、也更为核心的具身理解。因此，我认为具身智能的动作规划，并非简单的视频生成。它是一种稀疏的、以自我为中心的、服务于特定任务的、高度抽象的生成过程。未来的研究方向，应该是探索如何构建专为此类任务深度优化的模型，而不是简单地套用追求稠密与真实的通用视频生成技术。喧嚣赛道上的创新定力：为何要对商业化说「不」机器之心：您说过，要有不受制于短视商业逻辑的创新定力，才能实现领跑。当下具身智能赛道呈现出一种爆发式的火热，您是否观察到一些潜在的陷阱或短视行为？相对应的，您所强调的创新定力又该如何体现？张正友：首先，大量优秀的人才和资本涌入这个领域，本身是一件好事。在技术路径尚未完全明朗的今天，有更多聪明的头脑从不同角度去尝试和探索，对整个行业的发展至关重要。我们也要客观看待不同参与者的角色。例如，许多初创团队选择在一些确定性高、现有技术能够落地的场景进行商业化，这并非短视，而是一种务实的生存策略。我们不能苛求每一家公司都以实现 AGI 为终极目标，并最终成为像苹果、谷歌那样的巨头。生态的繁荣，需要各种角色的贡献。真正的「陷阱」，或者说挑战，在于如何处理短期利益与长远目标之间的关系，也就是我所说的定力。我认为，定力的本质，在于不忘初心。在科研和创业的道路上，我们总会取得一些阶段性的成果，比如研发出一个功能亮眼的研究原型。这时，巨大的诱惑就会出现——是否要立刻将其产品化、商业化？以我负责的腾讯 Robotics X 机器人实验室为例，在过去 7 年的发展中，我们产出了许多具备商业化潜力的原型。但我们选择不这样做。因为我们深知，一旦投入商业化，团队的大量精力就会被牵扯到繁琐的工程细节、供应链和市场运营中，这必然会让我们偏离探索更宏大、更根本的科学问题的初心。这就是一种关键的取舍：你是为了眼前可观的商业回报，还是为了更远大的技术愿景？因此，定力在这里就体现为一种清醒的自我认知和坚定的内心。它意味着你必须明确自己最终想要达成的目标，并有勇气为了这个长远目标，放弃那些看似唾手可得的短期利益。这对于那些立志在 AGI 领域做出根本性贡献的团队而言，至关重要。海量资讯、精准解读，尽在新浪财经APP 文章关键词：腾讯智能 VIP课程推荐加载中... 新浪直播百位牛人在线解读股市热点，带你挖掘板块龙头收起 @@title@@ @@status_text@@@@program_title@@ APP专享直播上一页下一页 1/10 热门推荐收起新浪财经公众号 24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）相关新闻财经头条作者库股市直播图文直播间视频直播间最近访问我的自选 01/A股具身智能“第一股”争夺战打响02/受益于AI发展工业富联单季营收超2000亿元03/北美票房：《凶器》首映拔头筹04/特朗普点名要求会面英特尔CEO周一将赴白宫05/这个周末传疯了！宁德时代枧下窝锂矿关停，锂矿股再度意念涨停？06/特朗普：大清洗！07/8月11日投资避雷针：9年财务造假近200亿元这家上市公司可能被强制退市08/刚刚！一家上市公司大获全胜！约7100万人民币09/处方药不是想买能买，别踩“用药红线”10/业内人士看好机器人产业发展前景具身智能探索全球化路径 01/股市回调将 “转瞬即逝”：华尔街认为人工智能和降息乐观情绪将推动反弹02/刚刚！美联储，降息大消息！03/8月10日增减持汇总：暂无增持孚能科技等12股减持（表）04/研究人员揭露了一个猖獗的短信诈骗团伙后，又一个新的诈骗团伙应运而生05/中信证券：如果要慢牛，最该慢的是谁？06/Palantir股价暴涨2500%，多头急于证明其估值合理性07/计算机驱动的交易员看涨股票，人类交易员则看跌08/谷歌，何时该放弃网络搜索，转而选择深度研究09/大型科技股引领美股走高10/套息交易员加大对新兴市场的押注，因美联储降息在即 01/超5万元现金存取或无需登记！反洗钱监管转向风险为本02/退潮添注脚，村镇银行现破产案例03/五大国有银行可持续发展信披升级 3家公布碳排放范围三数据04/一村镇银行进入破产程序大连农商行承接客户存款05/外资银行调整零售布局：压缩在华普通网点规模，发力高端财富管理06/当AH股溢价率小于20%，银行股还香吗？07/菏泽农银系统人事大调整，多家农商行“将帅”跨行调任08/史带财险变身纯外资第五家“合”转“外”保险公司09/包装高收入群体骗取银行消费贷！数十人被判刑10/3600点之上，怎么投？ 7X24小时徐小明凯恩斯占豪花荣金鼎 wu2198 丁大卫易宪容叶荣添沙黾农冯矿伟趋势之友空空道人股市风云股海光头杨伟民管涛： “8·11”汇改十周年张瑜：促消费政策的5个看点薛洪言：解码“新消费”的四大驱动力刘世锦：需解决消费不足的结构性偏差付一夫：民营企业发展新质生产力交易提示操盘必读证券报最新公告限售解禁数据中心条件选股券商评级股价预测板块行情千股千评个股诊断大宗交易财报查询业绩预告 ETF期权类余额宝基金净值基金对比基金排名商品行情外盘期货商品持仓现货报价 CFTC持仓期指行情期指持仓期指研究行业指数权重股票期货名人专家坐堂高清解盘期货入门各国国债期市要闻期货研究机构评论品种大全外汇计算器人民币牌价中间价美元指数直盘行情所有行情美元相关人民币相关交叉盘拆借利率货币分析机构观点经济数据专家坐堂分析师圈国债收益率全球滚动 CFTC持仓比特币外汇计算器黄金资讯白银分析实物金价 ETF持仓黄金TD 白银TD 金银币专家坐堂基础知识现货黄金现货白银现货铂金现货钯金高清解盘黄金吧白银吧黄金分析 CFTC持仓叶檀凯恩斯曹中铭股民大张宇辉战舰股市风云余岳桐股海战神郭一鸣赵力行叶檀凯恩斯曹中铭股民大张宇辉战舰股市风云余岳桐股海战神郭一鸣赵力行董明珠还能为格力奋战多久？|《至少一个小时》梁建章：中国人口衰竭的速度前所未有冷友斌回应网友质疑：说价格高对飞鹤不公平！王中军：我喜欢比较“江湖”一点的人 7x24快讯：9月19日沪深两市涨停分析非凡哥哥samm：不想做任何操作飞我eight：今天才这点成交量和你天天向上：全部清除了一分不剩用户7048726012：想红但是又有点怕羞江东子弟93949：还对中芯抱有幻想的人和你天天向上：拉升一下吧给我清仓的机会用户7763476192：再玩下去6000亿都守不住了，没人玩了 08-11 宏远股份 920018 9.17 08-05 志高机械 920101 17.41 08-01 广东建科 301632 6.56 07-29 酉立智能 920007 23.99 07-28 天富龙 603406 23.6 新浪财经意见反馈留言板新浪简介|广告服务|About Sina 联系我们|招聘信息|通行证注册产品答疑|网站律师|SINA English Copyright © 1996-2025 SINA Corporation All Rights Reserved 新浪公司版权所有

成为付费用户可以阅读腾讯Robotics X实验室所有资料

了解更多 →

阅读原文 ↗新浪财经