银河通用王鹤：用三维视觉小模型加基础大模型实现具身智能

王鹤批评当前具身智能方案指出Google的RT-2和Figure并非最优解。核心挑战有二：一是泛化局限性Google RT系列仅在1-3个厨房训练在特定环境达97%但陌生环境严重失败；二是响应速度Google 55B模型仅1-3Hz而Figure展示200Hz速度差约40倍。

王鹤提出三层架构方案：底层硬件、中层基于合成3D数据和Sim2Real训练的专业技能模型（导航抓取物体操作）、顶层GPT-4V等大型多模态模型做任务编排。3D视觉模型利用几何泛化性物体在不同环境中几何属性相似通过合成仿真数据实现速度和广泛适用性兼顾。

成为付费用户可以阅读 galbot-2023 所有资料