这是一篇关于视觉-语言-动作模型(VLA)的深度圆桌讨论实录,由雷峰网和AI科技评论GAIR Live品牌于2025年5月9日举办。
## 核心参与者
- **主持人**:北京大学仉尚航助理教授<br/>- **嘉宾**:<br/> - 高阳(清华大学、千寻智能联合创始人)<br/> - 赵行(清华大学、星海图联合创始人)<br/> - 杨耀东(北京大学、灵初智能联合实验室主任)
## 主要议题
### VLA的定义与发展<br/>"VLA源于大模型的技术变革",整合了视觉信息、语言指令与行动决策能力,推动机器人从单任务执行向多样化场景自主决策的转变。
### 核心技术瓶颈
**推理与数据挑战**:高阳指出数据多样性严重不足,"数据不足限制模型能力、模型能力有限制约数据采集"形成恶性循环。
**系统架构问题**:杨耀东提出VLA训练割裂问题,大脑(VLM)与小脑分开训练,缺乏"测试时计算闭环"。
**多频率控制**:赵行强调需设计高低频自适应闭环系统,实现端到端训练整合多层次系统。
### 技术路线
讨论涵盖紧凑式VLA(π0)、双系统设计(Helix)、中间输出架构(π0.5)等多种范式。
### 数据策略
- 互联网数据需严格清洗,多样性关键<br/>- 仿真数据价值有限但可通过Real2Sim2Real增强<br/>- 真机数据仍是核心,特别是灵巧操作领域
### 强化学习应用
VLA与RL结合是必然路径,但面临真机训练的安全性和数据量挑战。
### 落地场景
专家倾向于从工业场景起步,但也认识到商业领域和特定任务场景具有巨大潜力。当前需多元探索,避免过度集中。
成为付费用户可以阅读 xinghaitu-2023、千寻智能 所有资料
了解更多 →