VLA范式在具身智能中的实践与突破

这是一篇关于视觉-语言-动作模型(VLA)的深度圆桌讨论实录，由雷峰网和AI科技评论GAIR Live品牌于2025年5月9日举办。

## 核心参与者

- **主持人**：北京大学仉尚航助理教授 - **嘉宾**： - 高阳（清华大学、千寻智能联合创始人） - 赵行（清华大学、星海图联合创始人） - 杨耀东（北京大学、灵初智能联合实验室主任）

## 主要议题

### VLA的定义与发展 "VLA源于大模型的技术变革"，整合了视觉信息、语言指令与行动决策能力，推动机器人从单任务执行向多样化场景自主决策的转变。

### 核心技术瓶颈

**推理与数据挑战**：高阳指出数据多样性严重不足，"数据不足限制模型能力、模型能力有限制约数据采集"形成恶性循环。

**系统架构问题**：杨耀东提出VLA训练割裂问题，大脑(VLM)与小脑分开训练，缺乏"测试时计算闭环"。

**多频率控制**：赵行强调需设计高低频自适应闭环系统，实现端到端训练整合多层次系统。

### 技术路线

讨论涵盖紧凑式VLA(π0)、双系统设计(Helix)、中间输出架构(π0.5)等多种范式。

### 数据策略

- 互联网数据需严格清洗，多样性关键 - 仿真数据价值有限但可通过Real2Sim2Real增强 - 真机数据仍是核心，特别是灵巧操作领域

### 强化学习应用

VLA与RL结合是必然路径，但面临真机训练的安全性和数据量挑战。

### 落地场景

专家倾向于从工业场景起步，但也认识到商业领域和特定任务场景具有巨大潜力。当前需多元探索，避免过度集中。

成为付费用户可以阅读 xinghaitu-2023、千寻智能所有资料