光合及目
1lux.xyz
← 报道
创始人访谈· 2025-05-09

VLA范式在具身智能中的实践与突破

VLA范式在具身智能中的实践与突破

这是一篇关于视觉-语言-动作模型(VLA)的深度圆桌讨论实录,由雷峰网和AI科技评论GAIR Live品牌于2025年5月9日举办。

## 核心参与者

- **主持人**:北京大学仉尚航助理教授<br/>- **嘉宾**:<br/> - 高阳(清华大学、千寻智能联合创始人)<br/> - 赵行(清华大学、星海图联合创始人)<br/> - 杨耀东(北京大学、灵初智能联合实验室主任)

## 主要议题

### VLA的定义与发展<br/>"VLA源于大模型的技术变革",整合了视觉信息、语言指令与行动决策能力,推动机器人从单任务执行向多样化场景自主决策的转变。

### 核心技术瓶颈

**推理与数据挑战**:高阳指出数据多样性严重不足,"数据不足限制模型能力、模型能力有限制约数据采集"形成恶性循环。

**系统架构问题**:杨耀东提出VLA训练割裂问题,大脑(VLM)与小脑分开训练,缺乏"测试时计算闭环"。

**多频率控制**:赵行强调需设计高低频自适应闭环系统,实现端到端训练整合多层次系统。

### 技术路线

讨论涵盖紧凑式VLA(π0)、双系统设计(Helix)、中间输出架构(π0.5)等多种范式。

### 数据策略

- 互联网数据需严格清洗,多样性关键<br/>- 仿真数据价值有限但可通过Real2Sim2Real增强<br/>- 真机数据仍是核心,特别是灵巧操作领域

### 强化学习应用

VLA与RL结合是必然路径,但面临真机训练的安全性和数据量挑战。

### 落地场景

专家倾向于从工业场景起步,但也认识到商业领域和特定任务场景具有巨大潜力。当前需多元探索,避免过度集中。

成为付费用户可以阅读 xinghaitu-2023、千寻智能 所有资料

了解更多 →