【新智元导读】近来,国产AI视频模型强大生成能力震惊了国外网友。刚刚,中国首个超长时长、高性价比、端侧可用的Sora级视频模型诞生了,由国产黑马联手清华打造。与别家出发点不同之处在于,这是为了实现世界模型而创建的AI视频模型。
Sora爆火之后,视频生成领域不断迎来新的进展,视频的时代正在开启!近日,在奇绩创坛路演日上,世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性价比、端侧可用的Sora级视频生成大模型「视界一粟 YiSu」,引起社会各界广泛的反响和关注。模型原生16秒,超长时长,超大运动,超强表现力
概括来说,「视界一粟 YiSu」的特点如下:- 拥有模型原生的16秒超长时长,并可生成至1分钟以上;- 同时还拥有超大运动、超强表现力、懂物理世界等众多优势;- 更重要的是,YiSu模型成本更低、速度更快、端侧可用。基于此,团队希望通过YiSu模型强大的性能和极致的性价比,更快实现长视频生成的大规模产品应用。不止步于DiT,自研的视频生成技术路线
年初Sora的爆火,让DiT受到了业内极大的关注,很多公司和项目也开始复现DiT路线。极佳科技和清华大学研究人员在视频生成技术路线上有着深入的积累和独特的理解,在autoregressive、Masked Token、DiT、UNet等不同路线方面均拥有丰富的经验。此前,团队提出WorldDreamer,是全球第一次以Transformer和LLM(Masked Token路线)为中心的视频生成工作。
这家公司有点独特,可能和市面上视频生成公司的出发点都不一样!
「我们做视频生成是为了实现世界模型」,极佳科技创始人&CEO黄冠博士表示。被问及做视频生成的出发点?黄冠博士表示:「我们可能和市面上目前所有做视频生成公司的出发点都不一样。」「我们公司在成立之初就意识到,自动驾驶、通用机器人等物理世界通用智能的核心瓶颈是数据问题,而随着生成式AI、大语言模型等技术的突破,我们很早就看到数据最好的来源就是世界模型。同时,我们也很快意识到,世界模型的核心是视频生成。」「所以,基本从去年9月份开始,发布了全球首个真实世界驱动的自动驾驶世界模型工作DriveDreamer之后,我们基本就把视频生成和世界模型的底层架构统一了,通过视频生成走向通用世界模型,加速走向通用智能。」未来更重要的事情是「世界模型」!
世界模型通过对未来的预测来增加对世界的理解能力,对于自动驾驶、机器人、具身智能等方向的发展拥有至关重要的作用。具体而言,世界模型在数据生成、闭环仿真、端到端方案等方向都具有重要的价值。基于视频生成同款架构,用于自动驾驶场景世界模型的效果
基于视频生成同款架构,用于机器人场景世界模型的效果
与此同时,极佳科技在世界模型的技术研发上保持行业领先:
- 2023年9月,极佳科技推出了全球首个真实世界驱动的自动驾驶世界模型DriveDreamer,早于Wayve的GAIA-1;- 2024年4月,极佳科技进一步更新了DriveDreamer-2,性能保持业内领先;- 2024年5月,极佳科技联合国内外多家单位推出了全球首篇通用世界模型综述,该综述通过260余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。超级应用和数据引擎的两个方向商业化,打造基础模型和商业应用的智能闭环飞轮
极佳科技CEO黄冠博士认为:「在AI 1.0时代,大家基本依靠的是场景驱动的数据闭环,依靠数据飞轮,不断优化模型和应用效果。进入通用智能的AI 2.0时代,最重要的是基础模型和商业应用两条腿走路,打造智能闭环,形成智能飞轮。极佳科技希望通过基础模型和商业应用形成的智能闭环飞轮,加速走向通用智能时代。」基于「视界一粟 YiSu」大模型,极佳科技的商业应用从两个方向切入,一个是「视频-Native」的超级应用,一个是通用智能的新一代数据引擎。超级应用方面,极佳科技正在打造面向通用智能时代的「AI-Native」和「视频-Native」的全新应用,通过基础模型驱动视频应用的全新体验,通过应用的反馈带动基础模型的不断进化。数据引擎方面,极佳科技认为世界模型是未来通用智能最重要的数据来源。基于领先的世界模型技术,极佳科技获得业内首个世界模型商业化定点和落地,签约多家主机厂和大客户,服务自动驾驶、机器人等具身智能客户几十余家。极佳科技希望通过世界模型和数据引擎,携手行业,加速走向物理世界通用智能。世界级的人工智能综合团队:兼具顶尖的技术、产业、创业经验
成为付费用户可以阅读 极佳视界 所有资料
了解更多 →阅读原文 ↗hub.baai.ac.cn