《阿里巴巴达摩院》发布WorldVLA模型,世界模型与动作模型首次融合实现全自回归统一建模

岑俊博士现任阿里巴巴达摩院具身智能大模型算法研究员,毕业于香港科技大学,主要研究方向为具身智能VLA模型和世界模型。

阿里巴巴达摩院最新提出的WorldVLA模型创新性地将世界模型(World Model)与动作模型(Action Model/VLA Model)融合于单一框架。该模型是一个统一处理文本、图像、动作理解与生成的全自回归模型。

相关研究论文《WorldVLA: Towards Autoregressive Action World Model》已发表,代码开源地址:https://github.com/alibaba-damo-academy/WorldVLA

研究背景

视觉-语言-动作(VLA)模型在机器人动作建模领域发展迅速。这类模型通常基于多模态大语言模型(MLLMs)构建,通过添加动作输出模块实现动作生成。虽然MLLMs在感知决策方面表现优异,使VLA模型具备良好的任务泛化能力,但其对动作本身的理解仍显不足。现有方法多将动作单纯视为输出结果,缺乏对动作输入的深入分析。

相比之下,世界模型能通过当前观测和动作预测未来视觉状态,兼具视觉理解和行为动态建模能力。然而其无法直接生成动作输出,在需要显式动作规划的场景中存在功能局限。

模型创新

WorldVLA采用自回归机制,创新性地统一了动作与图像的理解生成功能。模型架构包含三个独立编码器,分别处理图像、文本和动作数据,并通过共享词表实现跨模态的统一建模。

世界模型模块通过输入动作生成视觉表示,学习环境物理规律;动作模型模块则增强视觉理解能力,提升图像生成质量。这种双向增强机制使系统在图像与动作的理解生成方面更加全面可靠。

技术突破

研究发现,传统自回归模型在连续生成多个动作时会出现性能下降。这是由于预训练多模态语言模型对动作数据接触有限,导致动作生成时误差累积。为此,团队提出动作注意力掩码策略,在生成当前动作时屏蔽先前动作信息,有效缓解了误差传播问题。

实验成果

在LIBERO基准测试中,WorldVLA相比传统动作模型抓取成功率提升4%;相较传统世界模型,视频生成质量FVD指标降低10%。在动作分块生成任务中,注意力掩码策略使抓取成功率提升4%-23%,显著优于传统自回归方法。

方法详解

WorldVLA通过独立编码器处理多模态数据,采用统一建模架构。模型训练使用动作模型数据(图片+文本→动作)和世界模型数据(当前帧+动作→下一帧)。创新的注意力掩码策略确保生成动作时仅参考图像信息,避免动作误差累积。

实验验证

LIBERO基准测试显示,WorldVLA在无预训练情况下超越需预训练的全自回归模型OpenVLA。消融实验证实世界模型的加入显著提升动作模型性能,而注意力掩码策略则全面提高了任务成功率。可视化结果展示了模型在动作执行和图像预测方面的优异表现。

念卿卿

天涯情切切,拭泪两相思是一句诗句,表达了思念之情。其中的切切念卿卿表示思念和想念对方的心情。这句诗描绘了之苦和对某人的深深思念之情。

意思为:我只挂念亲爱的你。具体解释如下:吾:我。在此句中做主语。独:只。在此句中做状语。念:思念,挂念。在此句中做谓语。卿卿:夫妻间的爱称。后来泛用为对人亲昵的称呼。相当于,亲爱的你。在此句中做宾语。卿卿一词多用于对女子的亲昵称呼。

意思就是我喜欢你,你要是答应我,我一定不会辜负你的。

1、如歌彻婉颜 2、江船夜雨听笛声 3、卿与余生漫寂寥 4、念卿卿 5、扬州烟雨 6、浮生醉清风古 7、调弦音一曲成悲 8、江河日暮 9、花间眠 10、南风 11、月色映归客 12、山有木兮 13、青衫如故 14、雨落由春去 15、明灯许三千 16、只愿君心似我心 17、轻舟浅渡 18、二十四桥明月夜 1...。

我只挂念亲爱的你。大多指夫妻之间。此句出自:《相爱穿梭千年》之中公明写给湘湘的古诗情书。若有来日,卿卿见字,情愿卿卿,懵懂不知,从今往后,勿复相思,努力加餐,百岁无忧,卿卿恕我,含恨无用,我负卿卿,虚度一生,无缘相守,何劳相望,东风作恶,使同心而离居,吾亦何忍,令忧伤以终老,...。

    附件: