阿里巴巴达摩院首创WorldVLA全自回归模型,世界模型与动作模型(首次融合实现跨模)态统一建模

岑俊博士现任阿里巴巴达摩院具身智能大模型算法研究员,其博士毕业于香港科技大学,主要研究方向为具身智能VLA模型与世界模型。

阿里巴巴达摩院创新性地提出了WorldVLA模型,首次实现了世界模型(World Model)与动作模型(Action Model/VLA Model)的有机融合。该模型作为全自回归模型,统一了文本、图像、动作的理解与生成能力。

论文标题:WorldVLA: Towards Autoregressive Action World Model

代码开源地址:https://github.com/alibaba-damo-academy/WorldVLA

研究背景与创新

视觉-语言-动作(VLA)模型已成为机器人动作建模领域的重要研究方向。这类模型通常基于多模态大语言模型(MLLMs)构建,通过添加动作输出模块实现动作生成。虽然MLLMs在感知决策方面表现优异,使VLA模型具备良好的任务泛化能力,但其对动作本身的理解仍显不足。现有方法多将动作视为输出结果,而未能将其作为输入进行分析建模。

相比之下,世界模型能够基于当前观测与动作预测未来视觉状态,实现对视觉信息和行为动态的同步理解。然而其无法直接生成动作输出的特性,限制了在显式动作规划场景中的应用。

WorldVLA创新性地采用自回归机制,构建了统一的动作与图像理解生成模型。该模型通过三个独立编码器分别处理图像、文本和动作数据,并设计共享词表机制,实现在单一语言模型架构下的跨模态统一建模。

技术突破

模型通过双向增强机制实现性能提升:世界模型部分通过动作输入生成视觉表示,学习环境物理规律;动作模型则反向增强视觉理解能力,提升图像生成准确性。实验发现,传统自回归模型在连续生成动作时会出现性能下降,主要源于预训练过程中对动作模态的学习不足。

针对此问题,研究团队创新提出动作注意力掩码策略,在生成当前动作时选择性屏蔽历史动作信息,有效缓解误差累积问题。在LIBERO基准测试中,WorldVLA的抓取成功率较传统动作模型提升4%,视频生成质量(FVD指标)较传统世界模型提升10%。在动作分块生成任务中,注意力掩码策略使抓取成功率提升4%-23%。

方法论

WorldVLA的创新架构实现了:1)基于图像理解生成动作(VLA模型功能);2)基于当前图像和动作预测下一帧(世界模型功能)。模型采用多模态数据联合训练策略:动作模型数据(图片+文本→动作)和世界模型数据(当前帧+动作→下一帧)。

针对多动作生成的误差累积问题,模型采用创新的注意力掩码机制,使动作生成时仅能获取图像历史信息,从而显著提升生成质量。

实验成果

在LIBERO基准测试中,WorldVLA在无预训练条件下超越了需要预训练的OpenVLA模型。消融实验证实:1)世界模型的引入显著提升动作模型性能;2)传统注意力掩码会导致任务成功率下降,而创新掩码策略带来全面性能提升。

可视化案例显示:在动作模型方面,WorldVLA能准确执行文本指令对应的动作;在世界模型方面,可根据当前帧和动作精准预测下一帧图像。这些成果充分验证了图像与动作统一建模框架的技术优势。

我是个负责任的人作文匹百字

责任存在于我们生命中的每一个角色。

同学们,你是否曾在完成作业时遇到困难,或是意外打破了家中的碗碟?你是否曾在犯错后,第一反应是逃避责任,甚至说谎以避免批评或惩罚?这些时刻,我们面临的选择往往是勇敢地面对错误,还是选择懦弱地逃避。历史上,有许多勇于承担责任的故事。比如,在1920年的美国,有一个11岁的男孩不小心打碎了邻居家...。

做一个有责任感的人作文1 责任是每个人都有的,不是说我还小我就没有什么责任;也不是说我已老去,是一个即将逝去的人所以我现在没有什么责任,其实不是只要你生活在这个世上,那么你就存在着责任。从我们来到这个世上开始,就注定了我们的责任,在生活中我们不只是只有享受,在享受的同时我们...。

做一个负责任的人 小时候,妈妈告诉我,大哥哥大姐姐们上小学了,他们的责任就是要好好学习。 从那时,几个疑问就一直萦绕于我的脑际:什么叫责任呢?怎样做一个有责任感的人呢?直到我也上了小学,我终于明白了!原来,责任有很多种的,老师的责任就是传授给我们知识,父母的责任就是要把我们好好...。

责任,大到“国家兴亡,匹夫有责”,小到“子不教,父之过”,每个人都有自己的责任,我们应该主动承担责任,而不是被动、被迫地承担责任。我们要做责任的主人,享受承担责任的快乐,只有这样,社会才能正常地发展。然而,现在的情况是责任性日益淡薄,我曾经听说过这样一个故事:有一条通往省府的现代...。

    附件: