Emu3.5 – 智源研究院推出的多模态世界大模型

AI工具9个月前发布

57 0 0

Emu3.5是什么

Emu3.5（悟界·Emu3.5）是智源研究院发布的多模态世界大模型。通过在超过10万亿多模态Token（主要源自互联网视频，总时长约790年）上进行端到端预训练，学习并内化了现实物理世界的动态规律，具备原生的世界建模能力。模型基于一个34B的稠密Transformer架构，采用“下一状态预测”目标，实现文本、图像、视频三种模态数据的理解和生成大一统。Emu3.5具有多项创新和突破。提出了离散扩散自适应（DiDA）技术，将图像生成速度提升了近20倍，解决了自回归模型在图像生成上的速度瓶颈。在视觉叙事、视觉指导、通用图像编辑与生成、世界建模与探索等任务上展现了强大的能力，能生成图文并茂的故事、分步教程、高质量图像，并进行虚拟环境中的连续视觉序列生成和复杂机器人操作任务分解。