Emu3.5 – 智源研究院推出的多模态世界大模型

AI工具4天前发布
1 0

Emu3.5是什么

Emu3.5(悟界·Emu3.5)是智源研究院发布的多模态世界大模型。通过在超过10万亿多模态Token(主要源自互联网视频,总时长约790年)上进行端到端预训练,学习并内化了现实物理世界的动态规律,具备原生的世界建模能力。模型基于一个34B的稠密Transformer架构,采用“下一状态预测”目标,实现文本、图像、视频三种模态数据的理解和生成大一统。Emu3.5具有多项创新和突破。提出了离散扩散自适应(DiDA)技术,将图像生成速度提升了近20倍,解决了自回归模型在图像生成上的速度瓶颈。在视觉叙事、视觉指导、通用图像编辑与生成、世界建模与探索等任务上展现了强大的能力,能生成图文并茂的故事、分步教程、高质量图像,并进行虚拟环境中的连续视觉序列生成和复杂机器人操作任务分解。

Emu3.5 – 智源研究院推出的多模态世界大模型

Emu3.5的主要功能

  • 多模态内容生成:能生成高质量的图文内容,包括图像、文本以及两者的组合,适用于广告、影视、游戏等创意内容创作领域。

© 版权声明

相关文章