Yume1.5 – 上海AI Lab联合复旦开源的交互式世界生成模型

AI工具3个月前发布

59 0 0

Yume1.5是什么

Yume1.5 是上海人工智能实验室和复旦大学等推出的交互式世界生成模型，能从单张图像或文本提示生成逼真、连续且可探索的虚拟世界。模型通过联合时空通道建模（TSCM）和实时加速策略，解决了现有模型的通用性、延迟和文本控制能力不足的问题。Yume1.5 支持文本到世界、图像到世界及基于文本的事件编辑三种模式，支持用户通过键盘控制人物和摄像机移动。Yume1.5 在单卡 GPU 上实现 12 FPS 的实时渲染，显著提升交互性能，为虚拟环境和模拟系统提供新的可能性。

Yume1.5的主要功能

文本到世界（Text-to-World）：支持用户通过输入文本描述生成对应的虚拟世界。
图像到世界（Image-to-World）：以单张静态图像为基础，生成一个动态、可探索的虚拟世界。
基于文本的事件编辑：用户可通过文本指令触发特定事件，如“突然出现一个幽灵”或“下起暴雨”，实时观察事件在虚拟世界中的发生。
实时交互与控制：支持通过键盘输入（如 WASD 键控制人物移动，箭头键控制摄像机方向）实现对虚拟世界的实时探索。用户能在生成的世界中自由移动，观察不同视角下的场景变化，实现沉浸式体验。
长视频生成与连贯性：模型支持生成无限长的视频内容，保持时间和视觉上的连贯性。通过联合时空通道建模（TSCM）和 Self-Forcing 技术，解决长序列生成中常见的质量下降问题，确保视频在长时间生成中保持稳定。