Yume1.5是什么
Yume1.5 是上海人工智能实验室和复旦大学等推出的交互式世界生成模型,能从单张图像或文本提示生成逼真、连续且可探索的虚拟世界。模型通过联合时空通道建模(TSCM)和实时加速策略,解决了现有模型的通用性、延迟和文本控制能力不足的问题。Yume1.5 支持文本到世界、图像到世界及基于文本的事件编辑三种模式,支持用户通过键盘控制人物和摄像机移动。Yume1.5 在单卡 GPU 上实现 12 FPS 的实时渲染,显著提升交互性能,为虚拟环境和模拟系统提供新的可能性。
Yume1.5的主要功能
- 文本到世界(Text-to-World):支持用户通过输入文本描述生成对应的虚拟世界。
- 图像到世界(Image-to-World):以单张静态图像为基础,生成一个动态、可探索的虚拟世界。
- 基于文本的事件编辑:用户可通过文本指令触发特定事件,如“突然出现一个幽灵”或“下起暴雨”,实时观察事件在虚拟世界中的发生。
- 实时交互与控制:支持通过键盘输入(如 WASD 键控制人物移动,箭头键控制摄像机方向)实现对虚拟世界的实时探索。用户能在生成的世界中自由移动,观察不同视角下的场景变化,实现沉浸式体验。
- 长视频生成与连贯性:模型支持生成无限长的视频内容,保持时间和视觉上的连贯性。通过联合时空通道建模(TSCM)和 Self-Forcing 技术,解决长序列生成中常见的质量下降问题,确保视频在长时间生成中保持稳定。
Yume1.5的技术原理
- 联合时空通道建模(TSCM):Yume1.5 采用联合时空通道建模技术,通过时空压缩和通道压缩减少历史帧的显存占用。模型对历史帧进行时间和空间维度的下采样,同时对通道维度进行压缩,再通过线性注意力进行特征融合。这种方法在保持生成质量的同时,显著降低了计算成本,使长视频生成更加高效。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
