VTP – MiniMax视频团队开源的视觉生成模型预训练框架

AI工具3天前发布
2 0

VTP是什么

VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学习等方法,从头预训练tokenizer,使生成的latent(压缩特征)更具结构化和易学性。VTP突破传统tokenizer的局限,展现出良好的可扩展性,随着参数、算力和数据规模的增加,能显著提升下游生成模型的性能,为视觉生成领域提供新的思路和方法。

VTP – MiniMax视频团队开源的视觉生成模型预训练框架

VTP的主要功能

  • 提升生成质量:通过优化latent空间的结构,使生成模型能更高效地学习和生成高质量的图像或视频。

© 版权声明

相关文章