HuMo – 清华联合字节推出的多模态视频生成框架

AI工具2天前发布
4 0

HuMo是什么

HuMo是清华大学和字节跳动智能创作实验室共同提出的多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。HuMo支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像、文本-音频以及文本-图像-音频生成视频,为用户提供了更高的定制化和控制能力。HuMo的模型在Hugging Face上开源,提供了详细的安装指南和模型准备步骤,支持480P和720P分辨率的视频生成,720P的生成质量更高。HuMo提供了配置文件来定制生成行为和输出,包括生成长度、视频分辨率以及文本、图像和音频输入的平衡。

HuMo – 清华联合字节推出的多模态视频生成框架

HuMo的主要功能

  • 文本-图像驱动视频生成:结合文本提示和参考图像,定制角色的外貌、服装、妆容、道具和场景,生成个性化视频。

© 版权声明

相关文章