AnyI2V – 复旦联合阿里达摩院等推出的图像动画生成框架

3 0 0

AnyI2V是什么

AnyI2V 是复旦大学、阿里巴巴达摩院和湖畔实验室联合推出的创新图像动画生成框架。框架无需大量训练数据，能将静态条件图像（如网格、点云等）转化为动态视频，支持用户自定义运动轨迹。AnyI2V 支持多种模态输入，可通过 LoRA 和文本提示灵活编辑，框架在空间和运动控制方面表现出色，为图像动画化提供高效、灵活的新方法。

AnyI2V的主要功能

多模态支持：支持多种类型的条件输入，包括网格、点云等难以获取成对训练数据的模态。
混合条件输入：框架能接受不同类型的条件输入组合，进一步增加输入的灵活性。
编辑功能：通过LoRA或不同的文本提示，对原始图像进行编辑，实现风格迁移和内容调整。
运动控制：支持用户通过定义运动轨迹控制视频的动画效果，实现精确的运动控制。
无需训练：无需大量的训练数据和复杂的训练过程，降低使用门槛。

AnyI2V的技术原理

DDIM反演：AnyI2V 对条件图像进行 DDIM（Denoising Diffusion Implicit Model）反演。DDIM 是扩散模型，通过逐步去除噪声恢复图像。在反演过程中，AnyI2V 从条件图像中提取特征，将用在后续的动画生成。
特征提取与替换：在提取特征时，AnyI2V 移除 3D U-Net 中的时间模块（temporal self-attention），模块主要用在处理视频中的时间信息，条件图像只有空间信息。从 3D U-Net 的空间块中提取特征，在特定的时间步保存特征。
优化潜在表示：AnyI2V 将提取的特征替换回 3D U-Net 中，优化潜在表示。通过自动生成的语义掩码进行约束，确保优化只在特定区域进行。语义掩码根据条件图像的内容动态生成，提高生成效果的准确性。
运动控制：用户通过定义运动轨迹控制动画的生成。AnyI2V 将运动轨迹作为输入，结合优化后的潜在表示，生成符合用户定义运动的视频。运动控制机制使用户能精确地控制视频中对象的运动路径。