AnyI2V – 复旦联合阿里达摩院等推出的图像动画生成框架

AI工具2天前发布
3 0

AnyI2V是什么

AnyI2V 是复旦大学、阿里巴巴达摩院和湖畔实验室联合推出的创新图像动画生成框架。框架无需大量训练数据,能将静态条件图像(如网格、点云等)转化为动态视频,支持用户自定义运动轨迹。AnyI2V 支持多种模态输入,可通过 LoRA 和文本提示灵活编辑,框架在空间和运动控制方面表现出色,为图像动画化提供高效、灵活的新方法。

AnyI2V – 复旦联合阿里达摩院等推出的图像动画生成框架

AnyI2V的主要功能

  • 多模态支持:支持多种类型的条件输入,包括网格、点云等难以获取成对训练数据的模态。
  • 混合条件输入:框架能接受不同类型的条件输入组合,进一步增加输入的灵活性。
  • 编辑功能:通过LoRA或不同的文本提示,对原始图像进行编辑,实现风格迁移和内容调整。
  • 运动控制:支持用户通过定义运动轨迹控制视频的动画效果,实现精确的运动控制。
  • 无需训练:无需大量的训练数据和复杂的训练过程,降低使用门槛。

AnyI2V的技术原理

  • DDIM反演:AnyI2V 对条件图像进行 DDIM(Denoising Diffusion Implicit Model)反演。DDIM 是扩散模型,通过逐步去除噪声恢复图像。在反演过程中,AnyI2V 从条件图像中提取特征,将用在后续的动画生成。
  • 特征提取与替换:在提取特征时,AnyI2V 移除 3D U-Net 中的 时间模块(temporal self-attention),模块主要用在处理视频中的时间信息,条件图像只有空间信息。从 3D U-Net 的空间块中提取特征,在特定的时间步保存特征。
  • 优化潜在表示:AnyI2V 将提取的特征替换回 3D U-Net 中,优化潜在表示。通过自动生成的语义掩码进行约束,确保优化只在特定区域进行。语义掩码根据条件图像的内容动态生成,提高生成效果的准确性。
  • 运动控制:用户通过定义运动轨迹控制动画的生成。AnyI2V 将运动轨迹作为输入,结合优化后的潜在表示,生成符合用户定义运动的视频。运动控制机制使用户能精确地控制视频中对象的运动路径。

AnyI2V的项目地址

  • 项目官网:https://henghuiding.com/AnyI2V/
  • GitHub仓库:https://github.com/FudanCVL/AnyI2V
  • arXiv技术论文:https://arxiv.org/pdf/2507.02857

AnyI2V的应用场景

  • 动画制作:动画师快速生成动画原型,直接将静态图像转化为动态视频,为动画创作提供更多的创意空间。
  • 视频特效:在影视制作中,用在生成复杂的视觉特效,将静态的场景图像转化为动态的背景,或为角色添加动态效果,增强视觉冲击力。
  • 游戏开发:游戏开发者生成游戏中的动态场景和角色动画,为游戏带来更加丰富和生动的视觉效果。
  • 动态广告:广告设计师将静态广告图像转化为动态视频,吸引观众的注意力。
  • 社交媒体内容:品牌和内容创作者生成引人注目的社交媒体视频,,提高内容的传播率和用户参与度。
© 版权声明

相关文章