B站开源动漫视频生成模型 AniSora V3 发布:性能优化升级

AI资讯2个月前发布
18 0

7月7日訊息,B站團隊推出的新一代开源動漫影片生成模型AniSora於7月2日正式發布了AniSora V3預覽版

作為Index-AniSora項目的重要組成部分,V3版本在原有功能的基礎上,針對生成質量、動作流暢度和風格多樣性等方面進行了全方位優化,為動漫、漫畫及VTuber內容創作者提供了更高效的創作工具。

B站开源动漫视频生成模型 AniSora V3 发布:性能优化升级

AniSora的最大特色在於其強大的一键生成多種Anime風格影片片段的能力,涵蓋了番劇鏡頭、國創動畫、漫畫改編、VTuber內容、動畫PV以及鬼畜(MAD)等多種形式。

B站开源动漫视频生成模型 AniSora V3 发布:性能优化升级

AniSora V3的核心技術基於B站此前公開的CogVideoX-5B和Wan2.1-14B模型,並結合了強化學習與人工反饋(RLHF)框架。這次更新主要帶來了三個方面的提升:

  • 優化的时空掩碼模塊(Spatiotemporal Mask Module):V3版本進一步提升了對空間和時間的控制能力,能夠處理更複雜的動漫任務,例如精細的角色表情控制、鏡頭移動以及局部圖像引導生成。例如,通過提示“五位女孩在鏡頭放大時起舞,左手上舉至头顶再下放至膝蓋”,模型可以生成流暢自然的舞蹈 animation。
  • 擴展數據集:V3版本基於超過1000萬高質量Anime影片片段(從100萬原始影片中提取)進行訓練,新增了數據清洗流程,進一步提升了生成內容的風格一致性和細節豐富度。
  • 硬件支撐:V3版本新た支持華為Ascend910B NPU芯片,完全基於國產化平台訓練,推理速度提升約20%,使得4秒高清影片的生成時間僅需2-3分鐘。
  • 多任務學習能力:V3版本進一步強化了模型的多任務處理能力,支持從單帧圖像生成影片、關鍵帧插值到唇部同步等功能,特別適合用於漫畫改編和VTuber內容創作。

在最新的 benchmark 測試中,AniSora V3 在VBench評估指標和雙盲主觀測試中均取得了業界領先的成績,尤其是在複雜動作(如違反物理規律的Anime式動作)方面的表現尤为突出。

V3版本首次引入了專門針對Anime影片生成的RLHF框架,並通過AnimeReward和GAPO等工具對模型進行微調,確保生成內容更符合人類審美需求和Anime藝術風格。

AniSora V3支持包括日本動漫、國產原創動畫、漫畫改編、VTuber內容以及惡搞動畫(鬼畜アニメ)等多種風格,幾乎覆蓋了所有Anime影片的常見應用場景。具體來說:

  • 單圖轉影片:用戶只需上傳一張高質量Anime圖片,並配合文本提示(如“角色在向前行駛的車中揮手,頭發隨風擺動”),即可生成對應的dynamic影片。
  • 漫畫改編:從漫畫帧生成帶有唇部同步和動作效果的 animation,特別適合用於短篇作品或預告片的快速製作。
  • VTuber與遊戲:支持即時生成角色 animation,為獨立創作者和遊戲開發者提供高效的測試工具。
  • 高分辨率輸出:生成的影片最高可達1080p resolution,確保在各類社交平台和流媒體平台上實現專業級展示。

據AIbase測試顯示,在生成複雜場景(如多角色交互、動態背景)時,相較於V2版本,V3的伪影問題减少了約15%,且4秒影片的平均生成時間縮短至2.5分鐘

與OpenAI的Sora或Kling等通用型視頻生成模型相比,AniSora V3更加專注於Anime領域。相較於字節跳動的EX-4D,AniSora V3更側重於2D/2.5D Anime風格的優化,而非多角度(4D)影片生成。

如需了解更多資訊或下載模型,可訪問:https://github.com/bilibili/Index-anisora/tree/main

© 版权声明

相关文章