Vidi2 – 字节跳动推出的多模态视频理解与生成模型

AI工具2周前发布
6 0

Vidi2是什么

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video QA)方面取得了显著进展。Vidi2能根据文本查询,不仅识别出视频中对应的时间戳,能标记出目标对象的边界框。Vidi2引入了新的基准测试VUE-STG和VUE-TR-V2,以更好地评估STG能力。在实际应用中,Vidi2支持如智能剪辑、智能分镜、智能字幕等功能,帮助创作者更高效地进行视频创作。

Vidi2 – 字节跳动推出的多模态视频理解与生成模型

Vidi2的主要功能

  • 视频理解与检索:能处理数小时长的视频素材,根据文本查询快速定位到视频中相关的时间段,支持复杂场景下的长视频理解。

© 版权声明

相关文章