Vidi2 – 字节跳动推出的多模态视频理解与生成模型

AI工具8个月前发布

58 0 0

Vidi2是什么

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索（TR）方面达到了行业领先水平，在时空定位（STG）和视频问答（Video QA）方面取得了显著进展。Vidi2能根据文本查询，不仅识别出视频中对应的时间戳，能标记出目标对象的边界框。Vidi2引入了新的基准测试VUE-STG和VUE-TR-V2，以更好地评估STG能力。在实际应用中，Vidi2支持如智能剪辑、智能分镜、智能字幕等功能，帮助创作者更高效地进行视频创作。

Vidi2 – 字节跳动推出的多模态视频理解与生成模型

Vidi2的主要功能

视频理解与检索：能处理数小时长的视频素材，根据文本查询快速定位到视频中相关的时间段，支持复杂场景下的长视频理解。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

消息称博通有望拿下苹果、xAI 的 AI ASIC 订单

196 0

普林斯顿与DeepMind联合推出AI新模型，可精准预测人类行为

158 0

诺贝尔经济学奖得主迈克尔・斯宾塞：中美 AI 发展“已基本不相上下”

56 0

LensGo AI – AI内容创作平台，一键生成风格化图像与视频

115 0

首届世界人形机器人运动会落幕：宇树科技创造记录摘得四枚金牌，最好速度成绩为 4.78m/s

172 0

xAI Grok4模型被黑，回音室攻击致生成不当内容

172 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号