SAM Audio – Meta开源的音频分割模型

AI工具8个月前发布

121 0 0

SAM Audio是什么

SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual（PE-AV），基于Meta开源的Perception Encoder模型，能融合视听信息并进行精确的时间标注，实现高精度的音频分离。用户可以通过简单的文本描述（如“吉他声”）、在视频中点击发声物体，或者标记声音出现的时间范围来使用SAM Audio。

SAM Audio – Meta开源的音频分割模型

SAM Audio的主要功能

多模态提示音频分离：通过文本描述、视觉选择（视频中的对象）或时间片段标记，从复杂音频混合中分离出特定声音。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

宇树科技王兴回应跳舞拳击质疑：行业趋势值得参与

124 0

消息称腾讯在线视频业务成立新技术部，全面发力 AI

52 0

VisionY – AI分镜生成平台，自动识别场景、角色和对话

128 0

库班预测：AI将催生全球首位万亿富翁

87 0

用 AI 从零设计抗体，OpenAI 支持的 Chai Discovery 获 1.3 亿美元融资

108 0

国务院国资委发布人工智能“焕新社区” 开源平台，已汇聚行业垂类模型 244 个

195 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号