VibeVoice-ASR – 微软开源的长音频语音识别模型

AI工具6个月前发布

85 0 0

VibeVoice-ASR是什么

VibeVoice-ASR 是微软开源的先进语音识别模型，专为处理长达60分钟的长音频设计。模型能一次性处理整段音频，保持全局上下文，避免传统模型分段处理导致的上下文丢失。模型生成的转录文本包含语音内容，能标注说话者身份和时间戳，支持用户添加自定义热词，提高特定领域的识别准确性。VibeVoice-ASR 强大的功能使模型在长音频转录和多说话者场景中表现出色，广泛应用于会议记录、讲座转录等场景。

VibeVoice-ASR – 微软开源的长音频语音识别模型

VibeVoice-ASR的主要功能

长音频单次处理：模型支持长达60分钟的音频输入，一次性处理整段音频，保持全局上下文，避免分段处理导致的上下文丢失。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阿里 Qwen-Image-Edit-2509 模型更新发布，支持多图编辑、单图一致性提升

116 0

“AI 教父”杰弗里・辛顿：人工智能明年将对大量工作岗位产生实质性冲击

105 0

斯坦福大学研究称 AI 可被社交平台“人气”冲昏头脑，会逐渐出现不道德行为

73 0

Seed Prover 1.5 – 字节跳动推出的新一代数学推理模型

109 0

黑客成功“欺骗”ChatGPT、Grok、谷歌，诱导其辅助安装恶意软件

109 0

Starla – AI星座应用，根据星盘匹配生成“灵魂伴侣画像”

104 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号