VibeVoice-ASR – 微软开源的长音频语音识别模型

AI工具2周前发布
14 0

VibeVoice-ASR是什么

VibeVoice-ASR 是微软开源的先进语音识别模型,专为处理长达60分钟的长音频设计。模型能一次性处理整段音频,保持全局上下文,避免传统模型分段处理导致的上下文丢失。模型生成的转录文本包含语音内容,能标注说话者身份和时间戳,支持用户添加自定义热词,提高特定领域的识别准确性。VibeVoice-ASR 强大的功能使模型在长音频转录和多说话者场景中表现出色,广泛应用于会议记录、讲座转录等场景。

VibeVoice-ASR – 微软开源的长音频语音识别模型

VibeVoice-ASR的主要功能

  • 长音频单次处理:模型支持长达60分钟的音频输入,一次性处理整段音频,保持全局上下文,避免分段处理导致的上下文丢失。

© 版权声明

相关文章