Covo-Audio – 腾讯开源的端到端语音模型

AI工具3天前发布
4 0

Covo-Audio是什么

Covo-Audio 是腾讯开源的70亿参数端到端语音大模型,可直接处理连续音频输入并生成音频输出。模型核心创新包括分层三模态语音-文本交错架构、智能与说话人解耦技术,以及原生全双工交互能力。模型基于Qwen2.5-7B和Whisper构建,在口语对话、语音理解、音频理解等任务达到SOTA性能。作为统一架构的语音AI,模型避免了传统级联系统的延迟与误差累积,是GPT-4o语音能力的强有力开源替代方案。

Covo-Audio – 腾讯开源的端到端语音模型

Covo-Audio的主要功能

  • 口语对话:支持端到端语音输入与语音输出的自然多轮对话交互。

© 版权声明

相关文章