Fun-Audio-Chat – 阿里通义开源的端到端语音交互模型

AI工具7个月前发布

111 0 0

Fun-Audio-Chat是什么

Fun-Audio-Chat是阿里云通义百聆团队开源的新一代端到端语音交互模型，具备语音理解、情感感知和任务执行能力。模型采用双分辨率设计，通过5Hz和25Hz帧率协同工作，相比同类产品节省近50%GPU计算资源。核心创新在于Core-Cocktail两阶段训练策略，能有效避免灾难性遗忘，同时支持多语言语音翻译和角色扮演功能。在OpenAudioBench等国际评测中，本次开源的Fun-Audio-Chat-8B在语音对话、情感识别等任务上超越GLM4-Voice等竞品，已应用于智能客服、情感陪伴等场景，用户可通过ModelScope、HuggingFace平台免费下载使用。

Fun-Audio-Chat的主要功能

端到端语音交互：采用端到端的语音交互模式，直接从语音输入生成语音输出，无需传统模式中的语音识别（ASR）+ 语言模型（LLM）+ 文本转语音（TTS）的多模块拼接，实现更高的效率和更低的延迟。
情绪感知：能通过用户的语义、语气、语速、停顿等细节感知用户的情绪状态，即使用户没有直接表达情绪。