Fun-Audio-Chat – 阿里通义开源的端到端语音交互模型

AI工具2天前发布
1 0

Fun-Audio-Chat是什么

Fun-Audio-Chat是阿里云通义百聆团队开源的新一代端到端语音交互模型,具备语音理解、情感感知和任务执行能力。模型采用双分辨率设计,通过5Hz和25Hz帧率协同工作,相比同类产品节省近50%GPU计算资源。核心创新在于Core-Cocktail两阶段训练策略,能有效避免灾难性遗忘,同时支持多语言语音翻译和角色扮演功能。在OpenAudioBench等国际评测中,本次开源的Fun-Audio-Chat-8B在语音对话、情感识别等任务上超越GLM4-Voice等竞品,已应用于智能客服、情感陪伴等场景,用户可通过ModelScope、HuggingFace平台免费下载使用。

Fun-Audio-Chat – 阿里通义开源的端到端语音交互模型

Fun-Audio-Chat的主要功能

  • 端到端语音交互:采用端到端的语音交互模式,直接从语音输入生成语音输出,无需传统模式中的语音识别(ASR)+ 语言模型(LLM)+ 文本转语音(TTS)的多模块拼接,实现更高的效率和更低的延迟。
  • 情绪感知:能通过用户的语义、语气、语速、停顿等细节感知用户的情绪状态,即使用户没有直接表达情绪。

© 版权声明

相关文章