Ming-omni-tts – 蚂蚁集团开源的统一音频生成模型

AI工具1个月前发布
38 0

Ming-omni-tts是什么

Ming-omni-tts 是蚂蚁集团开源的统一音频生成模型,采用自回归架构实现语音、音乐和音效的联合生成。模型支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制,粤语方言控制准确率达93%,情感控制准确率46.7%,超越CosyVoice3。技术上采用统一连续音频Tokenizer和Diffusion Transformer架构,以12.5Hz帧率处理多模态音频,通过”Patch-by-Patch”压缩策略将LLM推理帧率降至3.1Hz,在降低延迟的同时保持音质。16.8B参数版本在Seed-tts-eval中文测试集上WER仅0.83%,超越SeedTTS和GLM-TTS。模型内置100+优质音色,支持零样本声音设计,提供Docker镜像和Gradio演示,适用于有声书、播客、多语言内容创作等场景。

Ming-omni-tts – 蚂蚁集团开源的统一音频生成模型

Ming-omni-tts的主要功能

  • 统一多模态音频生成:业界首个自回归模型,可在单通道中联合生成语音、环境音和音乐,实现”身临其境”的听觉体验。

© 版权声明

相关文章