Ming-omni-tts – 蚂蚁集团开源的统一音频生成模型

AI工具6个月前发布

83 0 0

Ming-omni-tts是什么

Ming-omni-tts 是蚂蚁集团开源的统一音频生成模型，采用自回归架构实现语音、音乐和音效的联合生成。模型支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制，粤语方言控制准确率达93%，情感控制准确率46.7%，超越CosyVoice3。技术上采用统一连续音频Tokenizer和Diffusion Transformer架构，以12.5Hz帧率处理多模态音频，通过”Patch-by-Patch”压缩策略将LLM推理帧率降至3.1Hz，在降低延迟的同时保持音质。16.8B参数版本在Seed-tts-eval中文测试集上WER仅0.83%，超越SeedTTS和GLM-TTS。模型内置100+优质音色，支持零样本声音设计，提供Docker镜像和Gradio演示，适用于有声书、播客、多语言内容创作等场景。

Ming-omni-tts – 蚂蚁集团开源的统一音频生成模型

Ming-omni-tts的主要功能

统一多模态音频生成：业界首个自回归模型，可在单通道中联合生成语音、环境音和音乐，实现”身临其境”的听觉体验。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

英伟达推出全新 Cosmos 世界模型，赋予机器人推理与规划能力

166 0

基于 DeepSeek 大模型的“AI 智审”系统让河南口岸货物通关申报仅需数秒。

117 0

WrenAI – 开源的商业AI Agent工具，自然语言生成SQL

106 0

Vidu 上线 AI 一键生成 MV 功能：只需提供音乐 + 参考图 + 指令，其余交给“虚拟制片厂”

85 0

Baichuan-M3 – 百川智能开源的新一代医疗增强大语言模型

94 0

UserLM-8b – 微软开源的用户对话模拟模型

87 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号