Xiaomi-MiMo-Audio是什么
Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash,在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。
小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct,以及1.2B参数量的 Tokenizer 模型,支持音频重建和音频转文本任务。
Xiaomi-MiMo-Audio的主要功能
- 少样本泛化能力:首次在语音领域实现基于 In-Context Learning(ICL)的少样本泛化,可快速适应新任务,见证语音领域的“GPT-3时刻”。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

