Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

AI工具10个月前发布

84 0 0

Xiaomi-MiMo-Audio是什么

Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现了基于 In-Context Learning（ICL）的少样本泛化能力，打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型，取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash，在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。

小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct，以及1.2B参数量的 Tokenizer 模型，支持音频重建和音频转文本任务。

Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

Xiaomi-MiMo-Audio的主要功能

少样本泛化能力：首次在语音领域实现基于 In-Context Learning（ICL）的少样本泛化，可快速适应新任务，见证语音领域的“GPT-3时刻”。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

秒悟 – 阿里巴巴推出的云端 AI 开发工具

58 0

日本将构建脑活动数据库，目标十年后让 AI 有“接近人类五感”的能力

71 0

国家发改委：将制定新一代智能终端和智能体有关政策指引

132 0

1688 AI版 – 阿里1688平台推出的AI生意助手

197 0

研究称全美近一成报纸文章有 AI 参与撰写，且通常未向读者说明

123 0

人社部：人工智能等数字技术的快速发展和深度应用，催生了大量数字新职业

77 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号