Step-Audio 2 mini是什么
Step-Audio 2 mini 是阶跃星辰发布的开源端到端语音大模型。突破传统语音模型结构,采用真端到端多模态架构,直接将原始音频输入转化为语音响应输出,时延更低,能理解副语言信息与非人声信号。模型引入链式思维推理与强化学习联合优化,对情绪、语调等进行精细理解与回应,支持 web 检索等外部工具,有效解决幻觉问题,提升多场景扩展能力。
在性能上,Step-Audio 2 mini 在多个国际基准测试集上取得 SOTA 成绩。例如,在通用多模态音频理解测试集 MMAU 上,以 73.2 的得分位列开源端到端语音模型榜首;在衡量口语对话能力的 URO Bench 上,基础与专业赛道均拿下开源端到端语音模型最高分;在中英互译任务上,大幅领先 GPT-4o Audio 和其他开源语音模型;在语音识别任务上,取得多语言和多方言第一,领先其他开源模型 15% 以上。

Step-Audio 2 mini的主要功能
- 音频理解:能精准理解各种音频内容,包括自然声音、音乐、语音等,还能捕捉情绪、语调等副语言信息,实现对“弦外之音”的感知。
© 版权声明
文章版权归作者所有,未经允许请勿转载。