Qwen3-ASR是什么
Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型,包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型,以及专用的 Qwen3-ForcedAligner-0.6B 强制对齐模型。模型支持 52 个语种与方言识别、流式与非流式一体化推理,在强噪声、快语速、歌唱等复杂场景下表现鲁棒。其1.7B 模型在中英文及方言识别上达开源 SOTA,0.6B 模型支持 128 并发 2000 倍吞吐,10 秒可处理 5 小时音频。
Qwen3-ASR的主要功能
- 多语种识别:支持 30 个主要语种的语音识别与语种识别,实现多语言统一建模。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

