Qwen3-ASR-Flash – 阿里通义推出的语音识别模型

AI工具11个月前发布

108 0 0

Qwen3-ASR-Flash是什么

Qwen3-ASR-Flash 是通义千问系列最新语音识别模型，基于 Qwen3 基座模型，经海量多模态及 ASR 数据训练而成。模型支持 11 种语言和多种口音，具备高精度、高鲁棒性的语音识别性能，且支持歌声识别。用户提供任意格式文本上下文，能获得定制化 ASR 结果。Qwen3-ASR-Flash 在多语种 benchmark 测试中表现最优，能应对复杂声学环境和困难文本模式，为语音转文字服务提供强大支持。

Qwen3-ASR-Flash – 阿里通义推出的语音识别模型

Qwen3-ASR-Flash的主要功能

高精度语音识别：在多种语言和方言的语音识别中表现出色，能精准转录普通话、四川话、闽南语、吴语、粤语等中文方言，及英式、美式等多种英语口音，涵盖法语、德语、俄语等其他9种语言。
歌声识别：支持歌唱识别，包括清唱和带背景音乐的整歌识别，实测错误率低于8%。
定制化识别：用户提供任意格式的背景文本，如关键词列表、段落或完整文档，模型能智能利用上下文信息，识别匹配命名实体和其他关键术语，输出定制化的识别结果。
语种识别与非人声拒识：支持精确分辨语音的语种，自动过滤非语音片段，包括静音和背景噪声。
高鲁棒性：在面对长难句、句中语言切换、重复词语等复杂文本模式，及复杂的声学环境（如车载噪声、多种类型噪声）时，能保持高准确率。

Qwen3-ASR-Flash的技术原理

基于Qwen3基座模型：Qwen3-ASR-Flash在Qwen3基座模型的基础上构建。Qwen3基座模型是强大的多模态预训练模型，具备处理多种类型数据（包括文本、语音等）的能力。
海量多模态数据训练：模型用海量的多模态数据进行训练，数据包括文本、语音等多种类型的数据，使模型能理解和处理多种模态的信息。
千万小时规模的ASR数据训练：除多模态数据，Qwen3-ASR-Flash用千万小时规模的自动语音识别（ASR）数据进行训练。数据涵盖了多种语言、方言和口音，使模型能精准地识别和转录语音。

Qwen3-ASR-Flash的项目地址

项目官网：https://bailian.console.aliyun.com/?spm=5176.29597918.J_tAwMEW-mKC1CPxlfy227s.1.4f007b08aWhTjW&tab=model#/model-market/detail/group-qwen3-asr-flash?modelGroup=group-qwen3-asr-flash
在线体验Demo：https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

Qwen3-ASR-Flash的应用场景

会议记录：Qwen3-ASR-Flash能实时转写多语言会议内容，助力高效整理会议纪要。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

HistAgent – 普林斯顿联合复旦推出的AI历史研究助手

112 0

PersonaPlex – 英伟达推出的全双工语音对语音AI模型

93 0

摩根士丹利报告：15% 标普 500 企业已靠 AI 赚了“真金白银”

68 0

Seedream 4.0 – 字节最新推出的图像创作模型

98 0

Fun-AudioGen-VD – 阿里通义实验室推出的音色设计模型

63 0

MiniCPM-V 4.5 – 面壁智能开源的端侧多模态模型

184 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号