Qwen3-ASR-Flash – 阿里通义推出的语音识别模型

AI工具1天前发布
3 0

Qwen3-ASR-Flash是什么

Qwen3-ASR-Flash 是通义千问系列最新语音识别模型,基于 Qwen3 基座模型,经海量多模态及 ASR 数据训练而成。模型支持 11 种语言和多种口音,具备高精度、高鲁棒性的语音识别性能,且支持歌声识别。用户提供任意格式文本上下文,能获得定制化 ASR 结果。Qwen3-ASR-Flash 在多语种 benchmark 测试中表现最优,能应对复杂声学环境和困难文本模式,为语音转文字服务提供强大支持。

Qwen3-ASR-Flash – 阿里通义推出的语音识别模型

Qwen3-ASR-Flash的主要功能

  • 高精度语音识别:在多种语言和方言的语音识别中表现出色,能精准转录普通话、四川话、闽南语、吴语、粤语等中文方言,及英式、美式等多种英语口音,涵盖法语、德语、俄语等其他9种语言。
  • 歌声识别:支持歌唱识别,包括清唱和带背景音乐的整歌识别,实测错误率低于8%。
  • 定制化识别:用户提供任意格式的背景文本,如关键词列表、段落或完整文档,模型能智能利用上下文信息,识别匹配命名实体和其他关键术语,输出定制化的识别结果。
  • 语种识别与非人声拒识:支持精确分辨语音的语种,自动过滤非语音片段,包括静音和背景噪声。
  • 高鲁棒性:在面对长难句、句中语言切换、重复词语等复杂文本模式,及复杂的声学环境(如车载噪声、多种类型噪声)时,能保持高准确率。

Qwen3-ASR-Flash的技术原理

  • 基于Qwen3基座模型:Qwen3-ASR-Flash在Qwen3基座模型的基础上构建。Qwen3基座模型是强大的多模态预训练模型,具备处理多种类型数据(包括文本、语音等)的能力。
  • 海量多模态数据训练:模型用海量的多模态数据进行训练,数据包括文本、语音等多种类型的数据,使模型能理解和处理多种模态的信息。
  • 千万小时规模的ASR数据训练:除多模态数据,Qwen3-ASR-Flash用千万小时规模的自动语音识别(ASR)数据进行训练。数据涵盖了多种语言、方言和口音,使模型能精准地识别和转录语音。

Qwen3-ASR-Flash的项目地址

  • 项目官网:https://bailian.console.aliyun.com/?spm=5176.29597918.J_tAwMEW-mKC1CPxlfy227s.1.4f007b08aWhTjW&tab=model#/model-market/detail/group-qwen3-asr-flash?modelGroup=group-qwen3-asr-flash
  • 在线体验Demo:https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

Qwen3-ASR-Flash的应用场景

  • 会议记录:Qwen3-ASR-Flash能实时转写多语言会议内容,助力高效整理会议纪要。

© 版权声明

相关文章