Qwen3-TTS – 阿里通义开源的系列语音生成模型

AI工具2周前发布
11 0

Qwen3-TTS是什么

Qwen3-TTS是Qwen开源的系列语音生成模型,具备强大的音色克隆、创造和语音控制能力。模型基于创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,实现高效语音压缩与高保真还原。模型采用Dual-Track双轨建模,支持低延迟流式生成,首包音频仅需等待一个字符。模型覆盖10种主流语言(中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语)及多种方言,具备智能文本理解能力,可自适应调整语气、节奏和情感。Qwen3-TTS 多码本全系列模型均已开源,包含1.7B和0.6B两种尺寸能满足不同性能与效率需求,为开发者和用户提供全面的语音生成功能。

Qwen3-TTS – 阿里通义开源的系列语音生成模型

Qwen3-TTS的主要功能

  • 音色克隆:模型能通过少量参考音频克隆出特定说话人的音色,实现高度相似的语音合成。

© 版权声明

相关文章