ZipVoice – 小米推出的零样本语音合成模型

AI工具3天前发布
4 0

ZipVoice是什么

ZipVoice 是小米集团 AI 实验室发布的高效零样本语音合成(TTS)模型。模型基于 Flow Matching 架构,包含 ZipVoice(单说话人)和 ZipVoice-Dialog(对话语音)两个版本。模型通过技术创新,如基于 Zipformer 的高效建模、平均上采样策略和 Flow Distillation 方法,实现轻量化建模和快速推理,解决现有模型参数量大、速度慢的问题。ZipVoice-Dialog 通过说话人轮次嵌入向量、课程学习等技术,实现又快又稳又自然的对话语音合成。

ZipVoice – 小米推出的零样本语音合成模型

ZipVoice的主要功能

  • 零样本语音合成:根据输入文本和参考语音,合成出具有特定音色的语音,无需大量的目标说话人数据进行训练。

© 版权声明

相关文章