VoxCPM – 面壁智能联合清华推出的语音生成模型

AI工具17小时前发布
2 0

VoxCPM是什么

VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开发的 0.5B 参数语音生成模型。在语音合成的自然度、音色相似度及韵律表现力方面达到了业界顶尖水平。VoxCPM 采用端到端的扩散自回归架构,直接从文本生成连续语音表示,突破了传统离散分词的局限。通过分层语言建模和有限状态量化约束,实现了语义与声学的隐式解耦,显著提升了语音的表达力和生成稳定性。VoxCPM 支持零样本声音克隆,仅需一段参考音频,能精准复刻说话者的音色、口音、情感语调等特征,生成高度逼真的语音。推理效率极高,在 NVIDIA RTX 4090 GPU 上,实时因子(RTF)低至 0.17,可满足实时应用需求。VoxCPM 支持中英双语声音复刻,能合成公式、符号音频,实现自定义读音纠正。

VoxCPM – 面壁智能联合清华推出的语音生成模型

VoxCPM的主要功能

  • 上下文感知语音生成:VoxCPM能深度理解文本内容,根据文本的语义推断并生成合适的韵律,输出极具表现力且流畅自然的语音。可以根据文本内容自主调整说话风格,基于海量的180万小时双语语料库训练,生成高度契合的个性化声音表达。

© 版权声明

相关文章