VoiceSculptor – 西工大联合语图智能等开源的音色设计模型

AI工具2天前发布
2 0

VoiceSculptor是什么

VoiceSculptor 是西北工业大学、语图智能等机构推出的音色设计模型,能通过自然语言指令实现对语音合成的细粒度控制。模型支持对音色的性别、年龄、语速、音调、音量和情感等属性进行灵活调整,结合检索增强生成(RAG)技术提升对复杂指令的理解能力。VoiceSculptor生成的音频可用于音色克隆,满足个性化语音合成、虚拟人声和交互式 AI 等应用场景的需求,推动语音合成技术向更高自由度和可控性发展。

VoiceSculptor – 西工大联合语图智能等开源的音色设计模型

VoiceSculptor的主要功能

  • 自然语言控制音色生成:用户可通过自然语言指令描述期望的音色特征,如性别、年龄、语速、音调、情感等,实现高度定制化的语音合成。

© 版权声明

相关文章