Step-Audio-EditX – 阶跃星辰开源的音频编辑大模型

AI工具2天前发布
1 0

Step-Audio-EditX是什么

Step-Audio-EditX 是阶跃星辰开源的全球首个 LLM 级音频编辑大模型,主打“情感、说话风格、副语言”三轴细粒度迭代控制,可把愤怒、开心、悲伤等情绪强度任意增减,能把撒娇、耳语、老人等风格叠加多次,能像字幕一样插入呼吸、笑声、叹气等 10 类自然副语言 token。自带零样本 TTS,无需目标人语音即可克隆音色,在文本前加“[四川话]”“[粤语]”等标签秒切方言。模型完全基于大间隔合成数据做 SFT+PPO,后训练阶段无需额外编码器或 adapter 能实现属性解耦与迭代控制。

Step-Audio-EditX – 阶跃星辰开源的音频编辑大模型

Step-Audio-EditX的主要功能

  • 情感编辑:愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等几十种标签,可多次迭代增强或减弱强度。

© 版权声明

相关文章