Chroma 1.0是什么
Chroma 1.0 是FlashLabs首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。模型通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略,实现亚秒级延迟输出。仅需几秒参考音频,能高度还原说话人的音色特征,speaker相似度比人类基线高出10.96%。模型仅4B参数,在推理和口语对话任务中表现优异,兼顾效率与性能。
Chroma 1.0的主要功能
- 实时语音交互:支持低延迟的语音对话,端到端延迟低于1秒,适合实时交互场景。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

