CosyVoice 是阿里通义实验室开源的自然语音合成大模型。模型支持中文、英文、日文、粤语、韩语五种语言,仅需3到10秒音频样本就能复刻相似音色,包括语调和情感细节,能跨语种合成。模型亮点在于可通过富文本或自然语言输入精细控制语音情感和韵律,让合成语音栩栩如生、充满情感色彩,远超传统模型,广泛应用在语音播报、有声读物、语音交互等领域,为用户提供高度个性化和情感化的语音体验。 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知因果流匹配模型支持多样的合成场景。CosyVoice 2 在发音准确性、音色一致性、韵律和音质上都有显著提升,MOS评测分从5.4提升到5.53,支持流式推理,大幅降低首包合成延迟至150ms,适合实时语音合成场景。 CosyVoice 3已全面升级赋予声音更多情绪和表现力,集语音克隆与语音合成为一体,只需用户提供一段3秒钟的声音样本,能精准捕捉用户的音色、语调和说话习惯,支持用用户的声音去朗读任何文本。CosyVoice 3支持中文、英文、日文
阿里开源、3秒克隆+7种情感