首页音视频类配音与声音克隆

CosyVoice

免费

阿里开源、3秒克隆+7种情感

中难度开发者、企业用户开源免费

CosyVoice 是什么

CosyVoice 是阿里通义实验室开源的自然语音合成大模型。模型支持中文、英文、日文、粤语、韩语五种语言，仅需3到10秒音频样本就能复刻相似音色，包括语调和情感细节，能跨语种合成。模型亮点在于可通过富文本或自然语言输入精细控制语音情感和韵律，让合成语音栩栩如生、充满情感色彩，远超传统模型，广泛应用在语音播报、有声读物、语音交互等领域，为用户提供高度个性化和情感化的语音体验。 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版，模型用有限标量量化技术提高码本利用率，简化文本-语音语言模型架构，推出块感知因果流匹配模型支持多样的合成场景。CosyVoice 2 在发音准确性、音色一致性、韵律和音质上都有显著提升，MOS评测分从5.4提升到5.53，支持流式推理，大幅降低首包合成延迟至150ms，适合实时语音合成场景。 CosyVoice 3已全面升级赋予声音更多情绪和表现力，集语音克隆与语音合成为一体，只需用户提供一段3秒钟的声音样本，能精准捕捉用户的音色、语调和说话习惯，支持用用户的声音去朗读任何文本。CosyVoice 3支持中文、英文、日文

上手难度

中

适用人群

开发者、企业用户

免费额度

开源免费

官方网址

github.com

核心功能

阿里开源、3秒克隆+7种情感

阿里开源3秒克隆+7种情感

工具信息

分类音视频类

子分类配音与声音克隆

上手难度中难度

免费额度开源免费

访问官网 →

类似工具

Runway Gen-4 Pika 2.5 Kling 2.6 Seedance 可灵 AI Google Veo 3