首页音视频类开源项目

VibeVoice

免费

微软开源语音识别与合成

高难度开发者、企业用户开源免费 (MIT)

VibeVoice 是什么

VibeVoice 是微软推出的新型文本到语音（TTS）模型，能生成富有表现力、长篇幅、多说话者的对话式音频，如播客。最新开源的VibeVoice-Realtime-0.5B模型，仅5亿参数，实现了真正的实时流式语音合成，首包延迟仅约300毫秒。核心特点是“边想边说”，能像真人一样在文本生成的同时开始说话，支持停顿、语气变化和自然对话流。模型通过创新的连续语音标记化技术和下一代标记扩散框架，结合大型语言模型（LLM），实现高效处理长序列音频的能力，同时保持高保真度。VibeVoice 能合成长达90分钟的语音，支持多达4位不同说话者，突破传统TTS系统的限制，为自然对话和情感表达提供新的可能。

上手难度

高

适用人群

开发者、企业用户

免费额度

开源免费 (MIT)

官方网址

github.com