语音模型介绍

模型下载地址: https://pan.baidu.com/s/1S_jLYTqEjMMCe0F9oRcqkQ?pwd=kp87

统一流式与离线语音合成

CosyVoice 采用单一模型支持流式和离线语音合成,满足多种教学场景

类人语音质量

通过有限标量量化(FSQ)技术,CosyVoice 捕捉更丰富的语义和声学细节:

零样本语音克隆

仅需 3-5 秒音频样本,CosyVoice 即可实现精准的声音克隆:

多语言与方言支持

CosyVoice 支持多语言和方言的语音合成:

可控语音生成

用户可通过自然语言指令或标签控制语音风格:

主要架构

CosyVoice 2 的架构分为三个主要模块:监督语义语音分词器、统一文本-语音语言模型和分块感知流匹配模型,最终通过预训练声码器生成音频波形。

监督语义语音分词器

统一文本-语音语言模型

分块感知流匹配模型

声码器

模型迭代与优化:PyTorch 与 ONNX

语音合成和声音克隆模型的开发与优化基于 PyTorch 和 ONNX 框架: