语音模型介绍
统一流式与离线语音合成
CosyVoice 采用单一模型支持流式和离线语音合成,满足多种教学场景
- 流式合成:适用于实时课堂互动,如语音问答或即时讲解,首包延迟低至 15 帧(约 600ms,默认块大小 M=15),确保流畅体验。
- 离线合成:适合预录课程内容或课件制作,语音质量接近人类水平(SS 分数 0.812)。
- 应用场景:教师可以在课堂中实时生成语音讲解,或提前制作高质量有声课件,灵活适配教学节奏。
类人语音质量
通过有限标量量化(FSQ)技术,CosyVoice 捕捉更丰富的语义和声学细节:
- 语音自然度接近人类,中文测试集 CER(字符错误率)低至 1.45%,SS(说话人相似度)高达 0.806。
- 支持细腻的语音表达,如语调变化、情感传递和重音控制,满足教育场景中生动讲解的需求。
- 价值:提升学生听课体验,尤其适用于语言学习场景,帮助学生更准确地模仿发音和语调。
零样本语音克隆
仅需 3-5 秒音频样本,CosyVoice 即可实现精准的声音克隆:
- 无需额外训练,支持跨语言和跨场景的音色一致性。
- 教师可上传自己的声音或选择样本库中的音色,快速生成个性化语音。
- 应用场景:为视障学生生成熟悉的教师语音,提升亲切感和学习效率;为教育资源匮乏地区提供虚拟教师语音,弥补师资不足。
多语言与方言支持
CosyVoice 支持多语言和方言的语音合成:
- 全面支持中文、英文、日文、韩文,以及部分中国方言(如普通话、上海话)。
- 对未训练语言提供零样本合成能力,效果因语言特性而异(如日文 CER 18.79%,韩文 CER 7.98%)。
- 价值:助力跨语种教学,满足语言学习者的发音训练需求,同时为多语言课堂提供标准语音支持。
可控语音生成
用户可通过自然语言指令或标签控制语音风格:
- 支持情感表达(如“兴奋”“温柔”)、口音调整(如“天津话”)和声音细节(如添加笑声或呼吸音)。
- 教师可根据教学内容调整语音语调,例如为幼儿课程生成活泼音调,或为学术讲座生成严谨语风。
- 应用场景:提升教学内容的吸引力,帮助学生更好地理解和吸收知识。
主要架构
CosyVoice 2 的架构分为三个主要模块:监督语义语音分词器、统一文本-语音语言模型和分块感知流匹配模型,最终通过预训练声码器生成音频波形。
监督语义语音分词器
- 功能:将输入语音信号转化为语义语音标记(speech tokens),以 25 Hz 频率生成,用于后续语音处理。
- 实现:基于 SenseVoice-Large 自动语音识别(ASR)模型的编码器,结合有限标量量化(FSQ)模块。FSQ 将中间表示投影到低秩空间,量化到 [-K, K] 区间(码本大小 6,561),利用率达 100%,相比传统向量量化(VQ)提升了语义保留能力(ASR 错误率从 5.03% 降至 4.43%)。训练过程中,使用直通估计(straight-through estimation)近似 FSQ 梯度,确保模型优化稳定性。
统一文本-语音语言模型
- 功能:通过自回归方式将文本标记转化为语音标记,支持流式和离线模式。
- 实现:采用预训练 Qwen2.5-0.5B LLM,去除传统文本编码器和说话人嵌入,简化架构。输入文本通过 BPE 分词器处理,中文多字符拆分为单字符,避免发音过长问题。流式模式按 N:M 比例(默认 N=15, M=15)混合文本和语音标记,离线模式采用完整序列构造([S] 文本标记 [D] 语音标记 [E])。使用下一标记预测(next-token prediction)训练,优化交叉熵损失。
分块感知流匹配模型
- 功能:将语音标记解码为 Mel 频谱图(50 Hz,采样率 24 kHz),并融入说话人特征,支持低延迟流式合成。
- 实现:语音标记通过前瞻卷积层和上采样(从 25 Hz 到 50 Hz)处理,使用因果 Transformer 块对齐语义和声学表示。条件流匹配(CFM)模型基于最优传输(OT)流,生成 Mel 频谱,支持四种掩码模式:
- 非因果:离线模式,全帧可见,适合高质量预录。
- 全因果:极低延迟,仅见过去帧,适合实时互动。
- 分块-M:平衡延迟与性能,见过去和 M 个未来帧。
- 分块-2M:接近离线性能,牺牲更多延迟。
训练采用 L1 损失优化 UNet 参数,使用余弦调度器调整时间步,结合分类器自由引导(CFG,强度 0.7,NFE 10)。
声码器
- 功能:将 Mel 频谱转换为音频波形,生成最终音频输出。
- 实现:集成预训练 HiFi-GAN 声码器,直接恢复相位信息,无需额外训练。
- 优势:确保音频输出清晰自然,适配教育场景的高音质需求。
模型迭代与优化:PyTorch 与 ONNX
语音合成和声音克隆模型的开发与优化基于 PyTorch 和 ONNX 框架:
- PyTorch 模型开发:使用 PyTorch 构建和训练 CosyVoice 和 GPT-SoVITS 模型,支持动态计算图和灵活的模型调试。PyTorch 的生态支持(如 torch.nn 模块)加速了模型开发过程。
- ONNX 模型优化:将训练好的 PyTorch 模型转换为 ONNX 格式,支持跨平台部署和推理加速。ONNX 优化技术(如算子融合、常量折叠)减少模型计算量,提升推理效率。
- 迭代流程:通过持续集成(CI/CD) pipeline 实现模型迭代,结合教育场景的反馈数据(如用户对语音自然度的评价),定期微调模型参数,提升语音质量。
- 优势:PyTorch 和 ONNX 的结合确保了模型开发的高效性和部署的灵活性,为教育场景提供稳定、高质量的语音服务。