阿里云发布 Qwen-TTS 语音合成模型 接近真人语音 支持普通话、英文,以及三种中文地方方言
阿里云发布 Qwen-TTS 高性能语音合成模型(Text-to-Speech,TTS)。其核心能力是将输入的中英文文本转换为具备自然表达力的语音输出。
与传统 TTS 模型相比,Qwen-TTS 最大的亮点在于:
* 高自然度:声音表达更接近真人,具备情感、节奏、语调变化;
* 多语种与方言支持:目前支持普通话、英文,以及三种中文方言(北京话、上海话、四川话);
* 多音色选择:提供不同性别、语调和口音的声音,适配多样化场景。
语言与方言支持细节
支持的语音变体:
真实合成样例:https://qwenlm.github.io/zh/blog/qwen-tts/
技术原理与数据基础
1. 大规模训练语料支撑
模型训练使用了超过 300 万小时的语音数据,包括中英文对齐数据以及丰富的方言语料,这使得模型不仅语音自然,而且能模仿不同地区的说话风格。
2. 韵律与情感建模
Qwen-TTS 支持自动调整文本的语速、