Qwen3-TTS 全系列模型正式开源 Qwen 发布 Qwen3-TTS 语

2026-02-12 18:08:06 智能工具派科技

Qwen3-TTS 全系列模型正式开源

Qwen 发布 Qwen3-TTS 语音生成模型，支持音色克隆、音色创造、自然语言控制与低延迟流式合成。基于多码本 Tokenizer 与 Dual-Track 架构，首包音频可在单字符后输出，最低延迟 97ms。

模型提供 1.7B 与 0.6B 两种规模，覆盖中英日等 10 种语言，现已在 GitHub、Hugging Face、ModelScope 开源。

重要亮点
1.功能全面：支持音色克隆、创造、超高质量拟人化语音生成以及基于自然语言描述的语音控制。
2.性能卓越：在音色克隆、创造、控制等方面均达到 SOTA 性能。
3.支持多种语言：覆盖 10 种主流语言及多种方言音色。
4.开源免费：已在 Github 上开源，并提供 API 接口。