Qwen3-TTS 是开源的,可供全家人使用。 Qwen3-TTS是Qwen开发的一种广泛的语音生成模型,并且是开源的。我们提供两种尺寸的型号:1.7B(实现最大性能和强大的控制)和0.6B(性能和效率之间的平衡)。支持中、英、日、韩、德、法等10种主要语言、多种方言的门铃,满足全球应用需求。全面支持音调复制、音调创建和超高质量拟人语音生成。它支持使用自然语言命令生成语音,并提供对音色、情感和节奏等声学属性的灵活控制。它具有强大的上下文理解能力,可以根据文本的指令和语义自适应地调整语气、语速和情感表达,这也使得在文本中引入噪音变得更加鲁棒。基于创新的双路径混合摆脱流式生成架构,单一模型同时支持流式和非流式生成。输入一个单词即可输出第一个音频包,端到端合成延迟低至97ms,满足实时交互的需求。 Qwen3-TTS-VoiceDesign 在 InstructTTS-Eval 命令表达力和功能方面优于 MiniMax-Voice-Design 和其他开源模型。 Qwen3-TTS-Instruct具有单人泛化多种语言的能力(平均单词错误率2.34%),保持音色风格的控制(InstructTTS-Eval 75.4%),并具有出色的长篇语音生成能力(10分钟中文和英语口语单词错误率2.36%/2.81%)。 Qwen3-TTS-VoiceClone 在中英文克隆稳定性、多语言测试集平均误词率、说话人相似度等方面均优于 MiniMax 和 ElevenLab。
特别提示:以上内容(包括图片和视频,如有)均为上传由自媒体平台“网易号”用户自行编辑发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注