阿里巴巴云计算的 Qwen 团队发布两款全新人工智能模型,可通过文本指令生成或克隆声音。Qwen3-TTS-VD-Flash 能根据详细描述生成声音,性能超 OpenAI 最近推出的 GPT-4o mini-tts API。Qwen3-TTS-VC-Flash 可仅用三秒音频复制声音,能在十种语言中复现,错误率低于竞争对手。该 AI 能处理复杂文本、模仿动物声音、提取声音,两款模型可通过阿里巴巴云 API 访问,也能在 Hugging Face 平台尝试演示。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验