TTS 擂台: 文本转语音模型的自由搏击场

对文本转语音 (text-to-speech, TTS) 模型的质量进行自动度量非常困难。虽然评估声音的自然度和语调变化对人类来说是一项微不足道的任务，但对人工智能来说要困难得多。为了推进这一领域的发展，我们很高兴推出 TTS 擂台。其灵感来自于LMSys为 LLM 提供的Chatbot 擂台。借鉴 Chatbot 擂台的做法，我们开发了一款工具，让任何人可以很轻松地对 TTS 模型进行并排比较。你仅需提交想要转成语音的文本，然后听一下两个不同的模型生成的音频，最后投票选出生成质量较好的模型。我们把投票结果组织成一个排行榜，用以展示社区评价最高的那些模型。

LMSyshttps://lmsys.org/
Chatbot 擂台https://hf.co/spaces/lmsys/chatbot-arena-leaderboard

动机

长期以来，语音合成领域缺乏准确的方法以度量不同模型的质量。常用客观指标 (如 WER (word error rate，单词错误率) 等) 并不能可靠地度量模型质量，而 MOS (mean opinion score，平均意见得分) 等主观指标通常只适用于对少数听众进行小规模实验。因此，这些评估标准在对质量大致相当的两个模型进行比较时并无用武之地。为了解决这些问题，我们设计了易用的界面，并邀请社区在界面上对模型进行排名。通过开放这个工具并公开评估结果，我们希望让人人都参与到模型比较和选择中来，并共享其结果，从而实现模型排名方式的民主化。

TTS 擂台

由人类来对人工智能系统进行排名并不是什么新方法。最近，LMSys 在其Chatbot 擂台中采用了这种方法，取得了很好的效果，迄今为止已收集到超过 30 万个投票。被它的成功所鼓舞，我们也采用了类似的框架，邀请每个人投票参与音频合成效果的排名。

Chatbot 擂台https://arena.lmsys.org/

具体方法很简单: 用户输入文本，会有任意两个模型对该文本进行合成; 用户在听完两个合成音频后，投票选出哪个模型的输出听起来更自然。为了规避人为偏见和滥用的风险，只有在提交投票后才会显示模型名称。

目前在打擂的模型

我们为排行榜选择了如下几个最先进 (SOTA) 的模型。其中大多数都是开源模型，同时我们还纳入了几个私有模型，以便开发人员可以对开源社区与私有模型各自所处的状态进行比较。

首发的模型有:

ElevenLabs (私有模型)
MetaVoice
OpenVoice
Pheme
WhisperSpeech
XTTS

尽管还有许多其他开源或私有模型，我们首发时仅纳入了一些被普遍认同的、最高质量的公开可用模型。

TTS 排行榜

我们会将擂台票选结果公开在专门的排行榜上。请注意，每个模型只有积累了足够的投票数后才会出现在排行榜中。每次有新的投票时，排行榜都会自动更新。

跟 Chatbot 擂台一样，我们使用与Elo 评级系统类似的算法对模型进行排名，该算法常用于国际象棋以及一些其他游戏中。

Elo 评级系统https://en.wikipedia.org/wiki/Eloratingsystem

总结

我们希望TTS 擂台能够成为所有开发者的有用资源。我们很想听听你的反馈！如果你有任何问题或建议，请随时给我们发送X/Twitter 私信或在擂台 Space 的社区中开个帖子和我们讨论。

TTS 擂台https://hf.co/spaces/TTS-AGI/TTS-Arena
X/Twitter 私信https://twitter.com/realmrfakename
擂台 Space 的社区中开个帖子https://hf.co/spaces/TTS-AGI/TTS-Arena/discussions

致谢

非常感谢在此过程中给予我们帮助的所有人，包括Clémentine Fourrier、Lucian Pouget、Lucian Pouget、Main Horse以及整个 Hugging Face 团队。特别要感谢VB的时间及技术协助。还要感谢Sanchit Gandhi和Apolinário Passos在开发过程中提供的反馈及支持。

Clémentine Fourrierhttps://twitter.com/clefourrier
Lucian Pougethttps://twitter.com/wauplin
Yoach Lacombehttps://twitter.com/wauplin
Main Horsehttps://twitter.com/mainhorse
VBhttps://twitter.com/reachvb
Sanchit Gandhihttps://twitter.com/sanchitgandhi99
Apolinário Passoshttps://twitter.com/multimodalart

英文原文: https://hf.co/blog/arena-tts

原文作者: mrfakename, Vaibhav Srivastav, Clémentine Fourrier, Lucain Pouget, Yoach Lacombe, Main Horse, Sanchit Gandhi

译者: Matrix Yao (姚伟峰)，英特尔深度学习工程师，工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

TTS 擂台: 文本转语音模型的自由搏击场

动机

TTS 擂台

目前在打擂的模型

TTS 排行榜

总结

致谢

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

一张小卡片敢卖999？原来是智能体AI硬件

佛山也要AI：从“制造之都”迈向“AI 新‘质’造之都”

OceanBase AI新进展：OB Cloud服务数十家头部企业AI应用落地

灵快科技获数百万元天使轮融资，发布能自主进化的AI数据分析师TabTab

老年人12周才有效，年轻人一次就够：科学家揭示丢失的运动激素

预测大模型工业生存法则,华为博士告诉你什么是B端最需要的大模型