衡宇发自凹非寺

量子位 | 公众号 QbitAI

龙争虎斗的大模型竞技场，今天突然更新：

国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型，跃升总榜第七，也成为榜上国产大模型第一。

可以看到，它的成绩几乎与GPT-4-0125-preview持平。

同时，国内清华系大模型公司智谱华章的GLM-4-0116也杀进总榜，位居第15位。

这个结果来自累积超1170万全球用户的真实盲测投票数。

而且大模型竞技场最近修改了规则，只要大模型亮明身份后就不能再继续投票，杜绝了刷分的可能性。

再来看Yi-Large排名之前的前6名中，有4个模型来自GPT，另外有1个谷歌的Gemini，1个Anthropic的Claude。

零一万物创始人兼CEO李开复博士为此表示，LMSYS提供了一个第三方的、公正的平台，其他竞争对手也都非常认可。

而零一万物的团队规模、参数规模、GPU算力都比排名更靠前的模型“小”。

零一万物的GPU可能只有Google、Microsoft的5%，但团队一直在探索，能不能训练跟大厂一样好的模型。
我们的特点就是以千亿模型杀入了万亿模型的范围。如果我们有10倍的GPU，我们的万亿模型应该完全可能达到第一名。

Yi-Large成排名飞升黑马

大模型竞技场官推还给出了Yi-Large的更多成绩：

在中文类别中，Yi-Large和GLM-4两个国产大模型的表现不俗。

其中，Yi-Large成绩尤为突出，与GPT-4o并列总榜第一。

模型强度的置信区间，则如下图所示：

值得注意的是，为了提高大模型竞技场查询的整体质量，LMSYS还实施了重复数据删除机制，并出具了去除冗余查询后的榜单。

这个新机制旨在消除过度冗余的用户提示——如过度重复的“你好”——这类冗余提示可能会影响排行榜的准确性。

LMSYS公开表示，去除冗余查询后的榜单将在后续成为默认总榜。

目前，在去除冗余查询后的总榜中，Yi-Large的Elo得分更进一步，与Claude 3 Opus、GPT-4-0125-preview并列第四。

解释一下，Elo评分系统基于统计学原理设定，是当前国际公认的竞技水平评估标准。在这个评分系统里，每个参赛者都有基准评分，然后根据每场比赛调整评分。一旦低分选手击败高分选手，那么低分选手就会获得较多的分数，反之则较少。

LMSYS引入Elo评分系统，是为了保证大模型竞技场在最大程度上保证排名的客观公正。

而在分类别的排行榜中，Yi-Large同样表现亮眼。

编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单。这三个榜单以专业性与高难度著称，可称为当下大模型最烧脑的公开盲测。

在编程能力（Coding）排行榜上，Yi-Large 的Elo分数超过Anthropic当家旗舰模型Claude 3 Opus，仅低于GPT-4o，与GPT-4-Turbo、GPT-4并列第二。

在长提问（Longer Query）榜单上，Yi-Large同样位列全球第二，与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

艰难提示词（Hard Prompts）则是LMSYS响应社区要求，在今天的排行榜刷新中新增的类别。

这个类别的提示词来自大模型竞技场用户提交的prompts，它们经过专门设计，更加复杂、要求更高且更加严格。

LMSYS增加这一类别榜单的原因，是官方认为这类提示能够测试最新语言模型面临挑战性任务时的性能。

这个榜单上，Yi-Large处理艰难提示的能力与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

这次表现亮眼的Yi-Large，是一周前零一万物刚对外发布的闭源模型。

当时官方给出的评测结果中，推理方面，Yi-Large在HumanEval和MATH都位列第一，超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct（都是时下大模型领域的佼佼者）。

据了解，Yi-Large的下一步是采用MoE架构的Yi-XLarge，目前已经启动训练。

大模型竞技场

大模型竞技场（Chatbot Arena），似乎已经成为现在头部大模型的兵家必争之地。

此前，国外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot（不是GPT-2）、Mistral AI的Mistral Large等模型都在上面冲锋陷阵。

国内诸多玩家也都陆陆续续把自家孩子放进去考验真功夫。

大神卡帕西去年就夸过大模型竞技场很Awesome：

GPT-4o发布后，OpenAI的CEO奥特曼也转帖引用大模型竞技场盲测擂台的测试结果，直呼鹅妹子嘤。

发布它的开放研究组织LMSYS Org（Large Model Systems Organization）发布，由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。

虽然背后团队主要来自高校，但LMSYS的研究项目却相对更贴近产业。

他们不仅自己开发大语言模型，还向业内输出多种数据集（其推出的MT-Bench已是指令遵循方向的权威评测集）、评估工具，此外还开发分布式系统以加速大模型训练和推理，提供线上live大模型打擂台测试所需的算力。

在形式上，大模型竞技场借鉴了搜索引擎时代的横向对比评测思路。

它首先将所有上传评测的参赛模型随机两两配对，以匿名模型的形式呈现在用户面前。

在不知道模型型号名称的前提下，用户输入自己的提示词，模型A、模型B两侧分别生成两PK模型的真实结果，然后由用户在结果下方做出投票四选一：

A模型较佳/B模型较佳/两者平手/两者都不好。

提交投票后，可进行下一轮PK。

目前，大模型竞技场的评测过程涵盖了从用户直接参与投票、盲测、大规模投票和动态更新评分机制等多个方面，尽可能保证结果的客观和专业。

官方公开数据显示，本次更新的大模型竞技场，共有44款模型参赛。

既有开源高手，如Llama3-70B；也有全球各家大厂、创业公司的闭源模型。

最后，奉上一张胜率热图，它涵盖了目前大模型竞技场上的所有大模型：

快来看看你pick的大模型胜率如何吧（手动狗头）～

大模型竞技场盲测平台：
https://arena.lmsys.org/
大模型竞技场评测排行（滚动更新）：
https://chat.lmsys.org/?leaderboard

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

黑马！大模型竞技场榜单更新，国产玩家首次进入全球总榜前10

Yi-Large成排名飞升黑马

大模型竞技场

长城汽车自研芯片点亮！提前布局下一代架构RISC-V，魏建军：不能再受制于人

英特尔最强服务器CPU来了！AI性能直接翻倍

支付宝进军大模型医疗应用，技术一号位：我们有4个切入点

利用公开知识定向提升大模型，腾讯优图&上交大新方法性能达SOTA

腾势Z9GT上市33.48万元起，标配易三方高阶智驾

高通被曝求购英特尔，手机芯片王者并购PC芯片王者！需要中国同意

最癫AI社交App上线3天爆火！注册即送百万粉丝，网友警告：别试，上瘾

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

浩鲸科技鲸智BI大模型发布，从算法炫技到价值落地

GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案