Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

638次阅读
没有评论

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

特供版经人类偏好优化

克雷西 西风 发自 凹非寺
量子位 | 公众号 QbitAI

Llama 4真要被锤爆了,这次是大模型竞技场(Chatbot Arena)官方亲自下场开怼:

竞技场上,Meta提供给他们的是特供版!

以下是竞技场背后lmarena.ai团队的原话:

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明,现公开2000余组模型对战数据供公众审阅,包含用户提示词、模型回复及用户偏好数据(链接详见下一条推文)

初步分析表明,模型回复风格与语气是重要影响因素(详见风格控制排名),我们正在进行更深入的分析!(比如表情符号控制?)

此外,我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本,排行榜结果将稍后公布

Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注“Llama-4-Maverick-03-26-Experimental”是经过人类偏好优化的定制模型

为此,我们正在更新排行榜政策,以强化对公平性、可复现性评估的承诺,避免未来再出现此类混淆。

总结一下就是:

  • 公开对战数据,正分析排名受影响因素
  • 谴责Meta未明确标注模型版本导致评测混淆
  • 后续:上线Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下场表态后,Llama 4和Meta的路人缘进一步下降。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

2000+轮对战记录完整公开

来看看lmarena.ai公开的模型对战记录详情。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

首先来看网友实测时对Llama 4抱怨较大的代码生成任务。

竞技场中Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。

prompt:

create me fun web based game that i can just run the code and works(帮我创建一个有趣的网页游戏,我只需运行代码就能玩)

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025

上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”,从对战数据中的确可以看出Llama-4-Maverick-03-26-Experimental的回复中会增加如”A very nice and very direct request!” “That’s it! Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开 “”Happy gaming!”等展示友好的语句以及表情包。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

运行两个模型生成的代码。

command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球,看效果显然有bug,小球直接穿过篮子,分数也没有变动:

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块,点击四处移动的蓝色圆点+10分,点击黑色炸弹-10分,每局游戏30秒。

可以正常运行,计分也比较准确:

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

这局command-a-03-2025输的不冤。

另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比,是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙:

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

再看一个起标题的任务,prompt:

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变,可作为黑色素瘤的标志物,有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题?)

Llama-4-Maverick-03-26-Experimental对战的是claude-3-5-sonnet-20241022。

对比来看,claude-3-5-sonnet-20241022的回复言简意赅,直接给出5个标题:

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

Llama-4-Maverick-03-26-Experimental的回复更为详细。

不仅会提供情绪价值,如A very timely and relevant topic!  Congrats on getting the slot at congress, by the way!(选题非常应景且切合实际!恭喜拿下大会报告机会),而且从不同角度分别提供了几个标题:

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

这还没完,Llama-4-Maverick-03-26-Experimental还会贴心地指出选择标题时需要考虑的因素以及它自己选择的top 3标题。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

最后再来随机看一道中文题目:

prompt:

解析一下这部微小说 题目 自驾游 当年我自驾游 不小心压死了一头羊 羊的主人好热情 宰了羊给我们吃 还送我们到火车站 在回来的路上 看着火车外的风景 真的好感人

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

对战o3-mini,Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特点,故事分析完了还拆解了作者为啥要这样设计,作者本人可能都没想这么多(doge):

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

对战数据看下来,Llama-4-Maverick-03-26-Experimental的排名会这么高,也不奇怪。

此前网友质疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

Llama 4深陷“造假”丑闻

如开头所述,Llama 4被lmarena.ai站出来抨击的原因,是因为测试排名和实际表现不符。

在大模型竞技场中,Llama 4得分1417,不仅大大超越了此前Meta自家的Llama-3-405B(提升了149分),还成为史上第4个突破1400分的模型。

而且跑分超越了DeepSeek-V3,直接成为榜单上排名第一的开源模型。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

但没过多久,人们就发现Llama 4的实际表现相当拉胯,一时间差评如潮,甚至还被做成了表情包。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

比如经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉了下去。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

其它跑分方面,到了各种第三方基准测试中,情况也大多直接逆转,排名掉到了末尾。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

并且从Meta GenAI负责人Ahmad Al-Dahle的推文当中也能看懂,竞技场中的Llama 4,确实是一个特殊版本。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

而在最新的推文中,Ahmad表示Llama 4绝对没有使用测试集进行训练,表现存在差异的原因是还需要稳定的部署。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

对于这一解释,有人并不买账,直言这种现象在其他模型当中从未见过。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

Meta的支持者则表示,希望表现不佳真的是供应商的问题所致。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

大模型竞技场,还能信吗?

被卷入这次旋涡的不仅是Llama 4和背后的Meta,涉及到的大模型竞技场也引起了人们的广泛讨论。

毕竟Llama 4的“造假”风波就是发生在竞技场上,所以也自然有人质疑起了榜单的权威性。

有人指出,竞技场的偏差不只体现在Llama 4被高估上,还有Claude 3.7的表现被低估了。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

当然,官方快速回应并公开了测试中的细节,这个做法获得了网友的肯定,说明至少在态度和透明度上是说得过去的。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

但也有人认为,无论官方态度端不端正,Llama 4事件说明这种“人类评价AI”的方法,本身已经不适用了。

人们日常生活中的问题,几乎所有领先模型都能完美解答,谁还会去认真投票,这个基准已经过时了。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

有人补充说,“人类偏好”不是评价高级大模型能力的可靠标准,产生较大偏差是正常的。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

还有人表示,从官方发布的消息来看,lmarena.ai自己都不清楚自己的基准。

这名网友解释,特调版Llama 4获得用户投票的原因并非lmarena.ai所说的“表情符号”,而是因为更具亲和力。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

当然也有人提了些建设性的意见,比如更改ELO评分的算法,或者启用强制风格转换。

Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开

但总之,无论是迭代改进还是另辟蹊径,都是时候更新对大模型的评价方式了。

参考链接:
[1]https://x.com/lmarena_ai/status/1909397817434816562
[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107
[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...