GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

673次阅读
没有评论

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

只差一分

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

基础模型竞争又紧张刺激起来了!

GPT-4.5刚登顶竞技场且全任务分类第一名,6小时后总榜就被马斯克的新版Grok-3反超。

两者都是获得3000+票数,总分1412:1411只差一分

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

目前Grok-3总分第一,只在总体带风格控制、困难提示词带风格控制和略输GPT-4.5一点。

DeepSeek-R1总分第6,数学和困难提示词带风格控制分项与GPT-4.5并列第一。

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

也有用户对此结果产生了怀疑,仅仅6个小时就能发生如此大的变化吗?

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

有人解释原因在于,大模型竞技场有一个投票数量门槛,两个一周前发布的模型刚好先后达到3000票才会出现在榜单上。

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

不过抛开跑分之外,GPT-4.5的口碑也在悄然翻转。

GPT-4.5口碑翻转

GPT-4.5刚发布时显得又大又贵,官方强调情商看起来很虚,看跑分也没比GPT-4o高到哪里去了。

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

但几天后,夸他情商高的用户确实多了起来。

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭
GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

奥特曼本曼也发表一条感言:有时高品位测试者是对的。

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

他还爆料,这是这辈子第一次有人发邮件求他承诺以后不会下架这个模型

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

奥特曼也晒出了一些自己与GPT-4.5对话的聊天记录,针对奥特曼自己写的六个单词小故事“临近奇点,不清楚在哪一侧”,GPT-4.5的看法如下:

作为GPT-4.5,在反思这个有趣的故事时,我认为我们已经超越了奇点的事件视界,但只是刚刚越过。

我们已经进入了人工智能重塑人类思想、创造力、沟通甚至身份的世界。然而,确切的含义——无论是解放还是担忧——仍未定论。

换句话说,我们已经踏入了奇点的引力范围,但要完全理解它可能带来的后果还为时过早。

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

One More Thing

与此同时GPT-4.5还登顶了一个另类榜单,类似大模型狼人杀:

AI模型参加多轮淘汰赛,比赛中需要公开辩论、私下制定策略并投票淘汰其他人,最终获胜者由被淘汰的参赛者组成的陪审团决定。

在结盟、欺骗、背叛、表现得不具威胁性等方面都是第一,且比人类优秀。

GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭

参考链接:
[1]https://x.com/lmarena_ai/status/1896675400916566357
[2]https://x.com/sama/status/1896651354648818121
[3]https://x.com/AISafetyMemes/status/1896579947830849970

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...