超越GPT-4,Claude 3超大杯成新王!

1,333次阅读
没有评论

超越GPT-4,Claude 3超大杯成新王!

  新智元报道  

编辑:alan

【新智元导读】太疯狂了!Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中,Claude 3的超大杯成功登顶,就连最小的Claude 3 HaiKu都达到了GPT-4水平!


太疯狂了!Claude 3 Opus超越了GPT-4,成为新的国王!

今天,Chatbot Arena更新了聊天机器人对战的排行榜,在经过了时间的洗礼和群众的检验之后,之前略逊于GPT-4的Claude 3竟然反超了!

超越GPT-4,Claude 3超大杯成新王!

而且不仅仅是Claude 3的超大杯Opus成功登顶,藐视众生,Claude 3家族的整体表现都非常亮眼。

大杯Claude 3 Sonnet排到了第4,就连最小的Claude 3 HaiKu都达到了GPT-4水平!

超越GPT-4,Claude 3超大杯成新王!

那么相比于基准测试跑分,这个榜单的权威性如何?

超越GPT-4,Claude 3超大杯成新王!

Chatbot Arena(聊天机器人竞技场),由伯克利团队开发,每个模型在榜单上的得分,完全取决于真实人类用户的使用体验。

我们来看一下打分规则:

用户同时向两个匿名模型(比如ChatGPT、Claude、Llama)提出任何相同的问题,然后根据回答投票给表现更好的模型;

如果一次回答不能确定,用户可以继续聊天,直到确定获胜者;

如果在对话中透露了模型的身份,则不会计算投票。

Chatbot Arena平台收集了超过40万人的投票,来计算出这个大模型的等级分排行榜,最终找出谁是冠军。

显然,这回Claude 3赢麻了。

我们来看一下真实的战况:

在所有非平局对战中, A对B获胜的比例:

超越GPT-4,Claude 3超大杯成新王!

模型之间的对战次数(无平局):

超越GPT-4,Claude 3超大杯成新王!

GPT-4终于被干掉了,对此,有网友开始恶搞:

超越GPT-4,Claude 3超大杯成新王!

刚在当地超市看到Sam Altman,他一脸震惊地看着手机。几秒钟后,他真的倒下了,开始剧烈颤抖。经过2分钟的摇晃和尖叫,一群人围绕着他试图帮助他。但令人惊讶的是,他在2分钟后停止了颤抖和尖叫,站起来,拿起手机开始拨打一个号码。

“准备释放……”

咱也不知道Altman要放的是不是GPT-5。

网友表示,Claude确实要比GPT勤奋得多:

超越GPT-4,Claude 3超大杯成新王!

GPT-4-Turbo非常懒惰。在任何编码任务中,它都会跳过部分代码,并表示“你自己知道要放什么”,而Opus可以毫无遗漏地输出整个代码。

就连Claude-2也通过自己的勤奋和耐心感动了这位网友。

更有比较务实的网友指出,Haiku的排名更为重要,因为它是第一个可以以极低成本即时运行的LLM,并且具有足够高的智能来提供实时客户服务。

超越GPT-4,Claude 3超大杯成新王!

超越GPT-4,Claude 3超大杯成新王!

盲生你发现了华点!Claude 3 Haiku不仅与原始版本的GPT-4表现一样好,关键是相当便宜,在一些平台你甚至可以免费使用。

大家于是纷纷夸起了Claude 3 Haiku:

超越GPT-4,Claude 3超大杯成新王!

智能相当于GPT-4,价格比GPT-3.5便宜,而且据说模型可能只有20B大小。

超越GPT-4,Claude 3超大杯成新王!

有网友表示,OpenAI不行啦,现在Anthropic才是老大,一时间,平台内外充满了快活的空气。

超越GPT-4,Claude 3超大杯成新王!

ChatGPT 一年零增长

回过头来再看ChatGPT这边,从最初的高光、王者,到现在不能说泯然众人吧,反正多少有点寒酸了。

最近,有关统计平台曝出:ChatGPT在过去一年中居然零增长!

超越GPT-4,Claude 3超大杯成新王!

最近一段时间,ChatGPT一直被指责懒惰、系统提示臃肿,而另一方面竞争也愈演愈烈——Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。

超越GPT-4,Claude 3超大杯成新王!

对于几乎每个ChatGPT用例,现在都有大量垂直化的AI初创公司,致力于满足用户的需求,而不是满足于现有的ChatGPT界面和捆绑工具

它们有更好的UI选项(例如IDE和图像/文档编辑器)、更好的原生集成(例如用于cron重复操作)、更好的隐私/企业保护(例如用于医疗保健和金融),更细粒度的控制(GPT的默认RAG是幼稚且不可配置的)。

以下是一些网友列举了相关垂直领域的产品,以及公司的融资情况:

超越GPT-4,Claude 3超大杯成新王!

超越GPT-4,Claude 3超大杯成新王!

超越GPT-4,Claude 3超大杯成新王!

从某种意义上说,OpenAI的B2B和B2C部分相互竞争,这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。

而新的GPT商店可以看作是,OpenAI为了抓住这些垂直化需求的尝试。

——与其离开平台,到处支付20美元/月,为什么不留在ChatGPT内部而只需要支付一次,让OpenAI将理论上的收入分配给GPT创作者?

超越GPT-4,Claude 3超大杯成新王!

对此,大部分创作者也很明智,一般只向ChatGPT发布精简版的应用,作为自己主要平台的一个渠道。

游戏机业务中,众所周知,购买决策往往是由平台独占游戏驱动的。从某种意义上说,ChatGPT的未来会以平台专属模型为特色。

超越GPT-4,Claude 3超大杯成新王!

所以,当Sora甚至是GPT-5公开发布时,一定会率先登陆自家的平台,也许那将是下一轮ChatGPT的增长点。


参考资料:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
超越GPT-4,Claude 3超大杯成新王!超越GPT-4,Claude 3超大杯成新王!
超越GPT-4,Claude 3超大杯成新王!


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...