马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

丰色西风发自凹非寺
量子位 | 公众号 QbitAI

就在刚刚，马斯克Grok大模型宣布重大升级。

难怪之前突然开源了Grok-1，因为他有更强的Grok-1.5了，主打推理能力。

来自xAI的官方推送啥也没说，直接甩链接。主打一个“字少事大” 马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

新版本Grok有啥突破？

一是上下文长度飙升，从8192增长到128k，和GPT-4齐平。

二是推理性能大幅提升，数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。

消息一出，评论区立刻就躁起来了。

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

具体跑分结果如何，咱们立马来看。

Grok-1.5来了

首先，对于上下文窗口。

这次是一把直接提升到之前的16倍，来到128k量级。

这也就意味着Grok可以处理更长和更复杂的提示，同时保持其遵循指令的能力。

在“大海捞针”（NIAH）测试中，Grok-1.5在128K token的上下文中完美检索嵌入的文本。

整个图一水儿的蓝色（100%的检索深度）：

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

其次，推理方面。

Grok-1.5处理编程和数学相关任务的能力大幅提升，全面超越Grok-1、Mistral Large、Claude 2。

数学方面，Grok-1.5在MATH基准测试上得分50.6%，超越中杯Claude 3 Sonnet；GSM8K上得分90%。

编程方面，Grok-1.5在HumanEval基准测试上得分74.1%，超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4，仅次于大杯Claude 3 Opus。

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

看起来，Grok这次的实力也是不可小觑。

Grok系列与其他大模型相比还有一个特色，不使用通用的Python语言+Pytorch框架。

据官方介绍，Grok 1.5采用分布式训练架构，使用Rust、JAX+Kubernetes构建。

为了提高训练可靠性和维持正常运行时间，团队提出了自定义训练协调器，可自动检测到有问题的节点，然后剔除。

除此之外，他们还优化了checkpointing、数据加载和训练重启等流程，最大限度地减少故障停机时间。

这，才速速有了现在的Grok 1.5～

更多信息官方也暂时还没有披露。

可以确定的是，新版本未来几天会先推送给早期测试者。并按照“老规矩”，很快将在𝕏平台上线。

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

网友们表示：Grok进步真的相当迅速。

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

不提别的，Grok新版本各指标已经全面超越Claude 2。而xAI成立仅一年，只比Anthropic落后9个月。因此：

打赌12个月后，xAI完全有可能成为领导者。

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

还有人评价更高，认为马斯克这是发了另一个“GPT-4等效模型”，喊着：

OpenAI搞快点啊。

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

你期待新版本的Grok吗？

参考链接：
[1]https://twitter.com/xai/status/1773510159740063860
[2]https://x.ai/blog/grok-1.5

— 完 —

评选报名即将截止！

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项，欢迎报名评选！评选报名 截至2024年3月31日 马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

中国AIGC产业峰会「你好，新应用！」已开启报名！点击报名参会同时，峰会将进行线上直播 ⬇️

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

2024 年 3 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

丰色西风发自凹非寺
量子位 | 公众号 QbitAI

Grok-1.5来了

test

test

文心AIGC

test

test

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

丰色 西风 发自 凹非寺量子位 | 公众号 QbitAI

Grok-1.5来了

test

test

文心AIGC

test

test

丰色西风发自凹非寺
量子位 | 公众号 QbitAI