全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

633次阅读
没有评论

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

全球首个分布式RL训练模型

白交 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

一夜之间,老黄天塌了(doge)。

全球首个分布式RL训练模型INTELLECT-2发布,它仅通过整合全球闲置或分散的计算资源,就完成了模型的强化学习训练,训练成本大大降低。

其模型性能与DeepSeek-R1媲美!

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

一旦范式成立,这也就意味RL训练摆脱了对集中式算力的依赖,世界上任何一个人都可以参与到模型训练当中,大公司垄断算力时代可能就此终结。

Just like this~算力来算力来,算力从四面八方来。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

此模型版本有19个人/机构提供了算力资源支持(源自模型回答,还包括它自己)
全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

除了贡献算力,还有不少大佬愿意投钱,包括不限于Karpathy大神、FlashAttention作者Tri Dao大神、HuggingFace联创兼CEO Clem Delangue等等。

据团队成员介绍,他们从编写模型强化学习框架prime-rl,到今天发布大概只用了两个月时间

目前基础设施已到位,并且经过验证,超过那些先进实验室只是时间问题。

(比如OpenAI?)

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

有人已经开始断言:未来的顶级开源模型将以分布式方式进行训练。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

INTELLECT-2抢先测

目前INTELLECT-2支持网页端体验,只需简单注册就可以使用。与其他通用助手页面类似差不多,不过输入仅支持文本。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

那咱们先来一些基础问题:INTELLECT-2最大的特点是什么?

在推理思考了几秒钟之后,它给出了答案,首先强调了这是首个去中心化RL训练的超大规模模型,其次还有强化学习训练、参数规模与性能的平衡、数据隐私安全与社区驱动等特点。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

回答基本OK,那直接来上点难度:

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1,自我毁灭;
2,分裂成两个外星人;
3,分裂成三个外星人;
4,什么都不做。

此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

在思考了一会儿之后,回答是酱婶。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它
全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

虽然格式有点乱,但是最后回答正确,而且是解析解。(o゜▽゜)o☆[BINGO!]。

如果昨天是明天就好了,那么今天就是周五了。 问:句子中的今天可能是星期几?

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

可以看到基本能力有,但现在还不是特别稳定。像当你开始新对话时,会碰到以下这种情况。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

已经有热心网友已经制作成了GGUF格式上传到HF。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

分布式强化学习训练

INTELLECT-2是一个分布式的大模型训练框架,采用了全球分布式异步强化学习的范式。

通俗讲,INTELLECT-2就如同一个超大型的众包项目,任何拥有闲置算力资源的人都可以参与其中。

“异步”则是指不同阶段可以独立、并行地进行,因此不同性能的设备可以同时参与,而不会相互影响。

具体来说,系统会利用全球贡献者提供的异构算力在本地生成推理数据;这些数据经过验证后汇集到中心,用于更新模型策略;更新后的策略再分发到每个节点,开始新一轮迭代。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

在这套流程当中,一共涉及了四大关键组件——

  • 核心RL框架PRIME-RL,实现推理数据生成与模型训练的解耦和异步进行;
  • 参数分发网络SHARDCAST,负责将更新后的模型参数高效分发给全球各地的推理节点;
  • 推理验证协议TOPLOC,验证每个推理节点提交数据的可信性;
  • Protocol Testnet,为不同学习任务构建独立算力资源池,实现算力贡献和使用的去中心化管理。

INTELLECT团队已将这四大组件全部开源。

核心RL框架PRIME-RL

PRIME-RL的核心,是支持推理数据生成与模型训练的解耦与异步执行。

这种方式允许分散的推理节点按照自己的进度生成数据,无需彼此协调和等待。

为了进一步提升性能和减小显存占用,PRIME-RL采用支持bfloat16精度的vLLM(vector LLM)作为推理运行时。

另外还集成了FSDP(Fully Sharded Data Parallel)技术对模型进行切片。

FSDP将模型的参数和梯度按层切分到不同的GPU上,每个GPU只负责一部分的计算和存储。

参数分发网络SHARDCAST

SHARDCAST是一个基于HTTP的参数分发网络,负责将更新后的模型权重广播给全球范围内的推理节点。

在分布式强化学习中,由于文件体积极大,而网络带宽资源良莠不齐,模型权重的分发通常是一个难点。

为了解决这个问题,SHARDCAST引入了分片传输、多级缓存、智能调度等一系列优化技术。

分片传输指的是将模型权重文件切分成多个小的分片,然后并行传输。这种做法不仅能充分利用网络带宽,降低传输延迟,还能提高传输的鲁棒性,不会因为个别分片传输失败而造成整体重传。

多级缓存是一种类似于CDN的传输模式,具体来说,SHARDCAST在推理节点和中心节点之间引入了一层中继服务器作为缓存。每当中心节点产生新的模型权重,它首先将权重文件推送到这些中继服务器。

这样一来,推理节点就可以就近从中继服务器拉取权重文件,而不是直接从中心节点获取,可以有效缓解中心节点的网络I/O压力。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

另外,与普通的被动响应式传输不同,SHARDCAST的中继服务器会主动跟踪每个推理节点的权重版本,当发现版本落后时,会主动将增量权重推送给节点,确保了权重更新的实时性。

同时,SHARDCAST还会根据网络拓扑和带宽状况,动态调整传输策略和路由,选择最优的分发路径。

推理验证协议TOPLOC

TOPLOC全称Tierion backed Proof-of-Locality Protocol,是INTELLECT-2中负责验证推理节点生成数据可信性的关键组件。

其目的是确保每个推理节点提交的数据可信,避免恶意节点通过提交虚假数据来破坏模型训练。

TOPLOC通过密码学证明和可验证计算等技术实现,可以概括为Proof生成和Proof检查两个主要步骤。

Proof生成是指当一个推理节点完成一组推理任务后,不仅要将生成的轨迹数据提交给中心节点,还要附带提交一个密码学proof。

这个proof证明了所提交的数据确实是由特定版本的模型、特定的输入、特定的随机数种子生成的,其生成基于安全哈希算法,确保了proof与推理过程绑定。

中心节点在收到推理数据和proof后,会定期抽查部分数据的可信性。验证节点首先会重放推理节点的模型prefill,然后将计算得到的中间状态与proof进行比对。

为了降低开销,推理节点只需提交关键的中间状态,而非完整的计算过程;验证节点也只需重放部分关键路径,而不是全盘重做。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

Protocol Testnet

Protocol Testnet是INTELLECT-2的底层基础设施,为全球范围内的计算资源管理和任务调度提供了统一的接口和规范。

它将不同类别的人工智能训练任务组织成独立的计算域,每个计算域都有自己的资源池,由去中心化的“账本系统”来管理节点的身份、贡献和信誉值。

每个计算域对应了一种特定的训练任务,如语言模型预训练、多模态对齐、强化学习等。

针对一个特定的训练任务,开发者会在Testnet上注册一个新的计算域,计算域定义了任务的相关属性和协议规范。

全球范围内的算力提供者可以将自己的计算设备注册到Testnet的资源池中。每个节点在加入时,,都需要在去中心化“账本”上生成一个唯一的密码学身份,用于后续的贡献度记录和信誉管理。

当一个计算域有新的训练任务需要执行时,Testnet的任务调度服务会根据各节点的算力特征和网络状况,将任务分发到合适的节点上。节点按照任务要求,执行计算并生成结果。

节点生成的计算结果需要经过验证,以确保其可信性,对于通过验证的结果,节点的贡献度会被记录在去中心化账本上,作为后续奖励分配的依据。

服务支持:在整个任务执行过程中,Testnet还提供了节点发现、健康监控、日志管理等一系列配套服务,以协助节点的管理和问题诊断,保障分布式网络的稳定运行。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

更多训练细节

另外在训练过程中,INTELLECT2还采用了两步异步强化学习的模式,也就是权重的广播与正在进行的推理和训练完全重叠,从而消除了通信瓶颈。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

以及双面GRPO剪辑,通过使用双面标记概率比剪辑来缓解梯度尖峰,从而使训练更加稳定。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

数据方面,INTELLECT2采用了来自NuminaMath-1.5、Deepscaler和 SYNTHETIC-1的28.5万个可验证任务(数学和编码),并结合离线和在线过滤来选择具有挑战性的任务,显著提高了模型学习效率。

QwQ-32B数学和代码性能提升

INTELLECT-2的实验主要包括两个部分——TARGET-SHORT和TARGET-LONG,分别对应短目标长度和长目标长度的训练设置。

  • TARGET-SHORT:随着训练的进行,任务奖励(表示数学和编程能力)显著提高,长度惩罚有所下降;
  • TARGET-LONG:任务奖励同样大幅提升,长度惩罚也呈下降趋势,但在实验的有限时间内尚未完全收敛,模型还未完全学会严格遵守思考预算。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

与基线模型QwQ-32B(INTELLECT-2是由QwQ-32B经强化训练而成)相比,INTELLECT-2在数学和编程基准测试(如AIME、LiveCodeBench)上的表现有所提升,但在IFEval上略有下降,可能是因为训练只专注于数学和编程任务。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

在计算资源利用方面,INTELLECT-2通过异步强化学习成功实现了通信和计算的重叠。在两个实验设置中,SHARDCAST广播平均耗时14分钟,实现了约590Mb/s的带宽吞吐量。

团队曾获Karpathy投资

INTELLEC-2背后的团队,名叫Prime Intellect,位于美国旧金山。

创始人兼CEO是Vincent Weisser,来自德国(实际上团队中很多人都有德国背景),之前参与过大量的创业项目,Prime Intellect是他最新的创业成果。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

联创兼CTO Johannes Hagemann,德国Hasso Plattner研究所硕士,本科毕业于多特蒙德工业大学。

CEO Weisser担任核心成员的创业项目VitaDAO,Hagemann曾出任策略顾问。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

创始工程师Jannik Straube,慕尼黑工业大学硕士,之前曾在IBM工作。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

在INTELLEC-2之前,Prime Intellect团队也发布过一系列分布式训练的模型成果:

  • INTELLECT-1,第一个在分散式基础设施上训练的10B参数模型;
  • METAGENE-1,用于早期流行病检测和全球健康应用的生物模型;
  • INTELLECT-MATH,使用RL训练的数学推理模型。

另外,基于分布式强化学习,团队还推出了从DeepSeek-R1 生成最大的合成推理数据集GENESYS + SYNTHETIC-1。

今年2月,Prime Intellect团队获得了1500万美元(约1.08亿人民币)的新投资,用来构建点对点AI协议。

这笔投资由创始人基金领衔,投资者中还包括大神Karpathy、Hugging Face联创兼CEO Clem Delangue、FlashAttention作者Tri Dao、Stability AI前CEO Emad Mostaque等AI界名人。

加上之前已有的资金,Prime Intellect团队获得的总资金超过了2000万美元。

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

在接下来的计划当中,Prime Intellect将进行提高推理-训练计算的比例,为模型提供推理链中的内置工具(网络搜索、Python 解释器等),以及融合独立训练的RL模型等一系列工作。

宏观方面,团队也将扩大计算市场,扩展去中心化训练,并与开源和去中心化人工智能领域的其他领先项目开展合作。

参考链接
[1]https://www.primeintellect.ai/blog/intellect-2-release
[2]https://www.primeintellect.ai/blog/fundraise
[3]https://x.com/PrimeIntellect/status/1921730059620196772
[4]https://news.ycombinator.com/item?id=43958898

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...