Kimi开源又放大招!20秒更新万亿参数的中间件来了

449次阅读
没有评论

Kimi开源又放大招!20秒更新万亿参数的中间件来了

还采用两阶段流水线方式更新参数

时令 发自 凹非寺

量子位 | 公众号 QbitAI

Kimi开源又双叒放大招了!

一个中间件,就能让Kimi K2的万亿模型参数进入“秒更时代”。

Kimi开源又放大招!20秒更新万亿参数的中间件来了

不仅支持一次性把更新完的权重从一个节点同时发送给所有节点,还能实现点对点动态更新。

网友也算是大开眼界了,可谓频频惊叹。

Kimi开源又放大招!20秒更新万亿参数的中间件来了

下面让我们一起看看这个中间件到底是如何发挥大作用的。

20秒更新万亿参数

此中间件名为checkpoint-engine(检查点引擎),主要用于强化学习中的一个关键步骤——在大语言模型推理过程中更新模型权重。

借助此组件,Kimi-K2只需约20秒就可实现在数千个GPU上更新1万亿参数

Kimi开源又放大招!20秒更新万亿参数的中间件来了

与Kimi k1. 5类似,K2在同步强化学习训练中采用了混合共置架构,即训练引擎和推理引擎部署在同一组工作节点上。

当一个引擎处于活跃工作状态时,另一个引擎会释放或卸载其GPU资源以以配合资源调配。

在每一次强化学习训练迭代中,集中式控制器会先调用推理引擎生成新的训练数据,随后通知训练引擎基于这些数据进行训练,并将更新后的参数发送至推理引擎,供下一轮迭代使用。

因此,每个引擎都针对高吞吐量进行了深度优化。

然而,随着模型规模扩展至K2级别,引擎切换与故障恢复的延迟变得尤为显著。

所以,研究团队思考如何才能更高效地更新模型参数?

首先,在rollout阶段,训练引擎的参数会被卸载至DRAM(动态随机存取存储器)中,因此启动训练引擎仅需执行一次简单的H2D数据传输。

但在这个过程中,启动推理引擎会面临更大挑战,因为它必须从训练引擎获取更新后的参数,而两者的分片范式并不相同。

研究团队又考虑到K2的规模及庞大的设备数量,使用网络文件系统来重新切分并广播参数是不现实的。因为将系统开销保持在较低水平,所需的总带宽高达每秒数PB(千万亿字节)。

在上述背景下,检查点引擎应运而生。

Kimi开源又放大招!20秒更新万亿参数的中间件来了

研究团队选择在训练节点上部署分布式检查点引擎来管理参数状态。

执行参数更新时,每个检查点工作节点先从训练引擎获取本地参数副本,然后将完整参数集广播到所有检查点节点。

随后,推理引擎仅从检查点引擎中获取自己所需的参数分片即可。

为了支持1万亿参数的模型更新,他们还选择采用参数逐条更新的流水线方式,将内存占用降至最低。

理论上的3阶段流水线如下所示:

H2D阶段:将最新权重的一个分片异步复制到 H2D 缓冲区;

广播阶段:一旦复制完成,该分片会被复制到其中一个IPC缓冲区,并广播到所有GPU;

重载阶段:推理引擎同时从另一个IPC缓冲区加载参数。

Kimi开源又放大招!20秒更新万亿参数的中间件来了

但需注意的是,这种理想的3阶段流水线目前尚未实现,K2应用的更简单的两阶段方案。

  • 所有设备先进行一次同步的H2D传输;
  • 广播和重载操作随后并行进行。
Kimi开源又放大招!20秒更新万亿参数的中间件来了

他们选择将完整参数集广播到整个集群,而不考虑每个推理工作节点的具体切分方式。

虽然这种方式传输的数据量会比理论最优方案更多,但它可以简化系统设计,对训练和推理引擎的侵入性更低。

研究团队认为,通过牺牲这一点微小的开销,实现训练引擎与推理引擎的完全解耦,大大简化了维护和测试流程。

除了上述问题外,像Kimi K2这样的大模型,优化启动时间也至关重要。

启动训练引擎时,他们让每个训练工作节点选择性地从磁盘读取部分或不读取任何参数,并将必要参数广播至其他对等节点。

这么做的目的是确保所有工作节点只需集体读取一次检查点,从而最大限度地减少昂贵的磁盘IO开销。

除此之外,由于推理引擎是独立副本,研究团队希望避免在它们之间引入额外的同步屏障。

因此,他们选择在启动阶段复用检查点引擎。

让检查点引擎先像训练引擎启动时一样,集体从磁盘读取检查点,然后更新尚未初始化的推理引擎状态。

值得一提的是,通过利用专门的检查点引擎,系统还可以抵御单点故障,因为某个推理副本可以独立重启,而无需与其他副本通信。

这么一看,这一中间件真在Kimi K2中起了不小的作用呢。

参考链接:
[1]https://x.com/Kimi_Moonshot/status/1965785427530629243
[2]https://github.com/MoonshotAI/checkpoint-engine
[3]https://arxiv.org/abs/2507.20534

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...