DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

478次阅读
没有评论

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

DeepSeek v3.2隐藏菜单

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek v3.2有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。

开源TileLang版本算子,其受关注程度甚至超过新稀疏注意力机制DSA,从画线转发的数量就可以看出来。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

海外社区也注意到DeepSeek使用了它而不是OpenAI开发的Triton语言。

有接触过的开发者感叹TileLang是一种非常优雅的语言,只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

那么什么是TileLang,又为何引人瞩目?

首先,TileLang是一种专门用来开发GPU内核的领域专用语言,性能上可以对标英伟达CUDA,DeepSeek官方推荐使用此版本做实验,在方便调试和快速迭代上有优势。

更重要的是,TileLang与国产算力生态适配,连华为昇腾都要在第一时间公告对TileLang的支持。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

在几周前的华为全联接大会2025的开发者日上,TileLang团队成员董宇骐就介绍了TileLang实现FlashAttention算子开发,代码量从500+行减少至80行,并保持了与官方版本持平的性能。

此外TileLang团队成员王磊沐曦集成电路的高级总监董兆华也在同一个圆桌沙龙上出现过,讨论了沐曦GPU与TileLang的适配。

DeepSeek为什么选择TileLang

DeepSeek与TileLang第一次同框亮相,其实是在6月的北京智元大会。

在DeepSeek实习过的北大博士袁境阳,在报告中就提到“TileLang的算子实现会更快一点”。

TileLang的发起人之一,北大博士研究生王磊当时还专门发帖感谢DeepSeek尝试他们的语言。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

TileLang由北大团队主导开发,核心人物除了王磊、董宇骐,还有北大计算机学院的副研究员、博士生导师杨智

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

2025年1月,TileLang在GitHub上正式开源,至今已获得1.9k标星。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

简单来说,Tile语言 ( tile-lang ) 是一种简洁的领域专用语言,旨在简化高性能 GPU/CPU 内核的开发。tile-lang采用Python式语法,并在TVM之上构建底层编译器基础架构,使开发者能够专注于提高生产力,而无需牺牲实现最佳性能所需的底层优化。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

王磊曾在7月HyperAI超神经主办的Meet AI Compiler技术沙龙分享TileLang的核心设计理念:

将调度空间(包括线程绑定、内存布局、张量化和流水线等)与数据流解耦,并将其封装为一组可自定义的注解和原语。这种方法允许用户专注于内核的数据流本身,而将大部分优化工作交给编译器完成。

TileLang将“Tile”作为编程模型的核心概念,通过显式的Tile抽象,让开发者能够直观地控制数据在全局内存、共享内存和寄存器之间的流动。

TileLang提供了三个不同层次的编程接口,满足不同水平开发者的需求。

初学者可以使用硬件无关的高层接口,专注于算法逻辑而不必关心底层细节。

有经验的开发者可以使用ile Library,这里包含了各种针对不同硬件架构优化过的预定义操作。

对于追求极致性能的专家用户,TileLang还提供了线程原语级别的控制,允许他们直接操作线程同步、内存合并等底层特性。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

DeepSeek显然就属于追求极致性能的专家用户了,根据v3.2公告的说法,在早期DeepSeek团队使用TileLang快速开发原型,之后用更底层的方法进一步优化性能。

v3.2论文中提到在内核层面共享k-v提升计算效率,让DSA的闪电索引器机制(lightning indexer)运行速度远超传统实现。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

在TileLang的文档中也有相关的技术介绍,在计算过程中缓存中间数据,比全局内存快得多。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

TileLang与DeepSeek双向奔赴

更早之前,在DeepSeek连续一周发布开源代码库的第一天,王磊就曾向DeepSeek团队推荐TileLang语言。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

后来TileLang也以DeepSeek在这天发布的FlashMLA内核作为评测基准,在H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

在最新的DeepSeek v3.2发布之后,王磊也发帖致敬DeepSeek敢于使用一门新的编程语言来开发核心产品

并且DeepSeek v3.2也验证了TileLang确实可以用来训练模型。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

DeepSeek V3.2技术报告:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang:
https://github.com/tile-ai/tilelang

参考链接:
[1]https://x.com/Lei_Wang_1999/status/1932331703747698786
[2]https://x.com/nathancgy4/status/1972613835598299245
[3]https://bbs.pku.edu.cn/v2/post-read-single.php?bid=322&postid=28065519
[4]https://hub.baai.ac.cn/view/46173

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
手把手教你用AI 10分钟生成一个APP!零基础也能搞定

手把手教你用AI 10分钟生成一个APP!零基础也能搞定

今日,我将向大家展示DeepSeek的全新玩法——从零开始,利用AI创建一个完整的应用程序。借助DeepSee...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
老外对屏狂拍!海信全新一代RGB-Mini LED电视亮相轰动CES2026

老外对屏狂拍!海信全新一代RGB-Mini LED电视亮相轰动CES2026

老外对屏狂拍!海信全新一代RGB-Mini LED电视亮相轰动CES2026 量子位的朋友们 2026-01-...
三赴CES,睿尔曼以三大底层能力构建全球化具身智能新基建

三赴CES,睿尔曼以三大底层能力构建全球化具身智能新基建

三赴CES,睿尔曼以三大底层能力构建全球化具身智能新基建 十三 2026-01-07 14:07:17 来源:...
刚开年,马斯克就到账了200亿美金!

刚开年,马斯克就到账了200亿美金!

Failed to fetch content Read More 
首家央企AI独角兽浮出水面!背靠自研大模型,4家国家队资本背书

首家央企AI独角兽浮出水面!背靠自研大模型,4家国家队资本背书

首家央企AI独角兽浮出水面!背靠自研大模型,4家国家队资本背书 Jay 2026-01-07 15:24:04...
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队

8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队

8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队 思邈 2026-01-0...