DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

896次阅读
没有评论

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

超大规模集群不再是必需,小集群甚至单机,将是未来AI Infra的主要特性。

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

什么?H20都变抢手货,涨价10万那种?!

最近有市场消息称,原本不受青睐的英伟达H20咨询量暴涨几十倍,8卡H20机器的价格也较年前涨价十万(单价110万左右),有从业者预测“价格不会下来了”。

要知道,H20是中国特供版,显存带宽等方面明显受限,性能及性价比都远不如H100。

如今市场风向有了变化,业内人士爆料某互联网大厂已经下单10-20万卡,整体市场H20的订单量都大幅增加。

背后原因,直观来看是DeepSeek热潮。更深入则是——

AI推理需求爆了。

H20尽管性能只有H100的1/10,但是做推理绰绰有余,显存够、适合跑大规模参数模型,价格还便宜更多。

AI Infra厂商PPIO派欧云联合创始人兼CEO姚欣向量子位透露,去年年底H20还没有这么抢手,但是到了春节后又是另一番景象,AI算力供需正在极速变化。

与之相对应,英伟达CEO黄仁勋在最新一季财报发布后也表示,当前AI模型所需的算力是此前模型的100倍,带动算力需求增加的关键是AI推理

见微知著,AI算力行业风向已经发生变化,新的机遇也已经在酝酿。

DeepSeek重构算力逻辑,推理需求面临爆发

先一句话总结,DeepSeek以算法创新重构AI算力逻辑,推动AI计算从“训练为主”向“推理为主”范式转变,AI推理需求因此迎来全面爆发。

首先来看DeepSeek做了什么?

它今年开源的两款模型,在架构和算法上实现了训练推理效率提升。

第一,DeepSeek-V3采用MoE(混合专家模型)架构,在AI Infra层面提出大规模跨节点专家并行(Expert Parallelism/EP)。

EP使得batch size大大增加,从而提高GPU矩阵乘法的效率,提高吞吐。专家模型分散在不同的GPU上,每个GPU只需要计算很少的专家(因此更少的访存需求),从而降低延迟。

同时,DeepSeek-V3的专家模型数量从上一版的160个增加到256个。“大量小专家”模型架构能进一步降低单次推理时激活的参数量。

第二DeepSeek-R1-Zero迈出利用强化学习提升语言模型推理能力第一步。在没有任何监督数据的情况下,通过纯强化学习过程进行自我进化,从而获得推理能力。DeepSeek-R1采用FP8混合精度训练框架和动态学习率调度器等技术,将训练成本降低到560万美元,远低于OpenAI。同时还能将模型能力蒸馏到更小的密集模型中。

这种低成本模式使得模型能够更广泛应用于AI推理场景。

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

其次,为啥DeepSeek可以成为推动算力趋势转变的导火索?

从大模型整体发展进程来看,预训练Scaling Law已经放缓,推理Scaling Law成为新方向。

推理Scaling Law的核心是通过增加推理时计算资源(如推理时间、算力)来提升模型性能。以o1为代表的推理模型都是通过在推理阶段引入多步骤的思维链和强化学习,显著提升了推理能力,这导致推理计算需求的大幅增加。

o1模型固然好用,但是却不开源。DeepSeek正是为此而来,它们为全行业提供了一个性能优秀的开源可替代方案,瞬间改变整体局面。

凭借低成本、高性能的特点,DeepSeek引发全社会范围热潮。不仅是普通人能够免费用,大中小企业也能将DeepSeek系列模型与自身业务融合。

尤其是ToB领域,优质开源模型解决了企业在数据维度的顾虑——没有人愿意将自己或用户的数据免费贡献给闭源模型做训练。同时DeepSeek暂时没有将模型商业化的考虑,更接近真正意义上的开源。这也点燃了企业拥抱AI的热情,更加速了AI落地进程,推理需求空前爆发。

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

由此,量变引发质变,AI计算的需求以及底层逻辑发生变化。

相较于预训练,推理计算在硬件门槛、集群建设等方面要求都更低。

超大规模集群不再是必需,小集群甚至单机,将是未来AI Infra的主要特性。

PPIO姚欣结合DeepSeek一系列动向以及行业现状给出分析,DeepSeek提出的跨节点专家并行系统,已经一定程度上体现出了分布式的思想,它把不常用的专家模型集中到一台机器上,常用的专家模型分配更多算力。由此形成调度上的平衡。

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

这进一步扭转了算力行业的深层逻辑。原本大家都在期待英伟达如何从硬件层面带来更好的推理性能,如今通过EP的方式,可以用H800跑出H100的性能。

也解释了为何DeepSeek可以影响英伟达的股价。因为通过系统优化,底层硬件的护城河没有那么深了。

由此看到,H20这样原本不被大厂推崇的推理计算卡开始抢手。甚至更进一步,英伟达本身的地位也会受到影响。

姚欣判断,未来,英伟达一家独大的情况也会有所改变,推理时代,推理芯片将百花齐放。比如根据DeepSeek研究人员的测试结果,推理任务中昇腾910C性能可达H100的60%。

这进一步影响算力供给侧的结构和逻辑。再具体一点,就是AI Infra架构的转变。

该朝着哪个方向做?即将爆发的AI应用落地浪潮已经给出指引——优化与降本

AI Infra扛起推理时代成本优化重任

相较于预训练时代,推理时代对云计算、AI Infra有着全新需求。

预训练时代,云厂商提供的服务更倾向于一个裸金属的训练环境。因为是集中式集群,每一台机器几乎都是跑满的,云厂商能优化的空间有限。推理时代,每个企业更倾向于选择公有云服务部署模型

这意味着云厂商接下来的竞争点应该是从不同卡型到模型层的全栈优化。

不过为啥由AI Infra/云厂商来做?

从技术底层到实际成本优化上,AI Infra/云厂商有自己的生态位优势。

从技术角度出发,并不是所有AI厂商都具备处理高并发、高流量、高弹性的互联网服务经验。

比如前不久DeepSeek突然公布成本利润率理论值可达545%,引发诸多业内争议。

PPIO姚欣表示:

作为作为一个真正服务过4.5亿用户的创始人来说,在真实情况下,所有互联网用户请求都一定有波峰、波谷,一天的用户请求变化应该是一条曲线。如果在最高峰的时候,突然变成一条直线了,这意味着,在那个时间段用户请求进不来。

所以总结来说,春节期间DeepSeek的服务崩溃,满足不了用户、企业服务。

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

换言之,DeepSeek的服务和技术架构更进一步需要“弹性”算力,才可能解决这样的问题。PPIO派欧云在春节期间第一时间接入DeepSeek,利用分布式推理和大规模算力调度,从而实现了更大弹性的负载均衡,保证客户的服务质量、稳定性。

另外,在基础设施建设上,AI Infra厂商更有先天优势。

其中一部分玩家通过自建IDC提供多种算力服务,代表玩家有阿里云等;还有一部分玩家选择通过分布式网络提供算力服务,它们不自建IDC、不购入GPU,而是通过独特的算力共享调度的方式,代表玩家有PPIO派欧云。

二者比较,前者能提供的综合性服务更多,后者在性价比和资源调度上更有优势。

如PPIO的分布式架构,打破了传统集中式架构的瓶颈,不仅为企业大幅降低了运维压力,还将系统的处理效率提升到了一个全新的高度。通过PPIO提供的AI推理平台,企业可以免去自行部署后台服务的繁冗过程,直接调用API服务即可,不再需要自行运维,成本直接减少了40%

速度方面,得益于PPIO遍布全球的分布式云服务网络,无论用户身处何地,都能找到近距离的算力节点,获得20毫秒级的低延迟体验。PPIO通过独特方式调用全国范围的算力节点,能为企业用户带来更弹性、更稳定、更划算的AI推理服务。

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

据了解,PPIO在整个春节期间ToB方向的DeepSeek服务可用性做到了99.9%,无TPM限制。其中关键就在于底层足够弹性。现阶段,PPIO平台的日均tokens消耗量已经突破了1300亿,与“六小龙”日均tokens消耗量不相上下。

此外,在算法层面,PPIO还提出KV Cache稀疏化压缩算法、Hydra Sampling投机采样技术以及端到端FP8推理三大核心技术,进一步突破显存、算力和带宽对大模型推理性能的限制。由此,PPIO能够迅速适配和优化各种开源大模型。比如,PPIO算力云产品已为百川智能提供大规模AI推理服务

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

“只有当AI Infra公司能提供足够高性能和低成本的基础建设,让大量AI 应用的收入足以覆盖所有的推理成本,才会迎来AI应用落地的大爆发,用户也会迎来AI 应用的免费时代。”姚欣表示。

DeepSeek振臂一挥之后,还需要全产业上下游通力合作,才能进一步加速大规模应用落地。

如今,值得关注的玩家纷纷站出来,承接流量的同时,更进一步推进新浪潮发生。AI Infra玩家们的动作,还只是表现之一。

而随着越来越多产业伙伴加入,更庞大的需求和市场还在酝酿之中。

趋势转变之后,又是一个新开始。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...