谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

克雷西
2025-04-18
15:59:21

来源：量子位

可在Google AI Studio在线体验

克雷西发自凹非寺

量子位 | 公众号 QbitAI

紧跟o4-mini，谷歌上新了Gemini 2.5 Flash preview版本。

作为更注重效率的Flash，在大模型竞技场上排名并列第二，第一是自家的Gemini 2.5 Pro。

这样的表现，让Gemini 2.5 Flash的性价比直接拉满。

而且还是一款混合推理模型，可以自由设定思考深度，帮助预算不足的用户进一步控制推理成本。

目前，preview版本（不同于Gemini网页版中的版本）已在Google AI Studio和Vertex AI的 API中上线。

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

主打性价比，思考深度自由调控

在大模型竞技场上，经过3000多轮对战，Gemini 2.5 Flash获得了1392分的成绩，与Grok-3、GPT-4.5等模型并列第二。

综合成绩仅次于自家的Pro版，这样看来在竞技场中战胜谷歌的只有谷歌了。谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

并且在编程、复杂提示和长文本三个子榜单中，都和Pro版并列第一。

在大模型竞技场推出的WebDev榜单里，Gemini 2.5 Flash位列第七，超过了前一代（2.0）的Pro版本。

此外谷歌还展示了Gemini 2.5 Flash在一系列高难度数据集上的表现。

其中包括由1000多名学者提出的“人类最后的考试”，这套测试集发布时没有任何一个模型得分超过10%，现在Gemini 2.5 Flash的成绩是12.1%。

作为Flash版本，Gemini 2.5 Flash在谷歌自家的模型中，是至今性价比最高的版本。

其价格为0.15/0.6/3.5美元每百万输入/输出/推理Token，和o4-mini相比便宜了不少。

实际上，如果按照输入输出3:1的比例计算，在大模型竞技场1400分附近，Gemini 2.5 Flash是最便宜的一款模型。

△请注意横轴数字非单调下降

另外对于价格相对较高的推理过程，Gemini 2.5 Flash支持自由深度控制（甚至完全关闭），可以帮助预算不足的用户节约成本。

如果不进行设置，模型也会根据prompt自己判断适宜的思考深度，避免在简单的问题上过度思考，从而平衡成本。

o4-mini的竞争者？

在HackerNews上，Gemini 2.5 Flash引发了热烈的讨论。

有人认为，谷歌不搞炒作，但实际上性价比非常高，谷歌正在赢得人工智能竞赛。

也有人觉得，便宜是便宜，但是模型有时候会犯懒，不过这也在预料之中。

当然，实际应用还是要看具体任务，不过可以确定的是，Gemini 2.5 Flash的性价比已经获得了部分人的认可。

另外由于Gemini的Flash版本和OpenAI的mini类似，再加上上线时间邻近，Gemini 2.5 Flash也被视为o4-mini的竞争者。

不过从谷歌官方发布的成绩单上看，Gemini 2.5 Flash在一些难度较高的测试集中，表现是要稍逊于o4-mini的。

但如果考虑价格，这样的差距似乎可以接受，而且实际任务当中，也不总是需要模型能够应付这些最难的问题。

那么，在实际环境当中，Gemini 2.5 Flash的表现又如何呢？首先看看编程能力。

先安排一下著名的小球测试变体——一个大五边形中包含了三个缺一边的小五边形，之间互不交叉，小球在其中按照物理规律运动。

五边形的部分Gemini 2.5 Flash，正确绘制出来了，但对于小球则是完全已读乱回，经过了反复调整之后依然翻车。

再看o4-mini，运行结果符合提示词要求，并且代码更加精简，仅128行，而Gemini版本超过了500行。

这一轮，o4-mini胜。

再看数据分析能力。

我们找来了最近某班次航班的飞行记录，包含了起飞到降落过程中各时间点的位置、高度、速度、航向等信息，一共有1700余个数据点。

给出的任务则是绘制出高度和速度随时间变化的折线图，并且涉及到了时区和计量单位的换算（原始数据中时间为UTC时间、高度为英尺、速度为节，需要换算成北京时间、高度单位为米、速度单位为公里每小时）。

虽然我们上传了数据文件，但一开始Gemini没有选择外挂，而是把数据全都写进了Python代码，导致代码非常冗长。

经过提示之后，Gemini对代码进行了改进，得到了正确的图像。

o4-mini这边，虽然结果也对，但是没有考虑清楚坐标轴文本的长度，导致横轴上所有标签都挤成一团。

而且相比之下，Gemini的版本还带有网格线，能够更清晰地看出各点对应的大致数值。

这一轮，Gemini胜。

最后一轮，来看下两款模型的多模态理解能力。

这是英伟达最近一个月的股票形势图，我们让两款模型分别分析一下最佳的入手时机。

它们都从图中正确发现了最低点和对应的时间，至于回答质量，还是直接看他们的输出结果：

总的来说，如果不考虑价格，Gemini 2.5 Flash确实和o4-mini比还有些不尽如人意，但落地中考虑性价比，可能综合竞争力就体现出来了。

参考链接：
https://developers.googleblog.com/en/start-building-with-gemini-25-flash

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

主打性价比，思考深度自由调控

o4-mini的竞争者？

test

test

文心AIGC

test

test