力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

972次阅读
没有评论

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

Jeff Dean大秀其编程能力

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

终于,谷歌DeepMind坐不住了,出手就是超越DeepSeek-R1

劈柴哥亲自官宣Gemini 2.0家族更新,分别是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite。

同时,稳居大模型竞技场第1名的推理模型Gemini 2.0 Flash Thinking,已在Gemini App中推出。

至此,Gemini 2.0家族所有模型,全部跻身大模型竞技场前10

且Gemini 2.0 Pro超过了DeepSeek-R1

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

谷歌首席科学家Jeff Dean表示:“与1.5系列模型相比,2.0系列的每一款通常都比1.5系列的同型号更好”。

而此次上新中,尤其值得关注的模型,有2个。

一个是Gemini 2.0 Pro,谷歌迄今为止在编码和复杂指令任务中表现最好的模型,200万tokens上下文窗口,支持调用谷歌搜索和代码执行等工具。

一个是Gemini 2.0 Flash-Lite,谷歌目前为止性价比最高的模型,针对大规模文本输出用例进行了成本优化(让我们谢谢DeepSeek),还杀进了竞技场总榜前十。

模型使用成本也一降再降,甚至被有的网友调侃,这些模型年纪轻轻就出来打工,还基本免费打工,为爱发电那种

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

网友一边直呼鹅妹子嘤,一边玩儿得很开心。

上来就是最近o3-mini和DeepSeek-R1激烈对垒过的六边形内晃小球。

Prompt:编写一个脚本,显示一个球在旋转的六边形内部弹跳。球应该受到重力和摩擦的影响,并且必须真实地弹跳 off 转动的墙壁。使用 p5.js 实现。

你将得到:

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

而此前o3-mini和DeepSeek-R1的表现分别如下:

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

高下如何,大家自己评估。

现在起,Gemini 2.0所有人可用

展开来说,此次发布的Gemini 2.0家族三款模型,分别是:

  • Gemini 2.0 Flash更新版:通用首选
  • Gemini 2.0 Pro实验版:谷歌最强
  • Gemini 2.0 Flash-Lite:性价比首选

所有这些模型在发布时都将支持多模态输入,并生成文本输出

加上此前就亮相了的Gemini 2.0 Flash Thinking,家族全家福现在如下。

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

在通用、代码、推理、多模态、数学、长文本、图像、音视频等方面,家族3名新成员的成绩如下。

不愧是谷歌自己的新王者,Gemini 2.0 Pro在13项评测中,拿下11个第一。

同时,让人眼前一亮的是,Gemini 2.0 Flash-Lite在Factuality的FACTS Grounding这一项,以84.6%的成绩勇夺桂冠,力压Gemini 2.0 Pro。

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

下面,我们来分别仔细看看新出现的3名家族成员的具体情况。

谷歌最强:Gemini 2.0 Pro实验版

Gemini 2.0 Pro是谷歌DeepMind迄今为止最强的模型,不过官方暂且只放出了实验版

它具有最强的编码性能和处理复杂提示的能力,对世界知识的理解和推理能力也是谷歌最强。

此外,Gemini 2.0 Pro实验版配备了谷歌最大的上下文窗口,即200万tokens

这使得它能够全面分析和理解大量信息,并具备调用如谷歌搜索和代码执行等工具的能力。

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

现在,作为实验性模型,Gemini 2.0 Pro已经在Google AI Studio和Vertex AI提供给开发者使用。

如果你是Gemini Advanced的用户,可以在PC端和移动设备端的模型下拉菜单中选中它,进行使用。

最为通用:新版Gemini 2.0 Flash

去年2024年谷歌I/O大会上,Gemini 2.0 Flash实验版首次亮相。

现在,Gemini 2.0 Flash已经集成到谷歌的AI产品中,人人可用。

谷歌DeepMind的CTO,同时代表了Gemini团队的Koray Kavukcuoglu在博客中表示,Gemini 2.0 Flash提供了全面的功能,适合大规模处理高容量、高频率任务。

并且具备100万tokens长文本能力,支持对海量信息进行多模态推理。

目前,Gemini 2.0 Flash支持多模态输入和文本单模态输出,而图像生成和文本转语音功能已经在路上了,“未来几个月,将提供Gemini 2.0 Flash的多模态Live API”。

当前用法如下:

  • 普通用户:Gemini App中试玩
  • 开发者:Google AI Studio和Vertex AI中调用API

性价比首选:Gemini 2.0 Flash-Lite

基于“希望在保持1.5 Flash成本和速度的同时,继续提高模型质量”,谷歌DeepMind推出了Gemini 2.0 Flash-Lite。

这个模型速度和成本与Gemini 1.5 Flash持平,但大多数基准测试中,模型能力优于1.5 Flash

虽然是Lite版本,但其长文本能力并没有打折——和2.0 Flash一样,它具备100万tokens的上下文窗口,同时支持多模态输入。

而且巨便宜。

便宜到什么地步呢?给大家一个更能感知的例子:

如果让Gemini 2.0 Flash-Lite为4万张左右的不同照片,各自生成一句描述简介,按Google AI Studio定价,这个任务花费的总成本不超过1美元(约7.2751元)。

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

综上,谷歌用一张图明确表现了3名Gemini 2.0家族新成员的现有能力:

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

来自DeepSeek的无形压力?

模型一登场,网友们已经玩飞了!

身先士卒的Jeff Dean,第一个奉上他用Gemini 2.0 Pro编程做出的益智休闲类Boggle游戏(他的最爱)。

有人问生成代码并解释需要多长时间,Jeff还很直接地回应了网友,表示:答案是18.9秒。

他激情解说,只需一个相对简单的提示词,Gemini 2.0 Pro就能写出完整的代码,其中包括所有正确的数据结构和搜索算法;它还能找到Boggle棋盘上的所有有效单词。

作为一名计算机科学家,我也很高兴它在第一个前缀树中就正确地使用了数据结构。

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

紧随其后,还有网友搞了个狂野版贪吃蛇

“Google Gemini 2.0一次性生成,带编码器模式!创建一个自己爬行扭起来的贪吃蛇游戏,其中100条蛇竞争狂舞。”

虽然他没有在评论区回复到底是用的是Gemini 2.0家族的哪个模型,但效果还是不错滴!

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

更多的体验,小伙伴们可以直接上手玩玩看,欢迎在评论区和我们分享~

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

另外值得重视的一个小点——

谷歌DeepMind的CTO在博客中写道,这些发布是谷歌更广泛推动提升AI Agent能力的一部分

Gemini 2.0系列是用新的强化学习技术构建的,这让模型有了更准确和更有针对性的输出反馈,同时提高了模型处理敏感提示的能力。

他还表示,团队利用自动化红队测试来评估系列模型的安全和安全风险

其中包括间接提示注入等风险带来的风险——这是一种网络安全攻击,攻击者会将恶意指令隐藏在可能被AI系统检索的数据中。

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

综上总总,咱可以划出两个重点。

第一,“Gemini 2.0系列是用新的强化学习技术构建的”。

这条路是OpenAI o1第一个明确站出来表示自己在探索的,后来的o3、o3-mini,DeepSeek-R1等国内推理模型,都是追随这条路线,并以其为基础各有优化和发展。

Gemini 2.0家族中最先出场的Gemini 2.0 Flash Thinking已经是这样做的,这次CTO更是直接打明牌。

第二,Gemini 2.0 Flash-Lite,几乎被国内外所有媒体、网友视为DeepSeek-R1压力下的产物。

DeepSeek-R1低成本、高性能、强推理带来的滔天巨浪,不仅迫使OpenAI紧急发布了o3-mini、紧急加播让ChatGPT上新深度搜索;还让谷歌DeepMind也开始走上“AI大模型拼多多”的路线。

目前,DeepSeek-R1模型的输入和输出成本如下:

  • 输入成本:每百万Tokens的输入成本为4元。
  • 输出成本:每百万Tokens的输出成本为16元。

而Gemini 2.0 Flash-Lite的使用成本如下:

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

面对这种「神仙打架,凡人捡漏」的情况,我能说什么呢?

我只能说:

力压DeepSeek-R1!谷歌Gemini 2.0系列集体上新,全员跻身大模型竞技场前10

谷歌DeepMind CTO博文:
https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

参考链接:
[1]https://x.com/Google/status/1887170927751729385
[2]https://x.com/sundarpichai/status/1887169871697350775
[3]https://x.com/lmarena_ai/status/1887180371219132898
[4]https://x.com/_akhaliq/status/1887195401419166163
[5]https://x.com/JeffDean/status/1887173255448121617
[6]https://x.com/_akhaliq/status/1887272152535294460

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...