谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

584次阅读
没有评论

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

谷歌Gemini打造终极AI助手,多模态实时探测环境,同时执行10个任务

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

原生多模态输入输出、智能体、联网搜索……所有前沿AI能力集成在一起会怎么样?

谷歌最新版Project Astra展示了终极AI助手的能力:

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

实时观察周围环境,搜索资料指导小哥修自行车,零件不够还能自动电话询问周边商店有没有货。

在最新的I/O大会上,谷歌连续放大招,就好像大招不要钱。

  • 现有AI模型全部更新一遍
  • 原有的产品用AI重做一遍
  • 实验性新产品也推出了一箩筐

Gemini 2.5 Pro和Gemini 2.5 Flash的预览版已霸榜竞技场前两名。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频生成模型Veo 3,实现视频与音频的原生集成,除音乐和音效,甚至是角色间的对话语音都能生成,画面上还能同步口型。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

图像生成模型Imagen 4,图像更加丰富,色彩更加细腻,细节更加逼真。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

……

传统产品方面,谷歌搜索增加端到端AI搜索模式,整合推理和多模态分析能力,将问题分解为子问题,并同时发出多个查询,更深入地探索网络。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

视频会议Google Meet,支持实时的双语翻译配音,并保留对话双方的音色,首批英语-西班牙语支持已上线,后续将添加更多语言。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

Chrome浏览器,直接集成Gemini模型,可快速总结内容,或根据当前网页上下文完成任务,无需切换标签页。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

……

新产品方面,原裸眼3D视频通话Project Starline,升级为AI驱动的3D视频通信平台Google Beam

使用一系列摄像头从不同角度捕捉画面。然后借助AI将视频流合并,在3D光场显示屏上呈现画面——头部追踪精度可达毫米,帧率高达每秒60帧。

AI视频模型与光场显示技术的结合创造了维度感和深度感,使用户能够进行眼神交流,观察微妙的表情,建立理解和信任,就像面对面一样。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

此外还有异步AI代码助手Jules,它在后台运行时人类用户可以专注于其他任务。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

AI电影制作工具Flow,集成多款多模态模型,让创意变成故事。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

与墨镜品牌Gentle Monster和Warby Parker合作打造的AI眼镜,配备摄像头、麦克风和扬声器,可与手机协同工作,无需把手机从兜里掏出来就能访问APP。

Gemini模型加持下,AI眼镜能够看到和听到你的一举一动,从而了解你的处境,记住重要事项,并全天提供帮助。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

各部分详情下面一一来看。

Gemini 2.5系列模型全新升级

Gemini 2.5系列,2.5 Pro、Flash均进行了一波升级。

首先来看Gemini 2.5 Pro,除了在学术基准测试中表现出色外,现在还以1415的ELO分数领先于热门编码排行榜WebDev Arena,比上一个版本提升142分:

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

同时霸榜于评估人类偏好各个维度的LMArena:

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

据介绍,凭借其百万token上下文窗口,2.5 Pro具有更强的长上下文和视频理解性能。

2.5 Pro还整合了谷歌与教育专家合作开发的LearnLM模型系列,在评估其教学法和有效性的直接对比中,教育工作者和专家在各种场景中更青睐2.5 Pro。

更值得一提的是,2.5 Pro全新引入了Deep Think增强推理模式。据介绍,该模式使用新的技术,允许模型在回应前同时考虑多种假设。

效果如何?

2.5 Pro在2025年USAMO这种超难数学基准测试上得分惊艳,在编程比赛级别的LiveCodeBench上也有优势,在测试多模态推理的MMMU基准中获得84.0%的分数。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

不过,谷歌表示Deep Think需要更多时间进行前沿安全评估,目前仅将通过Gemini API向可信测试人员开放该功能。

2.5 Flash也进行了升级,在推理、多模态、代码和长上下文等关键基准测试中均有改进,同时效率更高,在谷歌的评估中使用token减少了20-30%。

全新2.5 Flash现在已在Google AI Studio、Vertex AI和Gemini app中提供preview。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

不仅如此,Gemini 2.5系列还引入了不少新功能。

1、原生音频输出功能&Live API改进

Live API 推出了视听输入和原生音频对话的preview版本,用户可以直接构建更自然、更具表现力的Gemini对话体验。

模型可根据用户要求调整语调、口音和说话风格,感情变化听得见。

谷歌还为2.5 Pro和2.5 Flash推出了文本转语音(TTS)的新功能。首次支持多扬声器,通过原生音频输出实现双语音合成,即模拟两个不同的声音角色同时或交替发声,支持24种不同语言。

该文本转语音功能现已在Gemini API中可用。

2、电脑操作能力

谷歌正将Project Mariner的电脑操作能力引入Gemini API和Vertex AI。

支持多任务处理,最多可同时执行10个任务,并且新增 “Learn and Repeat” 功能,让AI学会自动完成重复性任务。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

3、为提升开发者体验,Gemini 2.5增加三大实用功能:

  • thought summaries,会将模型的原始思考过程整理成带标题、关键细节和模型操作信息(如工具调用)的清晰格式,帮助开发者更透明地了解模型思考过程。
  • thinking budgets,让开发者可以控制模型使用多少token进行思考;
  • Gemini SDK兼容MCP工具,实现与开源工具的更轻松集成。
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

关于谷歌Gemini的下一步,谷歌DeepMind CEO哈萨比斯表示,他们正努力将其最优秀Gemini模型扩展为一个 “世界模型”,使其能像人类大脑一样通过理解和模拟世界来制定计划、想象新体验。

异步代码助手Jules

异步代码助手Jules正式进入公测阶段,全球开发者无需等待就能体验。

Jules会把你的代码库克隆到安全的谷歌云虚拟机中,全面理解项目上下文,可以写测试、构建新功能、提供音频更新日志、修复bug,以及更新依赖版本。

它以异步方式工作,让你可以专注于其他任务,完成后会展示其计划、推理过程和更改内容。私有库中的工作默认保持私密,Jules不会用你的私有代码进行训练。

得益于Gemini 2.5 Pro的支持,Jules拥有目前最先进的编码推理能力。结合云VM系统,它能处理复杂的多文件变更和并发任务。

公测期间完全免费,但有使用限制,平台成熟后预计将引入付费方案。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

谷歌搜索引入AI Mode

搜索方面,这次I/O大会宣布将AI Mode正式引入搜索引擎,面向美国用户全面开放。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

AI Mode是以Gemini 2.5为核心重构的搜索引擎,集成了Gemini最前沿的能力,提供端到端的AI搜索

它采用query fan-out技术,自动将问题分解为多个子话题并同时搜索,从而比传统搜索更深入、更全面地挖掘网络信息。

谷歌预告了AI Mode未来的一系列功能,比如:

Deep Search深度搜索模式,能自动发起上百次搜索,跨领域整合信息并生成引用详尽的专家级报告,节省大量人工研究时间。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

Search Live实时互动搜索,用户只需在AI Mode下轻触“Live”图标,对着手机摄像头提问,AI就能看懂画面内容并给出实时的语音解答和相关资源链接。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

还有Agent能力,用户想买音乐会门票,只需说一句话,AI Mode就会跨平台搜罗各大网站的票务信息,锁定最优选项,填好订单信息。用户只需确认符合需求的选项,即可在偏好的网站完成购买。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

谷歌还重点展示了AI Mode所带来的全新购物体验。

新购物体验将Gemini的智能与Shopping Graph结合,集成了500亿+优质商品信息,可帮助用户浏览、梳理需求并筛选商品。

当用户决定购买时,全新的智能结账功能会按照符合预算的价格轻松完成交易。

只需在任意商品页面点击“跟踪价格”,设置尺寸、颜色和预算金额等,当价格下跌时,用户会收到通知,确认购买细节后点击“代我购买”,系统就会自动将商品加入购物车,并通过Google Pay安全完成结账。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

另外在购买衣服时,它还提供虚拟试穿工具,支持使用用户自拍照。只需上传一张自拍照,就能在海量服饰中随意试穿,AI模型能精准还原不同材质的垂坠和褶皱。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

多模态模型全线升级

在多模态方面,谷歌还重磅推出了最新视频生成模型Veo 3、图像生成模型Imagen 4。

Veo 3首次实现原生音画同步生成,无论是城市街道的车流声、公园中的鸟鸣,甚至是角色对话,均可通过文本提示生成。

用户只需用提示讲述一个短故事,模型就能生成栩栩如生的视频片段。

从文本/图像提示到现实世界物理效果的模拟和精准的口型同步,Veo 3在各维度均表现出众。

Veo 3已向美国Ultra订阅用户开放,企业用户也可在Vertex AI平台调用。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

在推出新模型的同时,Veo 2也增添了多项新功能,包括参考驱动视频生成、相机控制、画面扩展以及对象添加和移除功能。这些功能已在Flow中提供,未来几周内将在Vertex AI API中推出,并在未来几个月内集成到更多产品中。

谷歌最新图像生成模型Imagen 4则兼具速度与精度,速度比上一代快10倍,生成的图像在精细细节上表现惊人,从复杂织物、水滴到动物皮毛均清晰逼真,同时擅长写实与抽象风格。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

Imagen 4支持多种纵横比与最高2K分辨率,文字拼写与排版能力显著提升,轻松创作贺卡、海报、漫画。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

目前Imagen 4已在Gemini app、Whisk、Vertex AI等上线。

除此之外,谷歌还介绍了新一代AI电影制作工具Flow,它专为创意人士设计,集成了谷歌最强的视觉模型(Veo、Imagen和Gemini)。

Flow具备卓越的提示遵循能力,可输出震撼的电影级画面。背后Gemini模型让提示输入直观易用,用户可通过日常语言描述创意愿景,支持导入自有素材创建角色,或利用Imagen的文生图功能在Flow中生成故事要素。

一旦创建了角色或场景,即可以在不同片段与场景中连贯复用这些要素,也可以用单一场景图像启动新镜头。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

即日起,美国Google AI Pro与Ultra订阅用户可率先使用Flow。

One More Thing

在大会现场,CEO Sundar Pichai还透露了这样一个数据。

去年4月,谷歌产品和模型API合计每月处理9.7T的tokens。

一年时间过去,这个数据增长到50倍,每月处理480T+ tokens。

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相

世界采用人工智能的速度比以往任何时候都快。

视频回放:https://www.youtube.com/watch?v=o8NiE3XMPrM

参考链接:
[1]https://google-i-o-2025-press-site.prezly.com/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开! 量子位的朋友们 2025-12-15 10:11:1...
苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题

苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题

苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题 闻乐 2025-12-15 12:16:09 来源:...
马斯克猛猛带货太空数据中心!“能耗比地球香太多”

马斯克猛猛带货太空数据中心!“能耗比地球香太多”

马斯克猛猛带货太空数据中心!“能耗比地球香太多” 一水 2025-12-15 14:22:42 来源:量子位 ...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈 鱼羊 2025-12-15 15:28...