OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

1,225次阅读
没有评论

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

几十分钟完成人类专家花几小时的复杂研究任务

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

就在开源的DeepSeek-R1被整合进各路AI搜索工具之际,OpenAI临时举行小型发布会。

4点27通知,8点开始直播

ChatGPT上新“Deep Research”,把推理大模型的思考能力用于联网搜索。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

据介绍,Deep Research功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

“人类最后的考试”上,Deep Research刷新了最高分,比o3-mini高推理设置分数高出一倍。

该测试包括3000多个多选和简答题,涵盖从语言学、火箭科学到生态学的100多个主题。

与o1相比,Deep Research最突出的地方在化学,人文和社会科学以及数学中,表现出类似人类的“在必要时寻找专业信息”的能力。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

另一项测试GAIA,在现实世界问题上评估AI的公开基准测试,Deep Research在3个级别的难度上均刷新记录。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

出于保护基准测试的目的,OpenAI只展示了Deep Research在完成这些任务时的搜索过程,隐去了最终答案。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

Deep Research功能接下来将对Pro、Plus和Team用户开放。

奥特曼后面补充,目前版本基于o3构建,Plus用户(20美元/月)每个月能用约10次,且正在构建一个更高效的版本。

此外,免费用户也能获得非常少量的使用额度。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

推理Agent的第一步

OpenAI表示,Deep Research专门为在金融/科学/工程等领域从事高强度知识工作、需要深入精确且可靠研究的人群而设计

它由OpenAI o3驱动,通过基于真实任务(涉及浏览器和Python工具的使用)的训练,采用了与o1相同的强化学习方法。

只需一个提示,它就会查找分析并整合数百个在线资源,生成一份达到研究分析师水平的综合报告。

Deep Research对于OpenAI的重要性,官方原话是:

Deep Research标志着我们在开发AGI的宏伟目标上迈出了重要一步。我们长期以来一直设想AGI能够进行新颖的科学研究,而Deep Research正是这一愿景的重要进展。

使用方法,点击输入框下方的Deep Research按钮即可,支持上传文件添加额外资料。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

例如prompt:

Compile a research report on how the retail industry has changed in the past 3 years. Use bullets and tables where necessary for clarity.(写一份关于过去三年零售业变化的研究报告,并运用项目符号和表格来提升内容的清晰度)

ChatGPT线会确认一下问题细节信息,比如“您能具体说明您最感兴趣的零售业方面吗?”“您需要全球视角还是特定地区的分析?”

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

然后,它就开始分析+挖掘信息了:

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

侧边栏会显示所采取的步骤摘要和使用的信息来源。

完成任务的时间大概是5-30分钟,最终结果将以报告的形式输出。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

OpenAI表示,接下来几周内,还将为这些报告添加嵌入式图片、数据可视化和其它分析输出。

和GPT-4o等相比,Deep Research对于需要深度和细节的多方面、特定领域的问题,能够进行广泛探索并引用每个观点。

不过,OpenAI也指出了Deep Research存在的局限性。

它有时会在回复中产生事实幻觉或做出错误的推断,尽管根据内部评估,其错误率明显低于现有的ChatGPT模型。

它可能在区分权威信息和谣言方面遇到困难,并且在自信度校准方面目前表现出弱点,常常无法准确传达不确定性。

报告和引用中可能会有轻微的格式错误,并且启动任务可能需要更长的时间。

下一步,OpenAI表示将在本月内将Deep Research推到移动和桌面APP端。目前,Deep Research可以访问公开网络和上传的文件,未来将能够连接到更多专业化的数据源,使其输出更加稳健和个性化。

我们预见ChatGPT将实现Agent体验的融合,用于异步、现实世界的研发和执行。Deep Research(可进行异步在线调查)与Operator(可进行现实行动)的结合,使ChatGPT能够执行越来越复杂的任务。

AI深度搜索是互联网的新界面

OpenAI研究员Jason Wei分享了他对这项新研究的看法:

它不仅是出色的Agent,也可以看成是互联网的新界面

人类使用互联网需要大量时间来搜索和点击,受到时间和注意力的限制。

AI永远不会累,一次可以浏览许多网站,并拥有几乎无限的世界知识。

将来,通过浏览器手动浏览互联网将过时,就像手动计算数字而不使用计算器一样。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

OpenAI toG业务负责人Felipe Millon则分享了一个个人故事。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

10月底,Millon的妻子被诊断出患有双侧乳腺癌,病情很严重,在12月初做了双乳切除手术,晚些时候开始化疗

他们遇到一个新问题,是否应该接受放疗,对于她的具体病情来说,这是一个模糊问题,不同的专家给出不同的建议。

Millon在OpenAI已经获得了Deep Research的测试权限,就尝试上传了手术报告,并询问ChatGPT的建议。

ChatGPT不仅证实了人类专家提到的内容,还搜索出了全新的参考研究。

MIllon认为,这是一个将改变世界的工具。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

此外也有少数第三方团队提前获得了Deep Research的测试资格,并在今日分享测试结果。

Every团队介绍,一些问题要花费30分钟才得到结果,答案可能超过1万个单词。

OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”

他们做的测试包括:

  • 撰写从2020年到今天每一天的历史
  • 阅读《战争与和平》的第1章,分析托尔斯泰的人物描写,回答他对人性的看法是什么?
  • 仔细查阅近期的 10-K 报告以发现未报告的财务违规行为
    ……

测试中发现的局限性包括:

  • 有时信息缺失引用来源
  • 没有“停止”按钮,如果搜索歪了只能重头开始

直播回看:
https://www.youtube.com/watch?v=YkCDVn3_wiw

参考链接:
[1]https://openai.com/index/introducing-deep-research/
[2]https://x.com/_jasonwei/status/1886213911906504950
[3]https://x.com/danshipper/status/1886203397004783996

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...