只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

386次阅读
没有评论

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

用LLM+树搜索,去大海捞针吧

不圆 发自 凹非寺

量子位 | 公众号 QbitAI

只要科学任务可以评分,AI就能找到超越人类专家的方法,实现SOTA结果?

这是谷歌一篇最新论文里的内容:

使用大模型+树搜索,让AI大海捞针就行。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

他们还开发了一个帮助科学家编写专家级实证软件的AI系统。

该系统在生物信息学、流行病学、地理空间分析等领域发明的新方法,都达到了SOTA的水平。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

网友表示:任何可量化的东西都将被AI征服。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

这篇论文目前在X上获得了2.6K赞,引发了广泛的讨论。

让我们一起看看。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

可评分任务在科学中无处不在

实证软件指的是以最大化可定义或可度量的质量指标(通常指对现有观测数据的拟合度)为设计目标的软件。

如果一个任务可以用实证软件解决,就可以被称为可评分任务。

论文表示,他们构建这个系统主要是基于两个原因:

一方面,可评分任务在科学界无处不在。如今几乎每个科学子领域、应用数学和工程领域都依赖软件,其中大部分软件都是解决可量化任务的实证软件。

另一方面,科学实证软件的开发过程缓慢且艰难。特定领域的实证软件需要繁琐的工作,通常需要数年才能完成。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

而这个新系统能够系统地自动创建实证软件,以解决可评分任务。

简单地说,该方法基于大语言模型(LLM),通过让LLM重写代码来提升软件的质量评分。系统首先生成大量的候选软件解决方案,然后运用树搜索算法筛选值得进一步优化的候选方案。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

虽然代码变异系统的设计方式多样,但研究人员通过设计基于基础Kaggle竞赛基准的对抗测试,持续改进了该方法。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

研究人员通过注入研究思想来增强代码变异能力——这些思想来源广泛,涵盖从高被引论文、专业教科书到搜索引擎结果等多个渠道。

在实际应用中,用户既可直接注入这些思想,也可通过搜索引擎自动获取文献研究成果。

LLMs在代码编写过程中会充分利用这些注入的指导信息。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

结果显示,该系统可广泛应用于科学领域的各类可评分任务,生成的软件性能超越了科学家开发的最先进水平。

这种超人类性能的实现,源于系统能够在前所未有的规模上、彻底且不知疲倦地进行解决方案搜索,从而发现“沧海遗珠”式的高质量解决方案。

在生物信息学领域,这个新系统发现了40种用于单细胞数据分析的新方法,在公开排行榜上超越了人类专家开发的最顶尖方法。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

在地理空间分析方法上,系统开发出的三个新方法在DLRSD基准测试上显著优于近期学术论文报道的结果,mIoU指标均突破0.80大关。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

在神经科学领域,斑马鱼活动预测基准(ZAPBench)上,该系统的解决方案有效地利用了跨神经元信息来生成预测,虽然没有超过表现最好的视频模型,但它与时序基线模型相比仍然具有竞争力,并且在训练速度上比表现最佳的视频模型快几个数量级。

(这个基准Y轴越低越好)

此外,在流行病学、时间序列预测、数值分析领域,新系统都能取得和人类顶级方法相当、甚至超越人类的结果。

总而言之,研究团队开发了一种新方法:把基于树搜索的代码变异系统和整合复杂研究思路的能力相结合。

这些研究思路可以来自已发表的论文、研究智能体,也可以是LLM已有思路和方案的组合。

网友评价:这种新方法正在为未来的AI创造更好的算法。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

但同样的,问题也随之而来:把科学研究的权限交给AI真的合适么?

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

顶尖的AI研究员也像我们一样使用提示

有细心的网友发现,在这篇论文里,研究人员使用的提示词和我们也没什么差别:

请创建一个算法,利用两种策略的优点,创建一个真正出色的混合策略,并且得分要高于任何一种单独的策略!!

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

全都用的都是大写字母,和中文里疯狂敲感叹号没什么差别。

网友笑评:就像答辩的前一周,简直火烧眉毛了。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

也有网友表示这是一个很好的现象。它证明好结果并不总是需要复杂的指令,能够清晰表达需求就足够有效。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

创造力才是进步的核心。

只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文

参考链接:
[1]https://x.com/arankomatsuzaki/status/1965253577221587218
[2]https://x.com/deedydas/status/1965468238483235015
[3]https://google-research.github.io/score/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026 西风 2025-...
太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026

太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026

太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026 西风 2025-12-14 11:39:24 来源...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!

低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!

低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源! 闻乐 2025-12-14 21:17:04 来...
万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开! 量子位的朋友们 2025-12-15 10:11:1...