论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

1,357次阅读
没有评论

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4有能力做论文评审吗?

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,让它生成评审意见(包括修改建议啥的),然后与人类给的意见进行比较。

结果发现:

GPT-4提出的超50%观点与至少一名人类评审员一致;

以及超过82.4%的作者都发现GPT-4给的意见很有帮助。

那么,这项研究究竟能给我们带来何种启示?

结论是:

高质量的人类反馈仍然不可替代;但GPT-4可以帮助作者在正式同行评审前改进初稿。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力,研究人员首先用GPT-4创建了一个自动pipeline

它可以解析一整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容来构建提示语。

然后让GPT-4提供评审意见。

其中,意见和各顶会的标准一样,共包含四个部分:

研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体实验从两方面展开。

首先是定量实验:

读已有论文,生成反馈,然后与真实人类观点系统地比较出重叠部分。

在此,团队从Nature正刊和各大子刊挑选了3096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1709篇,共计4805篇。

其中,Nature论文共涉及8745条人类评审意见;ICLR会议涉及6506条。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

GPT-4给出意见之后,pipeline就在match环节分别提取人类和GPT-4的论点,然后进行语义文本匹配,找到重叠的论点,以此来衡量GPT-4意见的有效性和可靠度。

结果是:

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

再进一步仔细比较GPT-4与每一位评审员的意见之后,团队又发现:

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%,在ICLR上降为39.23%。

但这与两位人类审稿人之间的重叠率相当:

人类在Nature论文上的平均重叠率为28.58%;在ICLR上为35.25%。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

此外,他们还通过分析论文的等级水平(oral、spotlight、或是直接被拒绝的)发现:

对于水平较弱的论文来说,GPT-4和人类审稿人之间的重叠率更高,可以从上面的30%多升到近50%。

这说明,GPT-4对水平较差的论文的鉴别能力很高。

作者也因此表示,那些需要更实质性修改才能被接收的论文有福了,大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

2、GPT-4可以给出非通用反馈

所谓非通用反馈,即GPT-4不会给出一个适用于多篇论文的通用评审意见。

在此,作者们衡量了一个“成对重叠率”的指标,结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。

这说明GPT-4是有针对性的。

3、能够在重大、普遍问题上和人类观点一致

一般来说,人类反馈中较先出现的意见以及多个评审员都提及的意见,最可能代表重要、普遍的问题。

在此,团队也发现,LLM更有可能识别出多个评审员一致认可的常见问题或缺陷。

也就是说,GPT-4在大面上是过得去的。

4、GPT-4给的意见更强调一些与人类不同的方面

研究发现,GPT-4评论研究本身含义的频率是人类的7.27倍,评论研究新颖性的可能性是人类的10.69倍。

以及GPT-4和人类都经常建议进行额外的实验,但人类更关注于消融实验,GPT-4更建议在更多数据集上试试。

作者表示,这些发现表明,GPT-4和人类评审员在各方面的的重视程度各不相同,两者合作可能带来潜在优势。

定量实验之外是用户研究

在此共包括308名来自不同机构的AI和计算生物学领域的研究员,他们都在本次研究中上传了各自的论文给GPT-4进行评审。

研究团队收集了他们对GPT-4评审意见的真实反馈。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

总体而言,超过一半(57.4%)的参与者认为GPT-4生成的反馈很有帮助,包括给到一些人类想不到的点。

以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。

此外,还有超过一半的人(50.5%)表示,愿意进一步使用GPT-4等大模型来改进论文。

其中一人表示,只需要5分钟GPT-4就给出了结果,这个反馈速度真的非常快,对研究人员改善论文很有帮助。

当然,作者指出:

GPT-4也有它的局限性。

最明显的是它更关注于“整体布局”,缺少特定技术领域(例如模型架构的深度建议。

所以,如作者最后总结:

人类评审员的高质量反馈还是不可或缺,但大家可以在正式评审前拿它试试水,弥补遗漏实验和构建等方面的细节。

当然,他们也提醒:

正式评审中,审稿人应该还是独立参与,不依赖任何LLM。

一作都是华人

本研究一作共三位,都是华人,都来自斯坦福大学计算机科学学院。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

他们分别是:

  • 梁伟欣,该校博士生,也是斯坦福AI实验室(SAIL)成员。他硕士毕业于斯坦福电气工程专业,本科毕业于浙江大学计算机科学。

  • Yuhui Zhang,同博士生在读,研究方向为多模态AI系统。清华本科毕业,斯坦福硕士毕业。

  • 曹瀚成,该校五年级博士在读,辅修管理科学与工程,同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

论文地址:
https://arxiv.org/abs/2310.01783

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别 

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动!点此了解详情

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...