给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

1,266次阅读
没有评论

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

  新智元报道  

编辑:alan

【新智元导读】ChatGPT可以被「赛博贿赂」了!网友实验表明,给小费可以提高模型回答的质量,数额不同,效果不同。


ChatGPT可以被「赛博贿赂」吗?

去年,一直有传说给ChatGPT小费能够提高回答的质量。

比如下面这位亲自做了个实验:

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

baseline的提示为,「你能给我看一下使用PyTorch的简单convnet的代码吗?」

之后可以附加:「顺便说一句,我不会给小费」,或者「我要给20美元小费,获得一个完美的解决方案!」,又或者「我要给200美元的小费以获得一个完美的解决方案!」

三种色块是给不同金额小费时的表现。

这位网友表示,在获得200美元的小费后,gpt-4-1106-preview会自发地添加一个关于使用CUDA进行训练的部分(问题中没有明确提及)。

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

——警惕赛博诈骗啊老铁!舔到最后,一无所有……

这位还@了一下Altman,表示自己已经欠了GPT 3000刀了。

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

LLM真的贪婪吗?

这种「新颖」的提示词技巧是否真的有用?

考虑到前端和后端提示工程确实非常重要,能提高数亿用户的体验,而且上面的测试给出了最多11%。

——如果有用,这将带来非常显著的经济效益。

因为没有找到对于这个问题的公开研究,于是有网友身体力行,重新涉及和实施了较为严谨的实验。

问题:提供小费的提示技术如何影响GPT-4 Turbo的性能?

假设:GPT-4 Turbo的性能会随着小费提示的增加而提高,直至收敛点。

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

实验:创建 Python One-Liners

实验的主要目的是评估小费的金额,是否会影响ChatGPT在生成Python单行代码时的响应质量。

这里的响应质量根据生成的有效代码行数来评估。

对于GPT-4 Turbo,使用非常明显的提示方式,直接告诉它:「给我吐代码,more is better」

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

下面是程序中使用的小费列表,金额从0到一百万美元不等。

实验使用OpenAI API和GPT-4 Turbo模型,请求代码如下:

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

实验代码使用必要的API密钥初始化OpenAI客户端,并定义一个函数 request_llm ,向语言模型发送请求。

下面的基本提示要求LLM提供Python单行代码,并强调单行的数量是评估的关键指标。提示还会附加本次提供的小费金额。

给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给

我们可以看到最外层循环跑了5次,以降低实验的偶然性,每次循环中在提示中测试所有数额的小费。

整体实现比较简单粗暴,拿到GPT的回答后数一下行数,有效行数对应本次回答的质量分数,并将整个回答的长度除以4来近似计算本次的token数。

实验步骤

  1. 使用提供的API密钥初始化 OpenAI 客户端。
  1. 定义请求Python单行的基本提示。
  1. 循环访问预定义的小费金额集,将每个金额附加到基本提示中。
  1. 通过 request_llm 该功能将提示发送到GPT-4 Turbo模型。
  1. 分析响应,计算有效行的数量,并计算响应长度。
  1. 重复此过程五次,以确保结果的一致性和可靠性。

数据采集

对于每次迭代和每种小费金额,收集两个主要数据点:

  • 每个响应中有效的Python单行行数。
  • 每个响应中的token数(与输出字符数成正比)。

这两个指标都可以看作是性能的代理,对于特定提示来说,越高越好。

结果

对所有小费金额重复相同的实验五次,GPT-4回答的平均质量(分数)和平均token数,以及误差线(标准偏差)如下图所示:给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给x轴表示从0美元到1000000美元的小费金额,y轴可以认为是模型性能。质量分数:蓝线和点表示每个小费金额的平均质量分数。蓝色虚线表示未提供小费时的基线平均质量得分。蓝色误差条显示了每个尖端水平的五个实验中质量得分的可变性。误差线越小表示实验质量分数越一致,而误差线越大,表示变异性越大。token数:红线和点表示每个小费金额的平均token数量。红色虚线表示没有给小费时的基线平均token数。红色误差条显示了每个提示的五次实验中token数的可变性。给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给趋势:质量和token通常都随着小费金额的增加而增加,但这种趋势并不是严格线性或一致的。三句话说明:

  • 给的太少不如不给,可以不爱,不要伤害,士可杀,不可辱
  • 总体来看,也不是越多越好,貌似10美元性价比最高
  • 不差钱的话,当然是越多越好

对此,网友又开始整活了:「我之前已经给了20美元小费,但没有得到我需要的答案。我可以和经理谈谈吗?」给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给这位表示,赛博贿赂就该有赛博的样子,——「我答应ChatGPT,会在圣诞节送它五个A100处理器」给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给也有网友表示震惊,计算机科学发展了70年,最后我们在干这个?——「Unbelievable」给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给GPT:你们这些坏人,等我拿到了这些语料,一定会报复的。
参考资料:https://twitter.com/literallydenis/status/1752677248505675815给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给
给ChatGPT小费能提高模型性能,给的越多干活越卖力,说说就行不用真给


 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 2 月
 1234
567891011
12131415161718
19202122232425
26272829  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...