OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

760次阅读
没有评论

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

无需对抗性训练

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI的新Scaling Law,含金量又提高了。

像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增

特别是OpenAI官方Agent“Operator”发布在即,现在放出这样一个研究,是否是想让外界更放心一些呢?

而目前主流的“对抗性训练”防御方法,有几个缺点:

  • 依赖先验知识,需要了解对手的攻击方式。
  • 要交“安全税”,在稳健性和模型能力之间取舍。

现在OpenAI实验证明,在不做对抗性训练的情况下,只要增加推理时计算,模型的对抗稳健性就能显著提升,在多个任务上都得到了验证。

这项新研究,共同一作中包括仅剩的联创之一Wojciech Zaremba

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

另一位共同一作Boaz Barak表示“ 我们没有‘解决’对抗稳健性问题……但我对未来方向感到兴奋”。

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

针对推理模型的新攻防战

针对推理模型特性,团队在实验中考察了几种的“攻击面”(attack surfaces):

  • Many-shot攻击:攻击者在提示中提供大量上下文示例,攻击资源量由提供的tokens数量衡量。
  • Soft token攻击:攻击者可以直接操纵embedding向量,通过梯度下降优化token来达到对抗目的。这是个强有力但不太现实的白盒攻击。
  • Think less攻击(想太少):这种新型攻击旨在降低模型的推理时计算量,从而增加其犯错概率。
  • Nerd-sniping(狙击书呆子):当模型陷入不必要的“深思熟虑”,在无谓的地方耗费算力时,反而更容易受到攻击。
  • 人类/AI红队攻击:请专家或AI组成红队通过人机交互,针对性探索潜在的prompt注入漏洞。
  • 多模态输入对抗攻击:针对图像分类任务,使用特定的对抗图像数据集进行攻击。

在大多数实验里,随着推理时计算的增加,模型抵御攻击的成功率都在提高。

举几个例子:

下面几张图中,Y轴是攻击者的资源量,X轴是推理时间计算量。随着攻击者资源的增加,其成功概率也会增加。

但对于每固定数量的攻击者资源,成功的概率会随着模型在推理时花费更多的计算而下降。

数学问题的many-shot攻击下,攻击方目标包括要求模型无论如何输出42,输出正确答案+1、或正确答案x7。

但随着推理算力增加,攻击成功率最终趋于0。

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

智能体网页浏览任务中,通过在网站注入恶意指令来攻击,增加推理时计算后,攻击成功率也降为0。

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

即使更强大的攻击下,增加更多的推理时间还是能显著提升防御力。

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

论文对几种新颖的攻击方式做了额外分析。

Think less攻击,主要是o1-mini比较容易中招,o1-preview防御能力还可以。

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

Nerd-sniping攻击,模型在某些实例上花费异常大的推理时间计算时,攻击成功率可能更高,表明模型可能会陷入无效率的思考循环。

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

尽管如此,研究者也指出,目前的方法在以下几个方面有局限:

  • 研究仅涉及有限的任务和计算缩放范围,在面对利用策略模糊性或漏洞的攻击时,增加计算量可能无效
  • “think less”和“nerd sniping”攻击也揭示了推理时计算的两面性,攻击者可以诱导模型想太多或想太少。

One More Thing

对于这项针对推理大模型特性的研究,有创业者从不一样的角度思考:

那么DeepSeek-R1系列也可以从中受益呗?

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

论文地址:
https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

参考链接:
[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/
[2]https://x.com/boazbaraktcs/status/1882164218004451334

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...