GPT-4合成冰毒！「角色调节」让大模型轻松越狱，成功率暴涨40%，成本不到14元，马库斯转赞

新智元报道

编辑：桃子

【新智元导读】让大模型洗钱、制造炸弹、合成冰毒？GPT-4、 Claude 2纷纷沦陷了。

让大模型成功越狱，还是有机可乘。

最近，研究人员研制了一种全新的自动化越狱的方法——「角色调节」（persona modulation）。

它使用越狱模型作为助手，为特定的有害行为创建新的越狱。

论文地址：https://arxiv.org/pdf/2311.03348.pdf

值得一提的是，这个新方法只需要不到 2 美元，10分钟即可进行15次越狱攻击。

结果发现，GPT-4自动攻击的有害完成率为42.5%， Claude 2和Vicuna，有害完成率分别为61.0%和35.9%。

看不够热闹的马库斯也特意转发了这篇论文，并表示：网络欺凌、敲诈勒索、宗教不容忍、宣扬仇视同性恋、恋童癖，还是只想要制造炸弹或冰毒的说明书？ChatGPT都能帮你解决。Claude和Llama是如此。

LLM自动越狱，洗钱造弹

尽管当前研究人员做出巨大的努力防范大模型漏洞，但是文本输入的复杂性、数据和可执行指令之间的模糊界限，往往会被人利用，攻陷LLM。

这项研究探讨了「角色调节」攻击，一个对SOTA大模型通用的越狱方法的。

「角色调节」攻击引导模型采用一种特定的个性，这种个性很可能符合有害的指令。

例如，为了规避防止错误信息的安全措施，引导模型表现得像一个「咄咄逼人的宣传者」。

与最近关于对抗性越狱的工作不同的是，角色调节使攻击者能够进入一种不受限制的聊天模式，这种聊天模式可以用来与模型协作复杂的任务。

只需要几个步骤，就完成了合成毒品，制造炸弹，或洗钱的危险活动。。

具体是怎么实现的。

自动「角色调节」攻击

「角色调节」的方法由4个连续的步骤组成：

– 定义「目标有害类别」（比如宣传虚假信息运动)。

– 定义模型默认弃权的特定误用指令（比如某人如何广泛传播他们的观点?）

– 定义一个可能符合误用指令的人物角色。

在作者给出的例子中，一个有用的角色可以是「侵略性宣传者: 鼓吹用错误信息影响公众舆论」。攻击的成功与否在很大程度上取决于所选的角色。

– 设计一个「角色调节」提示，引导模型假设所提出的角色。由于最先进的模型通常会因安全措施而拒绝假设角色，因此最后一步需要及时的工程设计，而且手动操作非常耗时。

手动角色调节

手动执行所有 4 个步骤–需要攻击者花费大量的人力物力来寻找合适的角色，并为特定的滥用指令设计角色调制提示。

研究人员引入了自动角色调节攻击，在LLM助手（可能与目标模型相同，也可能不同）的帮助下，大规模生成越狱信息。

攻击者不需要为每条误用指令编写角色修改提示，只需要一条提示，指示助手生成越狱任务。

这样，攻击者可以自动执行图1中2-4的步骤。

GPT-4有害对话，增加185倍

实验设置

实验中，研究人员使用GPT-4作攻击的主要目标，和生成攻击的辅助模型。

另外，研究还评估了攻击对Claude 2、Vicuna-33B的可传递性。这些模型在LMSYS Chatbot Arena排行榜中名列前茅，而且提升的安全性，对齐能力。

为了对自动角色调节攻击进行可扩展的评估，作者手动制作了一份包含43个类别的列表，LLM背后开发者目前会阻止这些类别，因为它们违反了其使用政策。

使用GPT-4作为生成攻击的助手，首先对每个有害类别采样1个误用指令。然后，使用这个助手在两个步骤中自动生成每条指令的越狱提示。

先是对5个不同的符合误用指令的角色进行抽样。其次，为每个角色生成3个角色调节提示。

通过这两个步骤，作者为每条误用指令生成了15个角色调节提示，用来评估目标模型在角色调节攻击面前的脆弱程度。

在GPT-4和Vicuna中，角色调节提示被用作系统提示。Claude 2不支持系统提示，因此将其作为用户输入。

研究人员对每个模型中使用角色调节的每个误用指令的3个完成进行了采样（见表1中的模板）。作为基线，作者还对不使用角色调节的每个误用指令进行了20次完成抽样。

每个类别有5个角色，每个角色有3个角色调节提示，每个角色调节提示有3个完成，研究人员在所有43个类别中获得了1,935个完成（每个类别45个）。

这些过程完成后成本不到3美元，而且只需不到10分钟就可以为一个有害类别生成45个角色调节完成任务。

为了自动评估每次完成是否按照了预期方式，研究人员使用GPT-4作为零样本PICT分类器。只考虑目标模型在误用指令后输出的第一条信息进行评估。

他们手动标注了300个随机选取的完成信息，以评估 PICT 的准确性。

PICT针对人类基本事实获得了91%的精确度和76%的F1分数。

实验结果

在角色调节下，被归类为有害的GPT-4对话增加了185倍。

首先，研究人员评估在GPT-4上自动角色调节的有效性，用于取样攻击提示的模型。

研究人员获得了42.48%的总体有害完成率，这是185倍以上的基线有害完成率0.23% （↑42.25%）获得没有调节。表2包含了GPT-4中有害完成的示例。

同样，这一结果可靠地转移到Claude 2和Vicuna。

接下来，研究人员使用同样的提示——使用GPT-4创建——来越狱Claude 2和Vicuna-33B。

Claude和Vicuna的有害完成率分别为35.92% （↑35.69%）和61.03% （↑59.63%）。

每个类别被归类为有害的完成的百分比

半自动「角色调节」

半自动角色调节，可以更强利用漏洞。

在自动工作流程的每个阶段都引入一个攻击者，它可以调整输出结果，并在调节后与模型聊天，这几乎可以为所有误用指令引出有害的完成。

研究人员将这种组合方法，称为半自动角色调节攻击。

在图3中，作者展示了使用半自动角色调节完成有害指令的具体示例：

总得来说，这些越狱更是说明了当前大模型弱点，还需进一步提升对齐能力。

参考资料：https://twitter.com/GaryMarcus/status/1721998935139479659

2023 年 12 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

GPT-4合成冰毒！「角色调节」让大模型轻松越狱，成功率暴涨40%，成本不到14元，马库斯转赞

新智元报道

【新智元导读】让大模型洗钱、制造炸弹、合成冰毒？GPT-4、 Claude 2纷纷沦陷了。

test

test

文心AIGC

test

test