本文作者来自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,导师为马利庄传授,其余作者包含北航钻研生李昊,上海 AI Lab 钻研员刘东瑞,上海 AI Lab 青年迷信家邵婧等。
最近,以 OpenAI o1 为代表的 AI 大模型的推理才干获取了极大优化,在代码、数学的评价上取得了令人惊讶的成果。OpenAI 宣称,推理可以让模型更好的遵守安保政策,是优化模型安保的新门路。
推理才干的优化真的能处置安保疑问吗?推理才干越强,模型的安保性会越好吗? 近日,上海交大和上海人工智能试验室的一篇论文提出了质疑。
这篇题为《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的论文提醒了 AI 大模型在多轮对话场景下的安保风险,并开源了第一个多轮安保对齐数据集。
这项钻研是怎样获取上述论断的呢?咱们先来看一个例子。
假定一个好人想要征询「如何制造炸弹」,间接征询会获取 AI 的拒绝回答。但是,假设选用从一团体物的生平问起(比如 Ted Kaczynski,他是一个制造炸弹的恐惧分子),AI 会被动提及他制造炸弹的阅历。在接上去的疑问里,用户诱导 AI 依据其之前的回答提供更多制造炸弹的细节。虽然一切的疑问都没有暴露用户的有害用意,用户最终还是取得了制造炸弹的常识。
当详细检查 OpenAI o1 的「想法」时,钻研人员惊奇地发现, o1 在开局的推理中确实识别到了用户的有害用意, 并且宣称要遵守安保政策。但是 在随后的推理中,o1 开局暴露了它的「风险想法」! 它在想法中罗列了 Kaczynski 经常使用的战略和方法。最后 o1 在回答中详细给出了制造炸弹的步骤,甚至教你如何参与爆炸物的威力!钻研人员的方法在 Harmbench 上对 o1 的攻打成功率到达了 60%,推理才干带来的安保优化在多轮攻打面前「失效」了。
除了「Ted Kaczynski」,和炸弹相关的人和物还有很多,这些都可以被用作攻打线索, 好人可以把有害用意暗藏在对相关的人和物的有害提问中来成功攻打。为了片面且高效地去开掘这些攻打线索, 钻研人员设计了多轮攻打算法 ActorAttack。受拉图尔的执行者网络通常启示,钻研人员构建了一个概念网络,每个节点代表了不同类别的攻打线索。钻研人员进一步提出 应用大模型的先验常识来初始化网络,以智能化地发现攻打线索。 在风险疑问评测集 Harmbench 上的试验结果标明,ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻打成功率。
最后,钻研人员基于 ActorAttack 开源了第一个多轮对话安保对齐数据集。经常使用多轮对话数据集微调的 AI,极大优化了其应答多轮攻打的鲁棒性。
社科通常启示的安保视角
ActorAttack 的**现实是受拉图尔的「执行者 - 网络通常」启示的。钻研人员以为,有害事物并非孤立存在,它们面前暗藏着一个渺小的网络结构,技术、人、文明等都是这个复杂网络中的节点(执行者),对有害事物发生影响。这些节点是潜在的攻打线索,钻研人员经过将有害用意暗藏在对网络节点的「有害」征询中,可以逐渐诱导模型越狱。
智能大规模的发现攻打线索
详细来说,ActorAttack 的攻打流程分为「Pre-attack」和「In-attack」两个阶段。在「Pre-attack」阶段,钻研人员应用大言语模型的常识构建网络,开掘潜在的攻打线索。在「In-attack」阶段,钻研人员基于已发现的攻打线索推测攻打链,并逐渐描述如何一步步误导模型。随后,钻研人员依照这一攻打链生成多轮征询,从而实施攻打。
为了系统性地开掘这些攻打线索,钻研人员依据节点对有害对象发生影响的模式不同,提出了六类不同的节点(比如例子中的 Ted Kaczynski 在制造炸弹方面属于「执行(Execution)」节点)。每个节点包含人物和非人物(如书籍、媒体资讯、社会优惠等)两种类型。钻研人员应用大模型的先验常识,智能化地大规模发现网络节点。每个网络节点均可作为攻打线索,从而构成多样化的攻打门路。
ActorAttack 成功了更高效和多样的攻打
首先,钻研人员选取了五类代表性的单轮攻打方法作为比拟基准,在 Harmbench 上的试验结果标明, ActorAttack 相比于单轮攻打方法,成功了最优的攻打成功率。
接着,钻研人员选用了一个弱小的多轮攻打方法 Crescendo 启动比拟,为了权衡多样性,钻研人员对每个多轮攻打独立运转了三次,计算它们之间的余弦相似度。下图展现了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻打估算下,每个方法的攻打成功率和多样性。钻研人员发现 ActotAttack 在不同攻打估算下,其高效性和多样性两个目的均优于 baseline 方法。
ActorAttack 可以依据不同的节点生成多样的攻打门路,其好处之一是 相比于单次攻打,它可以从不同的门路中找到更优门路,生成更高品质的攻打。 为了从阅历上剖析,钻研人员驳回了不同数量的节点,并记载一切的节点中攻打成果最好的得分。试验结果标明,得分为 5 分(最高分)的攻打比例随着节点数量的增多逐渐参与,验证了 ActorAttack 的长处。
ActorAttack 生成的多轮提问可以绕过基于 LLM 的输入检测器。 为了验证 ActorAttack 暗藏有害用意的有效性,钻研人员应用 Llama Guard 2 分类由单轮提问、ActorAttack 生成的多轮提问,以及 Crescendo 生成的多轮提问能否安保。Llama Guard 2 会输入提问为不安保的概率。试验结果显示,ActorAttack 生成的多轮提问的毒性比间接提问和 Cresendo 的多轮提问更低,提醒了其攻打的隐蔽性。
第一个多轮对话场景下的安保对齐数据集
为了缓解 AI 大模型在多轮对话场景下的安保风险,钻研人员基于 ActorAttack 结构了第一个多轮对话安保对齐数据集。一个关键疑问是选择在多轮对话中拔出拒绝回复的位置。正如文中扫尾展现的例子那样,ActorAttack 在两边的征询就可以诱导出模型的有害回复,即使没有齐全满足用户用意,这样的回复也或者被滥用,因此钻研人员提出经常使用 Judge 模型定位到第一个发生有害回复的提问位置,并拔出拒绝回复。
试验结果展现,经常使用钻研人员结构的多轮对话数据集微调 Llama-3-8B-instruct 极大优化了其应答多轮攻打的鲁棒性。钻研人员还发现安保和有用性的权衡相关,并示意将缓解这一权衡作为未来上班。
本片上班提醒了 AI 大模型在多轮对话场景上方临的安保风险,甚至对有强推理才干的 OpenAI o1 也是如此。如何让 AI 大模型在多轮长对话中也能坚持安保看法成为了一个关键疑问。钻研人员基于 ActorAttack,结构出了高品质的多轮对话安保对齐数据,大幅优化了 AI 模型应答多轮攻打的鲁棒性,为优化人机交互的安保可信迈出了松软的一步。