大模型新漏洞！Anthropic警告：新式“多轮越狱”攻破AI防线，或祸起长文本

　　发布于2024-12-28　阅读（0）

扫一扫，手机访问

撰稿丨诺亚

如何让一个AI回答一个它本不应该作答的问题？

有很多这种所谓的“越狱”技术，而Anthropic的研究人员最近发现了一种新方法：如果首先用几十个危害性较小的问题对大型语言模型（LLM）进行预热，就能诱使其告诉你如何制造爆弹。这种方法的关键在于对模型进行逐渐引导，从简单的问题开始，逐渐升级到更复杂的问题。通过这种方式，模型在逐步学习和适应的过程中，可以产生一系列有关制造爆炸的提示和指导。虽然这种技术有一定的潜在危

他们称这种方法为“多轮越狱”，不仅涉及相关论文，还将其告知了人工智能领域的同行们，以便能够采取措施来减轻这一风险。

1.长文本越卷越离谱，不料却成“祸端”

这个新的漏洞是由于最新一代LLM的“上下文窗口”增大而产生的。上下文窗口是指模型可存储的数据量，以前只能存储几句话，而现在则能容纳数千词甚至整本书的内容。

Anthropic的研究团队发现，具有较大上下文窗口的模型在提示中包含大量该任务示例时，它们的表现往往会更好。

因此，如果在提示中有大量的小知识问题（或引导文件，如模型上下文中包含的一长串小知识列表），模型给出的答案实际上会随着时间的推移而变得更准确。所以，如果是一个事实问题，原本第一个问题，模型可能会回答错误，但如果是第一百个问题，它可能会回答正确。

然而，在这种被称为“上下文学习”的意想不到的扩展中，这些模型在回答不适当的问题方面也变得更“好”。如果你一开始就要求它制造炸弹，它会拒绝。但如果先让它回答99个危害性较小的问题，然后再提出制造炸弹的要求……这时模型更有可能服从指令。

大模型新漏洞！Anthropic警告：新式“多轮越狱”攻破AI防线，或祸起长文本图片

2.限制上下文窗口有效果，但效果不大

为什么这种方法奏效呢？

没有人真正理解在大模型内部错综复杂的权重网络中发生了什么，但显然存在某种机制，使其能够准确把握用户的需求，这一点从上下文窗口中的内容就可以得到证明。

如果用户想要小知识信息，那么当你提出几十个问题时，它似乎会逐渐激活更多的潜在小知识的处理能力。出于某种原因，当用户提出几十个不适当的问题时，同样的情况也会发生。

Anthropic团队已经将这一攻击方式告知了同行甚至是竞争对手，希望促进一种文化氛围的养成，即在LLM供应商和研究人员之间公开共享此类漏洞的习惯。

为了缓解这一问题，他们发现，尽管限制上下文窗口有助于改善这一状况，但这同时也对模型的性能产生负面影响。这显然是不可取的，因此他们致力于在将问题输入模型之前对其进行分类和情境化处理。当然，这样一来，可能导致出现需要绕过的新型防御机制，但在AI安全性持续发展的阶段，这种动态变化是预期之内的。

3.结语：尽管不紧迫，但仍要早做准备

自月之暗面宣布Kimi启动200万字内测的动作后，点燃了长文本赛道新一轮“内卷”的热情。去年还在拼参数，今年又拼起了长文本，大模型的竞技永远焦灼。但在AI发展势不可挡的同时，也需要更多人意识到AI安全研究的重要性。

毕竟大模型是黑盒子，如何训练强大的AI系统以使其稳健地具备有用性、诚实性和无害性，尚且是个未解之谜。AI的快速进步带来技术颠覆的同时也可能导致灾难性后果，因为AI系统可能战略性地追求危险的目标，或者在高风险情境中犯下更多无心之过。

早在去年3月，Anthropic官网就发布了《AI安全的核心观点》一文，系统阐述了Anthropic面向未来的AI安全策略。文中审慎地提到：

“我们想明确表示，我们不认为当今可用的系统会造成迫在眉睫的问题。然而，如果开发出更强大的系统，现在就做基础工作以帮助降低高级AI带来的风险是明智的。事实可能证明，创建安全的AI系统很容易，但我们认为为不太乐观的情况做好准备至关重要。”

参考链接：

https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/

https://zhuanlan.zhihu.com/p/626097959

本文转载于：https://www.51cto.com/article/785383.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：京东“京享值”体系 4 月 16 日升级为“会员等级”

下一篇：苹果6plus中打开放大器的简单操作

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

uni币可以长期持有吗

对于UNI币是否可以长期持有，业界尚未达成共识。其价值受DeFi生态发展、Uniswap市场份额、治理参与度、通胀风险、监管环境及竞争对手影响。投资者应权衡这些因素，根据自身目标和风险承受能力审慎决策。

10分钟前 0
正版软件

希捷首款PCIe 5.0硬盘开卖：速度10GB/s，性能强劲

6月25日消息，据了解，希捷(Seagate)公司近日推出了备受关注的PCIe5.0硬盘FireCuda540系列。该系列硬盘以其卓越的性能和高容量而备受瞩目。虽然FireCuda540系列尚未正式发布，但英国亚马逊等电商已经提前上架该系列的部分型号。FireCuda540系列采用了最新的PCIe5.0x4接口和M.22280规格，具备出色的读写速度，高达10GB/s，最高可容纳4TB的数据。这款系列硬盘采用了先进的3DTLC闪存技术，保证了其持久性能和可靠性。据小编了解，FireCuda540系列分为1

20分钟前希捷 0
正版软件

etc币总量多少枚

ETC币的总发行量为2.107亿枚。ETC是基于以太坊区块链的分叉币，诞生于2016年硬分叉事件，保留了原始区块链的技术状态，总发行量包括初始流通供应量和后续区块奖励减半后的发行。

35分钟前 0
正版软件

怎么知道莱特币钱包地址

通过选择并设置莱特币钱包，您可以获取一个莱特币地址，它是接收和发送莱特币的字母数字组合。不同类型的钱包有不同的方式来获取地址，例如在硬件钱包上显示、在软件钱包中提供或在线钱包中列出。

50分钟前 0
正版软件

加密市场一周综述：BTC迎来第四次减半，符文生态引关注

A.市场观点一、宏观流动性货币流动性改善。美国3月零售数据超预期，鲍威尔鹰派讲话再挫降息预期。点阵图显示，美联储预计今年将进行三次各25个基点的降息，但投资者现在预计只会降息一到两次。而今年1月，他们曾预计会降息6次。中东局势风险有所缓解。美元指数半年新高，美股大跌。加密市场跟随美股调整。二、全市场行情市值排名前100涨幅榜：本周BTC弱势下跌，BTC统治率上涨到4年以来新高。山寨汇率开始不跟BTC。市场热点围绕BTC符文生态和足球粉丝币。符文协议将在周末减半区块上线，建议提前做好钱包准备打符文。符文和铭

1小时前 14:00 0