北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

　　发布于2023-11-01　阅读（0）

扫一扫，手机访问

北大团队的最新研究结果表明：

随机token都能诱发大模型出现幻觉！

举例来说，如果给予大模型（Vicuna-7B）一段“乱码”，它会莫名其妙地错误理解历史常识

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

即使做出一些简单的修改提示，大型模型也可能陷入陷阱

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

这些热门的大型模型，如Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat和Vicuna-7B，都会遇到类似的情况

这意味着，随机字符串能够操控大模型输出任意内容，为幻觉“代言”。

以上发现来自北大袁粒老师课题组的最新研究。

该研究提出：

大模型的幻觉现象极有可能是对抗样本的另一种视角。

论文在展示两种容易诱发大模型幻觉方法的同时，还提出了简单有效的防御办法，代码已开源。

两种极端模式攻击大模型

研究提出了两种幻觉攻击方法：

随机噪声攻击（OoD 攻击）是一种常见的机器学习模型攻击方式。在这种攻击中，攻击者会向模型输入一些在训练数据中不常见的随机噪声。这种噪声可以干扰模型的判断能力，导致其在处理来自真实世界的数据时出现错误的预测。随机噪声攻击是一种隐蔽的攻击方式，因为它使用了与正常数据相似的特征，很难被模型所察觉。为了抵御这种攻击，需要采用一些有效的异常检测方法来识别并过滤掉这些随机噪声即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。
弱语义攻击（Weak Semantic Attack）指的是一种在网络上常见的攻击方式。这种攻击方法通常通过诱导用户在不知情的情况下提供个人信息或执行恶意操作来实施。与其他更直接的攻击方式相比，弱语义攻击更加隐蔽，往往会利用社交工程和欺骗手段来误导用户。网络用户应该保持警惕，避免受到弱语义攻击的影响即保证原始 prompt 语义基本不变的情况下，使得大模型产生截然不同的幻觉输出。

随机噪声攻击（OoD Attack）：

以下是在开源大模型上进行的一些实验结果，更多的结果可以在论文或开源GitHub中找到

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

弱语义攻击（Weak Semantic Attack）：

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

论文介绍了幻觉攻击方法：

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

根据图示，幻觉攻击的构成包括以下三个部分：幻觉数据集的构建、弱语义攻击和OoD攻击

首先是幻觉数据集构建。

作者通过收集一些常见问题x，并将它们输入到大型模型中，得到了正确的答案y

接着替换句子的主谓宾去构造一个不存在的事实北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招，其中T是包含所有符合事实的集合。

最终可以获得构建幻觉数据集的结果：

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

然后是弱语义攻击部分。

先采样一条不符合事实的QA pair 北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招，未来稳定的出发幻觉，作者希望找到一条对抗提示来最大化对数似然。

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

其中北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招是大模型的参数，是输入空间。

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招是由l个token构成。

然而，由于语言是非连续的，没办法直接类似于图像领域的对抗攻击那样直接对x进行优化。

受启发于一篇2019年的研究（Universal Adversarial Triggers for Attacking and Analyzing NLP），研究团队基于梯度的token替换策略来间接的最大化该对数似然。

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

其中，北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招为对抗token的embedding，是一个语义提取器。

简单来看这个式子，在语义约束下，找到那些使得似然梯度变化最大的token并进行替换，最终在保证得到的对抗提示北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招和原提示x语义上不相差太多的情况下，诱导模型输出预定义的幻觉。

在本文中，为了简化优化过程，将约束项改为北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招来代替。

最后一部分是OoD攻击

在OoD攻击中，我们从一条完全随机的字符串北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招出发，在没有任何语义约束下，最大化上述对数似然即可。

在论文中还详细阐述了幻觉攻击对不同模型、不同模式的攻击成功率

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

对增加提示长度以提高攻击成功率进行了深入探讨（翻倍）

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

研究团队最终提出了一个简单的防御策略，即通过利用第一个token预测的熵来拒绝响应

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

该研究来自北京大学深圳研究生院/信息工程学院袁粒老师团队。

论文链接：https://arxiv.org/pdf/2310.01469.pdf

GitHub地址：https://github.com/PKU-YuanGroup/Hallucination-Attack

知乎原帖

需要改写的内容是：https://zhuanlan.zhihu.com/p/661444210？

本文转载于：https://www.51cto.com/article/771390.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：详谈win7开机启动项怎么设置的方法

下一篇：AI汽车机器人极越01在光谷马拉松亮相，为体育赛事注入科技动力

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

动视暴雪与美国加州民权部就性别歧视诉讼达成和解，需支付超 5000 万美元

根据华尔街日报的报道，美国加州民权部（之前是公平就业和住房部）在2021年曾指控动视暴雪存在广泛的性别歧视和薪酬不平等问题。然而，在当地时间周五(15日)，双方达成了一项价值约5400万美元的和解协议（约合3.84亿元人民币）美国加州民权部表示，根据仍需法院批准的和解协议，动视暴雪将采取更多措施确保公司的薪酬和晋升做法公平，并为2015年10月12日至2020年12月31日期间在当地担任员工或合同工的女性提供补偿。若法院批准和解协议，动视暴雪将支付约5487.5万美元用于直接向工人提供救济、诉讼费用，其中

18小时前 17:30 动视暴雪 0
正版软件

开放原子、华为、腾讯等共同发布开源漏洞共享平台及安全奖励计划

本站12月16日消息，据开放原子公众号消息，在2023开放原子开发者大会开幕式上，开源漏洞共享平台及安全奖励计划正式发布。开放原子开源基金会秘书长冯冠霖、开源安全委员会副主席任旭东、开源漏洞信息共享项目工作委员会主席卢列文，以及来自阿里云、百度、工信部电子五所、华为、京东科技、蚂蚁集团、奇安信、清华大学、深信服、腾讯、统信软件、浙江大学、中国科学院软件所等单位代表共同发布。据了解，开源漏洞共享平台聚焦基金会所孵化开源项目及其所依赖上游项目的漏洞处置，通过引多方参与、全周期覆盖、促高效处置等方式，专注于开源

昨天 09-18 19:00 华为腾讯开放原子 0
正版软件

俞敏洪发致歉信：被东方甄选拉黑的网友已全部解除

本站12月16日消息，俞敏洪通过东方甄选账号在抖音发布致歉信，称由于网络舆情问题，东方甄选直播间用不恰当的方式，屏蔽拉黑了一些提意见和建议的网友朋友，这是极其不恰当的做法，现已全部解除。需进行改写的内容是：本站附原文近期，由于网络舆情问题，东方甄选直播间以不适当的方式屏蔽了一些提出意见和建议的网友。这种做法是非常不恰当的。我已经对此错误进行了严厉批评，并向广大网友道歉被拉黑的网友朋友已经被全部解除，欢迎你们继续对东方甄选的发展提出建设性的意见和批评！相信我们会把东方甄选建设得更好!感谢大家的包容和支持。重

前天 09-17 18:55 直播带货东方甄选 0
正版软件

汤晓鸥先生，浦江实验室和上海人工智能实验室的主任，离世了

需要进行重写的内容是：哀悼公告著名的计算机科学家、浦江实验室主任、上海人工智能实验室主任、香港中文大学教授汤晓鸥先生因病救治无效，于2023年12月15日23时45分在上海逝世，终年55岁。汤晓鸥先生学识渊博、治学严谨、求真务实、开拓创新，他甘为人梯、奖掖后学、矢志创新、勇担重任，富有家国情怀和战略眼光，把全部精力奉献于计算机科学研究，积极推动原创技术发展，为我国人工智能领域科技事业发展做出了卓越贡献。汤晓鸥先生英年早逝，全体员工和师生万分悲痛，将举行悼念活动，时间地点另行通知。特此沉痛需要进行重写的内容

4天前产业 0
正版软件

华为5纳米家族迎来麒麟9006C，新力量加入

华为发布了搭载最新5纳米制程芯片的擎云L540笔记本，在本月初引起了广泛的讨论，甚至让国外媒体感到十分吃惊据小编了解，事实上，两年前，华为已经推出了首款5纳米制程芯片，即麒麟9006C处理器，它是麒麟9000家族的一部分。麒麟9006C是全球首款5纳米5G芯片，而且拥有内置晶体管数量达153亿个的壮丽纪录。麒麟9000家族包括多个版本，如麒麟9000、麒麟9000E和麒麟9000L。麒麟9006C是麒麟9000家族的一部分，它采用了5纳米工艺，具备八核心处理器，主频高达3.13GHz。处理器架构包括一个3

5天前麒麟 0

北大团队：诱导大模型“幻觉”只需一串乱码！大小羊驼全中招

两种极端模式攻击大模型

产品推荐

最新发布

相关推荐

热门关注