LLM掌握左右互搏技能后，基础模型或面临群体进化的挑战

　　发布于2024-10-30　阅读（0）

扫一扫，手机访问

金庸武侠小说中有一门武学绝技：左右互搏；乃是周伯通在桃花岛的地洞里苦练十余年所创武功，初期想法在于左手与右手打架，以自娱自乐。而这种想法不仅能用来练武功，也能用来训练机器学习模型，比如前些年风靡一时的生成对抗网络（GAN）。

进入现今的大模型（LLM）时代，研究者发现了左右互搏的精妙用法。最近，加利福尼亚大学洛杉矶分校的顾全全团队提出了一种名为SPIN（Self-Play Fine-Tuning）的新方法。这种方法能够在不使用额外的微调数据的情况下，仅通过自我博弈来大幅提升LLM的能力。顾全全教授表示：“授之以鱼不如授之以渔：通过自我博弈微调（SPIN）可以使所有大模型从弱到强得到提升！”

当LLM学会左右互搏，基础模型或将迎来集体进化

这项研究也在社交网络引起了不少讨论，比如宾夕法尼亚大学沃顿商学院的 Ethan Mollick 教授就表示：「更多证据表明，AI 不会受限于可供其训练的人类创造内容的数量。这篇论文再次表明使用 AI 创造的数据训练 AI 可以比仅使用人类创造的数据获得更高质量的结果。」

当LLM学会左右互搏，基础模型或将迎来集体进化

此外，还有许多研究人员对这一方法感到兴奋，并对 2024 年在相关方向的进展表现出极大期待。顾全全教授向机器之心表示：「如果你希望训练一个超越 GPT-4 的大模型，这是一项绝对值得尝试的技术。」

当LLM学会左右互搏，基础模型或将迎来集体进化

论文地址为https://arxiv.org/pdf/2401.01335.pdf。

大型语言模型（LLM）开启了通用人工智能（AGI）的大突破时代，它能以非凡的能力解决需要复杂推理和专业知识的广泛任务。LLM 擅长的领域包括数学推理 / 问题求解、代码生成 / 编程、文本生成、摘要和创意写作等等。

LLM 的一大关键进步是训练之后的对齐过程，这能让模型的行为更符合需求，但这个过程却往往依赖于成本高昂的人类标注数据。经典的对齐方法包括基于人类演示的监督式微调（SFT）和基于人类偏好反馈的强化学习（RLHF）。

而这些对齐方法全都需要大量人类标注数据。因此，为了精简对齐过程，研究人员希望开发出能有效利用人类数据的微调方法。

这也是这项研究的目标：开发出新的微调方法，使得微调后的模型可以继续变强，而且这个微调过程无需使用微调数据集之外的人类标注数据。

实际上，机器学习社区一直都很关注如何在不使用额外训练数据的情况下将弱模型提升成强模型，这方面的研究甚至可以追溯至 boosting 算法。也有研究表明，自训练算法可以在混合模型中将弱学习器转换成强学习器，而无需额外的标注数据。但是，要在没有外部引导的前提下自动提升 LLM 的能力既复杂又少有研究。这就引出了以下问题：

我们能让 LLM 在没有额外人类标注数据的前提下实现自我提升吗？

方法

从技术细节上讲，我们可以将来自之前迭代的 LLM 记为 pθt，其对于人类标注的 SFT 数据集中的 prompt x，可以生成响应 y'。接下来的目标是找到一个新的 LLM pθ{t+1}，使其有能力区分 pθt 生成的响应 y' 和人类给出的响应 y。

这个过程可被看作是一个两个玩家的博弈过程：主玩家就是新 LLM pθ{t+1}，其目标是区分对手玩家 pθt 的响应以及人类生成的响应；对手玩家就是旧 LLM pθt，其任务是生成与人类标注的 SFT 数据集尽可能相近的响应。

新 LLM pθ{t+1} 是通过微调旧 LLM pθt 得到的，训练过程是让新的 LLM pθ{t+1} 有很好的能力区分 pθt 生成的响应 y' 和人类给出的响应 y。而这个训练不仅让新的 LLM pθ{t+1} 作为一个主玩家达到很好的区分能力，而且让新的 LLM pθ{t+1} 作为一个对手玩家在下一轮迭代中，给出更对齐 SFT 数据集的响应。在下一轮迭代中，新获得的 LLM pθ{t+1} 会变成响应生成的对手玩家。

当LLM学会左右互搏，基础模型或将迎来集体进化

这个自我博弈的过程的目标是让 LLM 最终收敛到 pθ∗=p_data，使得可能存在的最强大的 LLM 生成的响应不再与其之前版本和人类生成的响应不同。

有趣的是，这个新方法与 Rafailov et al. 近期提出的直接偏好优化（DPO）方法表现出了相似性，但新方法的明显区别是采用了自我博弈机制。也因此，这个新方法就有了一大显著优势：无需额外的人类偏好数据。

此外，我们也能明显看出这种新方法与生成对抗网络（GAN）的相似性，只不过新方法中的判别器（主玩家）和生成器（对手）是同一个 LLM 在相邻两次迭代后的实例。

该团队还对这个新方法进行了理论证明，结果表明：当且仅当 LLM 的分布等于目标数据分布时，即 p_θ_t=p_data 时，该方法可以收敛。

实验

在实验中，该团队使用了一个基于 Mistral-7B 微调后的 LLM 实例 zephyr-7b-sft-full。

结果表明，新方法能在连续迭代中持续提升 zephyr-7b-sft-full，而作为对比，当在 SFT 数据集 Ultrachat200k 上使用 SFT 方法持续训练时，评估分数则会达到性能瓶颈，甚至出现下降情况。

更有趣的是，新方法使用的数据集只是 Ultrachat200k 数据集的一个 50k 大小的子集！

新方法 SPIN 还有另一项成就：可有效地将 HuggingFace Open LLM 排行榜中基础模型 zephyr-7b-sft-full 的平均分数从 58.14 提升至 63.16，其中在 GSM8k 和 TruthfulQA 上能有超过 10% 的惊人提升，在 MT-Bench 上也可从 5.94 提升至 6.78。

当LLM学会左右互搏，基础模型或将迎来集体进化

值得注意的是，在 Open LLM 排行榜上，使用 SPIN 微调的模型甚至能与再使用额外 62k 偏好数据集训练的模型媲美。

当LLM学会左右互搏，基础模型或将迎来集体进化

结论

通过充分利用人类标注数据，SPIN 让大模型靠自我博弈从弱变强。与基于人类偏好反馈的强化学习（RLHF）相比，SPIN 使 LLM 能够在没有额外人类反馈或者更强的 LLM 反馈的情况下自我改进。在包含 HuggingFace Open LLM 排行榜的多个基准数据集实验上，SPIN 显著且稳定地提高了 LLM 的性能，甚至超过了使用额外 AI 反馈训练的模型。

我们期待 SPIN 可以助力大模型的进化和提升，并最终实现超越人类水平的人工智能。

本文转载于：https://www.51cto.com/article/778696.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：暴雪、网易“修复关系”？消息称双方恢复合作，《魔兽世界》国服有望重启

下一篇：深度解析Eclipse中配置Tomcat的步骤

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

充电宝租借自律公约：深圳领先推出，7 家企业共同承诺提供至少 5 分钟的免费使用时间

本站3月12日消息，3月11日，深圳市消委会发布深圳市共享充电宝行业自律公约，对深圳市共享充电宝行业计价时间进行了统一与细化，要求商家承诺，充电宝租借免费时长不少于5分钟；租借的计价时间单位不超过半小时；因所在地难以及时归还充电宝时，企业核实后可暂停计费等内容。本站附完整内容如下：一、明示收费规则：在机身或和租借页面明确公示收费规则包括免费时长、计费标准、封顶价、押金。二、增加免费时长：充电宝租借免费时长不少于5分钟。三、细化计价单位：充电宝租借的计价时间单位不超过半小时。四、保持充电宝高电量出借：低于5

刚刚共享充电宝 0
正版软件

罕见4GB首批iPhone亮相拍卖，10000美元起拍价吸引关注

3月12日消息，自2007年苹果推出第一代iPhone以来，这款设备不仅在全球范围内引领了科技革命，如今更是成为收藏家们追逐的珍品。最近，一台未拆封的初代iPhone在拍卖平台LCGAuctions上亮相，起拍价高达10000美元，拍卖活动将持续两周时间。这台罕见的4GB版本初代iPhone，有望打破去年7月另一台同版本设备以19万美元成交的纪录。据了解，当初苹果发布初代iPhone时，曾同时推出4GB和8GB两个版本。然而，由于8GB版本受到了广大消费者的热烈欢迎，而4GB版本则相对遇冷，很快便停产。这

5分钟前苹果 0
正版软件

"中消协推出升级版的“查验宝”，提供免费查询76个主要名表品牌和1138家维修店的信息"

中国消费者协会主办的“企业服务联系方式查验宝”近日进行了数据更新升级，得到了中国商业企业管理协会的支持。这一举措旨在提升企业服务的质量，为消费者提供更加可靠的服务联系方式。此次升级后，消费者可以在“查验宝”“中消协帮您查”小程序上查到占手表零售总额90%以上的76个主要名表品牌以及主要名表维修商在中国大陆地区的客服联系方式，以及1138家品牌商、经销商、维修商官方授权名表维修店的具体名称、logo、地址、联系电话和服务时间等信息。据了解，“查验宝”是中国消费者协会“慧眼计划”中的一项具体举措，旨在加强消费

15分钟前中消协查验宝 0
正版软件

保时捷发布新款Taycan，上海首发，动力和操控性能得到全面提升，即将开启预售

保时捷最新款Taycan电动跑车已经在上海保时捷体验中心正式亮相。此次全球同步首发的Taycan将推出7款车型，其中包括Turbo、TurboGT以及TurboCrossTurismo等。预计这些新车将在4月中旬开始接受预订。这一备受瞩目的新车型引入国内市场，必将吸引众多消费者的关注。新款Taycan在外观设计上延续了保时捷的经典元素，并未做出颠覆性的改变。然而，在动力和操控性能上，这款新车却有着显著的提升。它提供了四款动力配置，全系采用800V高压架构，并搭载了两速变速器。动力起步为320kW，百公里加

30分钟前保时捷 0
正版软件

谷歌计划在Pixel 9上首次推出超灵敏触控技术

3月12日消息指出，诺基亚在Lumia时代曾推出名为“超灵敏触控”的创新功能，旨在让用户在下雨天或戴手套时依然能轻松操作手机。最新消息显示，外媒AndroidAuthority在研究谷歌最新发布的安卓14PQ3Beta1版本时，意外发现谷歌正在为安卓系统添加类似“超灵敏触控”功能。这一发现让人感到惊喜，因为这将为用户带来更便捷的手机操作体验。▲图源外媒AndroidAuthority据了解，尽管目前这项功能还未完全实装，但在安卓14的设置菜单中，“触摸灵敏度”选项下已经出现了相关的半成品代码。这显示出谷歌

45分钟前谷歌 0

LLM掌握左右互搏技能后，基础模型或面临群体进化的挑战

方法

实验

结论

产品推荐

最新发布

相关推荐

热门关注