思考改进中的咒语胜过「让我们一步一步思考」

　　发布于2024-11-02　阅读（0）

扫一扫，手机访问

大语言模型可以通过元提示执行自动提示工程，但由于缺乏足够的指导以引导大语言模型中的复杂推理能力，它们的潜力可能没有完全发挥。那么该如何指导大语言模型进行自动提示工程？

大型语言模型（LLM）是自然语言处理任务中强大的工具，但要找到最优提示往往需要大量的手动尝试和试错。由于模型的敏感性，即使在部署到生产环境后，仍可能遇到意想不到的边缘情况，需要进一步的手动调整来改善提示。因此，尽管LLM具有巨大的潜力，但在实际应用中仍需要人工干预以优化其性能。

这些挑战催生了自动提示工程的新兴研究领域。在这一领域内，一种显著的方法是通过利用LLM的自身能力来实现。具体而言，这涉及使用指令来对LLM进行元提示，比如"检查当前提示和示例批次，然后生成一个新的提示"。

虽然这些方法取得了令人印象深刻的性能，但随之而来的问题是：什么样的元提示适用于自动提示工程？

为了回答这个问题，南加州大学和微软的研究者发现了两个关键观察。首先，提示工程本身就是一个复杂的语言任务，需要进行深层的推理。这意味着需要仔细检查模型的错误，判断当前提示中是否缺少或误导了某些信息，并找到更清晰地传达任务的方法。其次，在LLM中，通过引导模型逐步思考，可以激发出复杂的推理能力。通过指导模型反思其输出，我们还能进一步提高这种能力。这些观察结果为解决这个问题提供了有价值的线索。

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

论文地址：https://arxiv.org/pdf/2311.05661.pdf

通过前面的观察，研究者进行了微调工程，旨在建立一个元提示，为LLM更有效地执行提示工程提供指导（见下图2）。通过反思现有方法的限制，并结合复杂推理提示的最新进展，他们引入了元提示组件，如逐步推理模板和上下文规范，明确指导LLM在提示工程中的推理过程。

此外，由于提示工程与优化问题密切相关，我们可以从常见的优化概念中借鉴一些灵感，例如批处理大小、步长和动量，并将它们引入到元提示中以进行改进。我们在MultiArith和GSM8K这两个数学推理数据集上对这些组件和变体进行了实验，并确定了一个表现最佳的组合，我们将其命名为PE2。

PE2在实证性能方面取得了显著的进展。当使用TEXT-DAVINCI-003作为任务模型时，PE2生成的提示在MultiArith上比零-shot思维链的一步一步思考提示提高了6.3％，在GSM8K上提高了3.1％。此外，PE2在性能上胜过了两个自动提示工程的基线，即迭代APE和APO（见图1）。

值得注意的是，PE2 在反事实任务上的表现最为有效。此外，该研究还证明了 PE2 在优化冗长、现实世界提示上具有广泛的适用性。

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

在审查 PE2 的提示编辑历史时，研究者发现 PE2 始终提供有意义的提示编辑。它能够修正错误或不完整的提示，并通过添加额外的细节使提示更加丰富，从而促成最终性能的提升 (表 4 所示)。

有趣的是，当 PE2 不知道在八进制中进行加法运算时，它会从示例中制定自己的算术规则：「如果两个数字都小于 50，则将 2 添加到总和中。如果其中一个数字是 50 或更大，则将 22 添加到总和中。」尽管这是一个不完美的简便解决方案，但它展示了 PE2 在反事实情境中进行推理的非凡能力。

尽管取得了这些成就，研究者也认识到了 PE2 的局限性和失败案例。PE2 也会受到 LLM 固有限制的影响和限制，比如忽视给定的指令和产生错误的合理性 (下表 5 所示)。

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

背景知识

提示工程

提示工程的目标是在使用给定的 LLM M_task 作为任务模型时（如下公式所示），在给定数据集 D 上找到达到最佳性能的文本提示 p∗。更具体地说，假设所有数据集都可以格式化为文本输入 - 输出对，即 D = {(x, y)}。一个用于优化提示的训练集 D_train，一个用于验证的 D_dev，以及一个用于最终评估的 D_test。按照研究者提出的符号表示，提示工程问题可以描述为：

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

其中，M_task (x; p) 是在给定提示 p 的条件下模型生成的输出，而 f 是对每个示例的评估函数。例如，如果评估指标是完全匹配，那么比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

使用 LLM 进行自动提示工程

在给定一组初始提示的情况下，自动提示工程师将不断提出新的、可能更好的提示。在时间戳 t，提示工程师获得一个提示 p^(t)，并期望写一个新提示 p^(t+1)。在新的提示生成过程中，可以选择检查一批示例 B = {(x, y, y′ )}。这里 y ′ = M_task (x; p) 表示模型生成的输出，y 表示真实标签。使用 p^meta 表示一个元提示，用于指导 LLM 的 M_proposal 提出新的提示。因此，

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

构建一个更好的元提示 p^meta 以提高所提出的提示 p^(t+1) 的质量是本研究的主要关注点。

构建更好的元提示

就像提示在最终任务性能中发挥重要作用一样，引入到公式 2 中的元提示 p^meta 在新提出的提示质量以及自动提示工程的整体质量中起着重要作用。

研究者主要专注于对元提示 p^meta 进行提示工程，开发了可能有助于提高 LLM 提示工程质量的元提示组件，并对这些组件进行系统的消融研究。

研究者基于以下两个动机来设计这些组件的基础：（1）提供详细的指导和背景信息：（2）融入常见的优化器概念。接下来，研究者将更详细地描述这些元素并解释相关原理。下图 2 为可视化展示。

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

提供详细的指令和上下文。在先前的研究中，元提示要么指示提议模型生成提示的释义，要么包含有关检查一批示例的最小指令。因此通过为元提示添加额外的指令和上下文可能是有益的。

(a) 提示工程教程。为了帮助 LLM 更好地理解提示工程的任务，研究者在元提示中提供一个提示工程的在线教程。

(b) 两步任务描述。提示工程任务可以分解为两个步骤，像 Pryzant et al. 所做的那样：在第一步，模型应该检查当前的提示和一批示例。在第二步，模型应该构建一个改进的提示。然而，在 Pryzant et al. 的方法中，每一步都是即时解释的。与之相反的是，研究者考虑的是在元提示中澄清这两个步骤，并提前传递期望。

(d) 上下文规范。在实践中，提示插入整个输入序列的位置是灵活的。它可以在输入文本之前描述任务，例如「将英语翻译成法语」。它也可以出现在输入文本之后，例如「一步一步地思考」，以引发推理能力。为了认识到这些不同的上下文，研究者明确指定了提示与输入之间的相互作用。例如：「Q: <input> A ：一步一步地思考。」

融入常见的优化器概念。在前面方程 1 中描述的提示工程问题本质上是一个优化问题，而方程 2 中的提示提议可以被视为进行一次优化步骤。因此，研究者考虑以下在基于梯度的优化中常用的概念，并开发他们元提示中使用的对应词。

(e) 批处理大小。批处理大小是在每个提示提议步骤 (方程 2) 中使用的 (失败) 示例数量。作者在分析中尝试了批处理大小为 {1, 2, 4, 8}。

(f) 步长。在基于梯度的优化中，步长确定模型权重更新的幅度。在提示工程中，其对应物可能是可以修改的单词（token）数量。作者直接指定「你可以更改原始提示中的最多 s 个单词」，其中 s ∈ {5, 10, 15, None}。

(g) 优化历史和动量。动量 (Qian, 1999) 是一种通过保持过去梯度的移动平均来加速优化并避免振荡的技术。为了开发动量的语言对应部分，本文包含了所有过去的提示（时间戳为 0, 1, ..., t − 1）、它们在 dev 集上的表现以及提示编辑的摘要。

实验

作者使用以下四组任务来评估 PE2 的有效性和局限性：

1. 数学推理；2. 指令归纳；3. 反事实评估；4. 生产提示。

改进的基准与更新的 LLMs。在表 2 的前两部分中，作者观察到使用 TEXT-DAVINCI-003 可以显著提高性能，表明它更能够在 Zero-shot CoT 中解决数学推理问题。此外，两个提示之间的差距缩小了（MultiArith：3.3% → 1.0%，GSM8K：2.3% → 0.6%），表明 TEXT-DAVINCI-003 对提示释义的敏感性减小。鉴于此，依赖简单释义的方法如 Iterative APE，可能无法有效地提升最终结果。更精确和有针对性的提示编辑是提高性能的必要条件。

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

PE2 在各种任务上优于 Iterative APE 和 APO。PE2 能够找到一个在 MultiArith 上达到 92.3% 准确率（比 Zero-shot CoT 高 6.3%）和在 GSM8K 上达到 64.0% 的提示 (+3.1%)。此外，PE2 找到的提示在指令归纳基准、反事实评估和生产提示上优于 Iterative APE 和 APO。

在前面图 1 中，作者总结了 PE2 在指令归纳基准、反事实评估和生产提示上获得的性能提升，展示了 PE2 在各种语言任务上取得了强大的性能。值得注意的是，当使用归纳初始化时，PE2 在 12 个反事实任务中的 11 个上优于 APO (图 6 所示)，证明了 PE2 能够推理矛盾和反事实情境。

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

PE2 生成有针对性的提示编辑和高质量提示。在图 4 (a) 中，作者绘制了提示优化过程中提示提议的质量。实验中观察到三种提示优化方法有非常明显的模式：Iterative APE 基于释义，因此新生成的提示具有较小的方差。APO 进行了大幅度的提示编辑，因此性能在第一步下降。PE2 在这三种方法中是最稳定的。在表 3 中，作者列出了这些方法找到的最佳提示。APO 和 PE2 都能够提供「考虑所有部分 / 细节」的指令。此外，PE2 被设计为仔细检查批次，使其能够超越简单的释义编辑，进行非常具体的提示编辑，例如「记得根据需要添加或减去」。

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

了解更多内容，请参考原论文。

本文转载于：https://www.jiqizhixin.com/articles/2023-11-27-8 如有侵犯，请联系admin@zhengruan.com删除

上一篇：iPhone和iPad上如何启用密码或Touch ID保护便笺？

下一篇：iPhone 15 Pro Max价格上涨的原因是什么？

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

山东移动与华为顺利完成5G-A三载波聚合试验

华为中国官方公众号最近透露，山东移动与华为合作，在青岛和威海两地成功完成了一项重要的5G-A三载波聚合试点验证项目此次试点采用了2.6GHz和4.9GHz频段的三载波聚合技术，成功验证了5G-A超大带宽的潜力。实测数据显示，试点区域的下行峰值速率超过4Gbps，明显超越了传统5G网络的下行速率。这一成果表明山东移动已经具备了5G-A技术能力，领先进入了5G-A时代5G-A，即5G-Advanced，有时也被称为5.5G，代表了5G技术的进一步演进。相较于传统的5G网络，5G-A网络具备更大的带宽、更广泛的

9分钟前华为 0
正版软件

唯品会向甘肃积石山地震救灾捐赠 500 万元

唯品会宣布启动救灾响应机制，决定通过中国乡村发展基金会捐赠500万元，用于受灾地区的紧急救援、受灾群众的安置和灾后重建等工作以下是本站的公告全文：甘肃临夏州积石山县发生了6.2级地震，造成了重大的人员伤亡和基础设施的部分损坏。这场灾难牵动着全国人民的心。唯品会已经启动了救灾响应机制，通过中国乡村发展基金会捐赠了500万元，专门用于受灾地区的紧急救援、受灾群众的安置以及灾后重建等工作我们将以同舟共济、同心抗灾的精神，持续关注灾区的情况，全力支持抗震救灾工作，与灾区人民一起渡过难关。祈愿所有人都平安无事！需要

14分钟前唯品会 0
正版软件

微软 Windows Copilot 升级：AI 小秘书现可通过截图提问

根据消息，微软在最新版本的Copilot中添加了一个新功能，即允许用户直接使用该工具进行屏幕截图。该功能最初登陆了微软Edge浏览器中的Copilot，现在也已经加入到了WindowsCopilot中。这一功能的推出将为用户提供更为便捷的截图操作，方便用户在使用Copilot时进行必要的屏幕捕捉。这无疑将进一步提升Copilot的实用性和用户体验。Windows爱好者Leopeva64最早发现了这一变化。以前，WindowsCopilot只能从设备上传图片或粘贴图片和链接。但是现在有一个新的选项叫“添加截

29分钟前 0
正版软件

Scout品牌全新纯电车型强势登场，夏季推出硬派SUV与皮卡

据1月4日消息，大众汽车宣布全新纯电品牌Scout将于今年夏季正式推出。据外媒motor1报道，大众汽车最新预告中透露了这一消息。Scout品牌自从预告发布以来一直备受关注。此前，该品牌已宣布首批车型将包括一款硬派SUV和一款皮卡，计划在2026年底开始批量生产。而大众汽车在去年早些时候也透露，这款硬派SUV的售价预计约为4万美元，相当于人民币约28.6万元。这一消息引起了广泛关注。据了解，随着全新品牌的临近，大众汽车的动作也变得更加频繁。为了推动Scout品牌在欧洲的电动汽车复兴，大众汽车决定与其他汽车

44分钟前大众 0
正版软件

非线性机械超材料逆向设计：利用视频去噪扩散模型进行的新方法 (Nature子刊)

编辑|绿萝逆向设计复杂材料特性具有巨大潜力，例如软机器人、生物医学植入物和织工程等领域。尽管机器学习模型提供了这些逆向映射的方法，但目前主要针对线性目标属性。然而，我们仍然需要进一步研究和开发，以实现更复杂材料特性的准确逆向设计。近日，苏黎世联邦理工学院（ETHZurich）的研究人员进行了一项研究，他们通过训练视频扩散生成模型在周期性随机cellular结构的全场数据上，成功预测和调整这些结构在大应变状态下的非线性变形和应力响应。这项研究的结果证明了通过该模型可以定制非线性响应，并涵盖了屈曲和接触等多种

59分钟前理论 0

思考改进中的咒语胜过「让我们一步一步思考」

产品推荐

最新发布

相关推荐

热门关注