GPT-4的推测解码技术：历史回顾、现状与应用综述

　　发布于2024-12-03　阅读（0）

扫一扫，手机访问

众所周知，大型语言模型（LLM）的推理通常需要使用自回归采样，这个推理过程相当缓慢。为了解决这个问题，推测解码（Speculative Decoding）已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中，会先预测几个可能的 token，然后并行地验证是否准确。与自回归解码不同，推测解码能够单步解码多个 token，从而加速推理。

尽管推测解码在许多方面都表现出巨大潜力，但也带来了一些需要深入研究的关键问题。首先，我们需要思考如何选择或设计适当的近似模型，以在推测的准确性和生成的效率之间取得平衡。其次，重要的是确保评估标准能够同时维持生成结果的多样性和质量。最后，必须认真考虑近似模型和目标大模型之间的推理过程的对齐，以提高推理的准确性。

来自香港理工大学、北京大学、MSRA以及阿里的研究者对推测解码进行了全面的调研，机器之心对此进行了综合总结。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

论文标题：Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding
论文地址：https://arxiv.org/pdf/2401.07851.pdf

推测解码的演化之路

文章首先详细介绍了推测解码技术的早期研究情况，并通过时间表展示了其发展历程（见图 2）。

分块采样（Blockwise Decoding）是一种在 Transformer 解码器上集成额外前馈神经（FFN）头的方法，能够单步生成多个 token。

为了进一步充分发挥分块采样算法的潜力，提出了推测解码的解决方案。这种算法涵盖了一个独立的近似模型，通常采用专门的非自回归 Transformer，能够高效而精确地执行生成任务。

继推测解码出现之后，有学者接着提出了「投机采样算法」（Speculative Sampling），在推测解码中加入了无损加速核采样。

总的来说，这些关于推测解码的创新尝试已经开始加强 Draftthen-Verify 范式，并且展示了在 LLM 加速方面的巨大潜能。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

公式和定义

本节首先简要概述了标准自回归解码的内容，然后深入阐述了推测解码算法，包括对形式定义、方法论的全面描述以及算法的详细阐述。

本文提出了一个组织框架来对相关研究进行分类，如下图 3 所示。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

本文在前人的基础上，对「推测解码算法」再次进行了正式的定义：

推测解码算法是一种先生成后验证的解码模式，在每个解码步骤，它首先需要能生成多个可能的 token，然后使用目标大语言模型并行地评估所有这些 token，以加快推理速度。算法表 2 是一个详细的推测解码过程。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

随后，本文深入研究了这一范式不可或缺的两个基本子步骤 —— 生成和评估。

生成

在每个解码步骤中，推测解码算法首先会生成多个可能的 token，作为对目标大语言模型的输出内容的推测。

本文将生成的内容分为两类：独立生成（independent drafting ）和自生成（self-drafting），并在下表 1 中总结了其公式。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

验证

在每个解码步骤中，并行地验证近似模型生成的 token，以确保输出质量与目标大语言模型高度一致。这个过程还确定了每一步可允许的 token 数量，这是一个能够影响加速情况的一个重要因素。

对各种验证标准的总结如下表 2 所示，包括那些在大语言模型推理中支持贪心解码和核采样的标准。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

生成和验证的子步骤会持续迭代，直到满足终止条件为止，即 [EOS] token 被解码或句子达到最大长度。

此外，本文引入了 token 的树验证算法，这是一种逐步提高 token 接受度的有效策略。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

模型对齐

提高推测准确性是加速推测解码的关键：近似模型的预测行为越接近目标大语言模型，对其生成 token 的接受率就越高。为此，现有的工作探索了各种知识提取（KD）策略，以使近似模型的输出内容与目标大语言模型的输出内容保持一致。

分块解码首先采用序列级知识提取（Seq-KD）来进行模型对齐，用目标大语言模型生成的句子训练近似模型。

此外，Seq-KD 也是提高并行解码生成质量的有效策略，提高了并行解码的生成性能。

下表 3 中总结了现有推测解码方法的主要特征，包括近似模型的类型或生成策略、模型对齐方法、支持的评估策略和加速程度等情况。

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

应用

除了作为一种通用范式外，最近的工作还表明，推测解码的一些变体在特定任务中表现出非凡的有效性。此外，其他研究已经将这种范式应用于解决某些应用场景特有的延迟问题，从而实现推理加速。

例如，有些学者认为，推测解码特别适合于模型输入和输出高度相似的任务，如语法纠错和检索增强生成。

除了这些工作之外，RaLMSpec（Zhang et al., 2023b）用推测解码来加速检索增强语言模型（RaLMs）。

机遇与挑战

问题 1：如何权衡预测内容的准确性和生成效率？尽管目前对这个问题取得了一些进展，但在使近似模型与目标大语言模型生成内容保持一致方面仍有相当大的改进空间。除了模型对齐之外，其他因素（如生成质量和预测长度的确定）也会影响推测的准确性，值得进一步探索。

问题 2：如何将推测解码与其他领先技术相结合？作为一种通用的解码模式，推测解码已经与其他先进技术相结合，展示了其潜力。除了加速纯文本的大语言模型之外，推测解码在多模式推理中的应用，如图像合成、文本到语音合成和视频生成，也是未来研究的一个有趣而有价值的方向。

更多细节内容请参阅原论文。

本文转载于：https://www.51cto.com/article/781551.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：在Java程序中如何使用native关键字

下一篇：搞懂Python继承与多态的完整指南

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

vivo Y27 5G手机现身Google Play管理中心，或为Y36 5G的不同地区版本

5月31日消息，vivo在本月忙碌不已，相继在中国和国际市场推出了一系列新款智能手机。其中包括vivoS17系列、vivoY36、vivoY35m和vivoY78，同时还有vivoV29系列正在紧锣密鼓地筹备中。最新消息显示，vivoY275G手机已经在GooglePlay管理中心现身。据小编了解，vivoY275G手机的型号为V2248，与最近发布的vivoY365G型号相同，这暗示vivoY27可能只是该款手机在不同地区的另一个命名版本。vivoY275G手机将搭载联发科MT6833芯片，此前被称为天

4分钟前 vivo 0
正版软件

今日清明节：气清景明，万物皆显

本月4月4日消息，今天是我国二十四节气中的清明节。“清明”有冰雪消融，草木青青，天气清彻，万物欣欣向荣之意。清明时，气清景明，万物皆显，因此得名。清明，既是节气，又是节日。说到清明节，很多人会想起“清明时节雨纷纷，路上行人欲断魂”的名句。是的，清明一到，气温升高，雨量增多，正是春暖花开的大好时节。清明时节清明节又叫踏青节，是中国传统节日之一，也是最重要的祭祀节日之一，是祭祖和扫墓的日子。在传统社会中，清明节是一个特别盛大的节日，除了扫墓祭奠、怀念离世亲人，它还是踏青嬉游、亲近大自然的节日。4月5日9点12

14分钟前清明节二十四节气 0
正版软件

iPhone、Mac、iPad抵扣金额上涨！苹果换购计划优惠来袭

7月6日消息，苹果中国近日对其AppleTradeIn换购计划进行了调整，为苹果设备的老用户带来了喜讯。据小编了解，在该计划中，iPhone、Mac、iPad等设备的以旧换新抵扣金额都得到了上涨。针对iPhone产品，iPhone13ProMax的最高抵扣金额达到5500元人民币，iPhone13Pro为4900元人民币，iPhone13为3350元人民币，iPhone13mini为3000元人民币，而iPhone12ProMax的最高抵扣金额为3800元人民币，新发布的iPhoneSE第三代则为1800

29分钟前优惠计划换购 0
正版软件

苹果新获手势专利，未来iPhone等设备或实现空中操作

近期，世界知识产权局(WIPO)发布的名单显示，苹果公司成功取得了一项名为《GESTURERECOGNITIONWITHHAND-OBJECTINTERACTION》的手势专利。这一成就表明苹果正有条不紊地推进将VisionPro头显的空中手势操作技术应用到iPhone、iPad、MacBook等其他设备的计划。据小编了解，这项专利的核心在于其能够扫描并识别用户的手势，然后分析扫描数据，以识别出预定义的手势。具体来说，这项技术可以通过摄像头捕捉人的手臂图像，或者通过手部附带的加速度计捕捉手部的运动数据。然

44分钟前苹果 0
正版软件

什么是生成式AI？有哪些特征类型

生成式AI是人类一种人工智能技术，可以生成各种类型的内容，包括文本、图像、音频和合成数据。那么什么是人工智能？人工智能和机器学习之间的区别是什么？有哪些技术特征？人工智能是学科，是计算机科学的一个分支，研究智能代理的创造。这些智能代理可以推理、学习和自主行动的系统。智能代理的研究是可以推理、学习和自主行动的系统的研究。人工智能和构建像人类一样思考和行动的机器的理论和方法有关。在这个学科中，机器学习是人工智能的一个领域。它是根据输入数据训练模型的程序或系统，经过训练的模型可以从新的或未见过的数据中做出有用的

59分钟前人工智能机器学习生成式AI 0

GPT-4的推测解码技术：历史回顾、现状与应用综述

推测解码的演化之路

公式和定义

模型对齐

应用

机遇与挑战

产品推荐

最新发布

相关推荐

热门关注