移除Transformer特定层90%以上的组件，不影响LLM性能

　　发布于2024-11-09　阅读（0）

扫一扫，手机访问

在大型模型时代，Transformer独自支撑起了整个科研领域。自从发布以来，基于Transformer的语言模型在各种任务上展现出了出色的性能，在自然语言建模和推理方面的底层Transformer架构已经成为最先进的技术，在计算机视觉和强化学习等领域也显示出了强大的前景

当前的 Transformer 架构非常庞大，通常需要大量的计算资源来进行训练和推理

这是有意为之的，因为经过更多参数或数据训练的 Transformer 显然比其他模型更有能力。尽管如此，越来越多的工作表明，基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。

一般来说，在训练模型时大规模过度参数化似乎有帮助，但这些模型在推理之前可以进行大幅剪枝；研究表明，神经网络通常可以去除90%以上的权重，而性能不会有明显下降。这种现象促使研究者开始转向研究有助于模型推理的剪枝策略

来自麻省理工学院和微软的研究人员在一篇名为《真相就在其中：通过层选择性排名减少提高语言模型的推理能力》的论文中提出了一个令人惊讶的发现。他们发现，在Transformer模型的特定层进行精细的剪枝可以显著提高模型在某些任务上的性能

给Transformer降降秩，移除特定层90%以上组件，LLM性能不减

论文地址：https://arxiv.org/pdf/2312.13558.pdf
论文主页：https://pratyushasharma.github.io/laser/

研究中将这种简单的干预措施称为LASER（LAyer SElective Rank reduction，层选择性降秩）。它通过奇异值分解有选择地减少Transformer模型中特定层的学习权重矩阵的高阶分量，从而显著提高LLM的性能。这种操作可以在模型训练完成后进行，而且无需额外的参数或数据

在操作过程中，权重的减少是通过对模型特定的权重矩阵和层进行执行的。研究还发现，许多类似的矩阵都能够显著地减少权重，并且在删除超过90%的组件之前，通常不会观察到性能下降

研究还发现，减少这些因素可以显著提高准确率。有趣的是，这一发现不仅适用于自然语言，对于强化学习也能提升性能

此外，这项研究试图推断出存储在高阶组件中的内容，以便通过删除来提高性能。研究发现，在使用LASER回答问题之后，原始模型主要使用高频词（如“the”、“of”等）作出回应。这些词与正确答案的语义类型甚至不相符，也就是说在没有干预的情况下，这些成分会导致模型生成一些不相关的高频词汇

然而，通过进行一定程度的降秩后，模型的回答可以转变为正确的。

为了理解这一点，该研究还探索了其余组件各自编码的内容，他们仅使用其高阶奇异向量来近似权重矩阵。结果发现这些组件描述了与正确答案相同语义类别的不同响应或通用高频词。

这些结果表明，当嘈杂的高阶分量与低阶分量组合时，它们相互冲突的响应会产生一种平均答案，这可能是不正确的。图 1 直观地展示了 Transformer 架构和 LASER 遵循的程序。在这里，特定层的多层感知器（MLP）的权重矩阵被替换为其低秩近似。

LASER 概览

研究者对LASER干预进行了详细介绍。单步LASER干预是通过三个参数（τ、ℓ和ρ）来定义的。这些参数共同描述了要被低秩近似替代的矩阵以及近似的程度。研究者根据参数类型对待干预的矩阵进行分类

研究者关注的重点是矩阵 W = {W_q, W_k, W_v, W_o, U_in, U_out}，该矩阵由多层感知机（MLP）和注意力层中的矩阵组成。层数表示研究者干预的层级，其中第一层的索引是0。例如，Llama-2有32个层级，因此表示为 ℓ ∈ {0, 1, 2,・・・31}

最终，ρ ∈ [0, 1) 描述了在做低秩近似时应该保留最大秩的哪一部分。例如设给Transformer降降秩，移除特定层90%以上组件，LLM性能不减，则该矩阵的最大秩为 d。研究者将它替换为⌊ρ・d⌋- 近似。

以下是需要在下图1中，展示了一个LASER的示例。图中的符号τ = U_in和ℓ = L表示在第L层的Transformer块中更新MLP的第一层权重矩阵。还有一个参数用于控制rank-k近似中的k值

给Transformer降降秩，移除特定层90%以上组件，LLM性能不减

LASER 可以限制网络中某些信息的流动，并出乎意料地产生显著的性能优势。这些干预也可以很容易组合起来，比如以任何顺序来应用一组干预给Transformer降降秩，移除特定层90%以上组件，LLM性能不减。

LASER 方法只是对这类干预进行简单的搜索，并修改以带来最大收益。不过，还有很多其他方法可以将这些干预组合起来，这是研究者未来工作的方向。

实验结果

在实验部分，研究者使用了在 PILE 数据集上预训练的 GPT-J 模型，该模型的层数为 27，参数为 60 亿。然后在 CounterFact 数据集上评估模型的行为，该数据集包含（主题、关系和答案）三元组的样本，每个问题提供了三个释义 prompt。

首先，我们对 GPT-J 模型在 CounterFact 数据集上进行了分析。图 2 展示了在 Transformer 架构中，将不同数量的降秩应用于每个矩阵后，对数据集分类损失的影响。每个 Transformer 层由一个两层的小型 MLP 组成，输入和输出矩阵分别显示。不同颜色表示移除组件的不同百分比

给Transformer降降秩，移除特定层90%以上组件，LLM性能不减

关于提升释义的准确度和稳健性，如上图 2 和下表 1 所示，研究者发现，当在单层上进行降秩时，GPT-J 模型在 CounterFact 数据集上的事实准确度从 13.1% 增加到了 24.0%。需要注意一点，这些改进只是降秩的结果，并不涉及对模型的任何进一步训练或微调。

给Transformer降降秩，移除特定层90%以上组件，LLM性能不减

哪些事实在进行降秩恢复时会得到恢复？研究者发现，通过降秩恢复得到的事实很可能在数据集中出现的次数非常少，如图3所示

给Transformer降降秩，移除特定层90%以上组件，LLM性能不减

高阶组件存储什么呢？研究者使用高阶组件近似最终的权重矩阵（而不像 LASER 那样使用低阶组件来近似），如下图 5 (a) 所示。当使用不同数量的高阶组件来近似矩阵时，他们测量了真实答案相对于预测答案的平均余弦相似度，如下图 5 (b) 所示。

给Transformer降降秩，移除特定层90%以上组件，LLM性能不减

研究者最终对他们发现的三种不同的LLM在多项语言理解任务上的普适性进行了评估。对于每个任务，他们使用生成准确度、分类准确度和损失三个指标来评估模型的性能。根据表1的结果显示，即使矩阵的秩降低很大，也不会导致模型准确度下降，反而能提升模型的性能

本文转载于：https://www.51cto.com/article/777633.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：2024 ROG新品发布会，开启DIY新时代，涵盖爆款机电散装备

下一篇："小乐同学"联想AI助手计划在3个月后推出，支持自然语言交互

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

iQOO Neo8系列手机火爆开售仅需30秒即突破2亿元销售额

6月1日消息，iQOONeo8系列手机于昨晚正式开售，惊人的销售表现令人瞩目。仅仅30秒的时间，该系列手机在全渠道销售额突破2亿元大关，成为备受追捧的热门产品。据小编了解，iQOONeo8Pro共有两个版本可供选择：16GB+256GB版本售价为3299元(首销价3099元)，16GB+512GB版本售价为3599元(首销价3399元)。而iQOONeo8则提供了三个版本：12GB+256GB版本售价为2499元(首销价2299元)，16GB+256GB版本售价为2799元(首销价2599元)，16GB+

4分钟前 0
正版软件

比较PyTorch和NumPy的深度特性

嗨，我是小壮！太多人催着让更新pytorch的内容了，我们最近总结了不少东西。包括实用的一些操作，还有一些总结性的内容。很多人对pytorch和numpy的边界感是模糊的，咱们今儿就从几方面进行整理和详细的说明。每块知识点从简单对比到实际代码的对比，值得收藏起来慢慢看~所有的内容，咱们从下面几个要点进行了对比：深度学习支持：PyTorch专注于深度学习任务，提供了动态计算图和内置的神经网络接口，而NumPy主要用于传统的科学计算，缺深度学习模块。自动微分：PyTorch具有自动微分功能，使得在构建和训练神

14分钟前深度学习 PyTorch Numpy 0
正版软件

小米卢伟冰确认：Redmi K60 Pro不计划推出1TB版本

6月9日消息，RedmiK60Pro最新消息显示，该款手机暂无计划推出1TB版本。一名微博用户询问Redmi总经理卢伟冰关于是否会推出1TB版本的问题，卢伟冰回复称目前没有相关计划。根据官方网站的信息，RedmiK60Pro目前提供四种存储规格供消费者选择。其中包括8GB+256GB版本售价2699元，12GB+256GB版本售价2999元，12GB+512GB版本售价3399元，以及16GB+512GB版本售价4399元。消费者可根据自己的需求和预算选择适合的存储规格。RedmiK60Pro采用6.67

29分钟前小米 Redmi 0
正版软件

FIA发布调查结果：多名车手被处罚，奥康遭受严厉30秒惩罚

7月3日消息，昨晚的2023年奥地利大奖赛上，马克斯·维斯塔潘再次夺得冠军，比赛结果毫无悬念。然而，与前几场比赛相比，这场比赛的过程却十分精彩。特别是国际汽联(FIA)在比赛中频繁开出罚单，使得比赛结果跌宕起伏。据小编了解，早在之前的排位赛中，FIA就开始严格执行赛事规则，尤其对于车辆冲出赛道的判罚更加严厉。由于红牛环赛道的设计问题，第9和第10弯转折较大，容易导致车手冲出赛道。在前一天的排位赛中，许多车手在Q2阶段由于冲出赛道而被取消成绩，甚至有佩雷兹因未能完成有竞争力的有效圈数而未能进入Q3。在随后的

44分钟前 0
正版软件

雷克萨斯LBX升级配置：全新搭载第二代“Lexus Safety System+”系统

6月5日消息，雷克萨斯LBX今日盛大亮相。该车是雷克萨斯与丰田共同打造的全新车型，基于“YARiSCross”平台开发，旨在填补雷克萨斯UX之下的市场空白。雷克萨斯LBX以其独特的外观设计吸引了众多目光。两个车头灯通过一根金属条相连，独特的贯穿式尾灯设计使其在外观上具有辨识度。据小编了解，雷克萨斯LBX的车身尺寸预计为4180/1765/1560毫米(长/宽/高)，轴距为2560毫米。除了外观设计的亮点，雷克萨斯LBX在配置方面也不遑多让。新车将配备第二代“LexusSafetySystem+”系统，包括

59分钟前 0

移除Transformer特定层90%以上的组件，不影响LLM性能

LASER 概览

实验结果

产品推荐

最新发布

相关推荐

热门关注