惊人发现：匿名论文创新方法增强大模型处理长文本能力

　　发布于2024-11-28　阅读（0）

扫一扫，手机访问

一提到提高大模型长文本能力，就想到长度外推或者上下文窗口扩展？

不行，这些都太费硬件资源了。

来看一个奇妙新解：

和长度外推等方法使用KV缓存的本质不同，它用模型的参数来存储大量上下文信息。

具体办法就是建一个临时Lora模块，让它仅在长文本生成过程中“流式更新”，也就是用先前生成的内容不断作为输入来充当训练数据，以此保证知识被存进模型参数中。

然后一旦推理完成，就丢掉它，保证不对模型参数产生长久影响。

这个方法可以让我们不用扩展上下文窗口的同时，随便存储上下文信息，想存多少存多少。

实验证明，这种方法：

既可以显著提高模型长文本任务质量，实现困惑度下降29.6%，长文本翻译质量（BLUE得分）提高53.2%；
还能兼容并增强现有大多数长文本生成方法。
最重要的是，能大大降低计算成本。

在保证生成质量小幅提升（困惑度降低3.8%）的同时，推理所需的FLOPs降低70.5%、延迟降低51.5%！

具体情况，我们翻开论文来看。

建个临时Lora模块用完即丢

该方法名叫Temp-Lora，架构图如下：

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

其核心就是以自回归的方式用先前生成的文本上逐步训练临时Lora模块。

该模块适应性很强可以不断调整，因此对不同远近的上下文都能深入理解。

具体算法如下：

在生成过程中，token是逐块生成的。每次生成块时，使用最新的L_xtoken作为输入X生成后续token。

一旦生成的token数量达到预定义的区块大小∆，就使用最新的块启动Temp-Lora模块的训练，然后开始下一个块生成。

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

在实验中，作者将∆+L_x设置为W，以充分利用模型的上下文窗口大小。

对于Temp-Lora模块的训练，如果在没有任何条件的情况下，学习生成新的块可能构不成有效的训练目标，并导致严重的过拟合。

为了解决这个问题，作者将每个块前面的L_T标记合并到训练过程中，将它们用作输入，将块用作输出。

最后，作者还提出了一种称为缓存重用（Cache Reuse）策略来实现更高效的推理。

一般来说，在标准框架中更新Temp-Loramo模块后，我们需要使用更新的参数重新计算KV状态。

或者，重用现有的缓存KV状态，同时使用更新的模型进行后续的文本生成。

具体来说，只有当模型生成最大长度（上下文窗口大小W）时，我们才使用最新的Temp-Lora模块重新计算KV状态。

这样的缓存重用方法就可以在不显著影响生成质量的情况下加快生成速度。

关于Temp-Lora方法的介绍就这么多，下面主要看测试。

文本越长，效果越好

作者在Llama2-7B-4K、Llama2-13B-4K、Llama2-7B-32K以及Yi-Chat-6B模型上上对Temp-Lora框架进行了评估，并涵盖生成和翻译这两类长文本任务。

测试数据集一个是长文本语言建模基准PG19的子集，从中随机抽取了40本书。

另一个是来自WMT 2023的国风数据集的随机抽样子集，包含20部中文网络小说，由专业人员翻译成英文。

首先来看PG19上的结果。

下表显示了PG19上带有和不带有Temp-Lora模块的各种型号的PPL（困惑度，反映模型对于给定输入的不确定性，越低越好）比较。将每个文档划分为0-100K到500K+token的片段。

可以看到，所有型号经过Temp-Lora之后PPL都显著下降，并且随着片段越来越长，Temp-Lora的影响更加明显（1-100K仅降低3.6%，500K+降低13.2%）。

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

因此，我们可以简单地得出结论：文本越多，使用Temp-Lora的必要性就越强。

此外我们还能发现，将块大小从1024调整到2048和4096导致PPL略有增加。

这倒是不奇怪，毕竟Temp-Lora模块是在之前块的数据上训练的。

这个数据主要是告诉我们块大小的选择是生成质量和计算效率之间的关键权衡（进一步分析可以查阅论文）。

最后，我们还能从中发现，缓存重复使用不会导致任何性能损失。

作者表示：这是一个非常令人鼓舞的消息。

下面是国风数据集上的结果。

可以看到，Temp-Lora对长文本文学翻译任务也有显著影响。

与基础模型相比，所有指标都有显著改进：PPL降低了-29.6%，BLEU得分（机器翻译文本与高质量参考翻译的相似度）提高了+53.2%，COMET得分（也是一个质量指标）提高了+8.4%。

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

最后，是计算效率和质量方面的探索。

作者经实验发现，使用最“经济”的Temp-Lora配置（∆=2K，W=4K），能将PPL降低3.8%的同时，节省70.5%的FLOP和51.5%的延迟。

相反，如果我们完全忽略计算成本，使用最“豪华”的配置（∆=1K和W=24K），也可以实现5.0%的PPL降低，并额外增加17%的FLOP和19.6%的延迟。

使用建议

总结以上结果，作者也给出了实际应用Temp-Lora的三点建议：

1、对于需要最高级别长文本生成的应用，在不更改任何参数的情况下，集成Temp-Lora到现有模型中，就能以相对适中的成本显著提高性能。

2、对于看重最小延迟或内存使用的应用，可以通过减少输入长度和在Temp-Lora中存储的上下文信息来显著降低计算成本。

在这种设置下，我们可以使用固定的短窗口大小（如2K或4K）来处理几乎无限长的文本（在作者的实验中为500K+）。

3、最后，请注意，在不含大量文本的场景中，例如预训练中上下文比模型的窗口大小还小，Temp-Lora就是毫无用处的。

作者来自保密机构

值得一提的是，发明这么简单又创新的办法，作者却没有留下太多出处信息：

机构名称直接落款“保密机构”，三位作者的名字也只有完整的姓。

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

不过从邮箱信息来看，可能来自港城大、港中文等学校。

最最后，对于这个方法，你觉得怎么样？

论文： https://arxiv.org/abs/2401.11504

本文转载于：https://www.51cto.com/article/780995.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：如何开启和关机iPad

下一篇：曝光字节版GPTs背后部门Flow：燃爆至崩溃的内幕揭秘

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

全球第30万辆坦克300投入生产，国产硬派越野车再次突破

2月2日消息，坦克SUV官方宣布，其备受瞩目的硬派越野车坦克300已达到全球30万台下线的里程碑。这款车型凭借其独特而经典的设计风格、卓越的越野性能和高性价比，在越野爱好者中迅速赢得了广泛的关注和喜爱。作为市场上备受瞩目的明星车型，坦克300的成功积累了极高的人气。坦克300的成功并非偶然。它背后有着无数消费者对生活的热爱和对越野文化的追求。作为一款国产硬派越野车，坦克300不仅满足了消费者对车辆性能的需求，更在情感上与消费者产生了深刻的共鸣。据了解，坦克汽车官方对于这一历史性时刻表示了极大的自豪和信心，

13分钟前长城汽车 0
正版软件

长城汽车发布全新旗舰品牌ZX，首款车型曝光，车长5.5米，售价或超过一百万

长城汽车近期聚焦高端新能源市场，计划推出全新品牌ZX，并首发一款D+级高端新能源轿车。据消息透露，该车预计车长约5500mm，在同级别车型中属于佼佼者。这款全新车型将不会通过长城汽车现有的销售渠道，这给该品牌增添了一抹神秘色彩。同时，网络上流传的一张效果图让车迷们对这款车充满了期待。效果图显示，该车的车头设计宽大，线条流畅且修长，侧面配备巨大车轮和镀铬装饰，展现出非凡的气势。此外，翼子板和车门处的L型装饰为整车增添了动感。这款车的长度达到了5.5米，与劳斯莱斯古斯特(5546mm)相差无几，甚至超过了市面

18分钟前长城汽车 0
正版软件

零跑汽车销量1月环比下降34%，全系车型降价激发市场活力

2月2日消息，零跑汽车最近公布的数据显示，该公司在今年1月份的销量达到了12277台新车。尽管与去年同期相比实现了显著增长，但与去年12月份相比，销量却下滑了34%。这一数据引起了市场对零跑汽车今年销售前景的关注。零跑汽车的1月销量增长了一定幅度，这表明该公司正逐渐扩大市场份额。然而，与去年12月份相比的销量下滑确实令人担忧。这可能是由于节假日放假期间消费者购车需求的减少以及市场竞争的加剧所致。对于零跑汽车来说，如何应对销量下滑的挑战将是一个零跑汽车今年的销量目标为30万至40万辆，但从1月份的销售成绩来

28分钟前零跑汽车 0
正版软件

长城汽车推出全新高端品牌“ZX”，首款新能源轿车引领行业潮流

长城汽车正计划推出全新品牌“ZX”，旗舰车型为高端新能源轿车，车身长度预计为5500mm，定位为D+级市场。据报道，这款新车在外观设计上具有独特之处，整体线条流畅而优雅。根据曝光的预告图可以看出，车身的翼子板和车门上融入了L型装饰元素，彰显出强烈的豪华硬派风格。此外，新车还将引入流媒体外后视镜，这是当前汽车设计中的一股流行趋势。这项技术将为驾驶者提供更广阔的视野，并且通过数字屏幕实时传输后方的影像，提升驾驶的安全性和便利性。这一设计将使该车更加现代化，并满足消费者对科技与实用性的需求。长城汽车以前主要专注

43分钟前长城汽车 0
正版软件

苹果CEO库克宣布：iOS 18将推出全新AI功能，国内市场期待其效果

苹果今日公布了2024财年第一季度财报，引起了广泛关注。在财报发布会上，苹果CEO蒂姆·库克透露了一项重要消息：苹果计划在今年推出全新的人工智能（AI）功能，这被视为公司在技术创新方面的重大举措。这一举措被认为将进一步提升苹果产品的智能化水平，并为用户带来更便捷、智能的使用体验。这也体现了苹果在人工智能领域的持续投入和对未来科技发展的积极布局。据知名科技记者MarkGurman透露，苹果内部正在将iOS18视为一次具有历史性意义的重大更新。库克的表态进一步加强了这一猜测的可信度。消息显示，iOS18有望通

58分钟前苹果 0