学习如何忘记是否能提升AI大模型的性能？

　　发布于2024-12-15　阅读（0）

扫一扫，手机访问

参照人类大脑，学会忘记会让AI大模型变得更好？

最近，一支计算机科学家团队研发了一种更灵活、更具弹性的机器学习模型，它们具有周期性遗忘已知信息的能力，这是现有大型语言模型所不具备的特点。

实测表明，在很多情况下，“忘却法”的训练效率很高，忘却型模型表现也会更好。韩国基础科学研究院（Institute for Basic Science）的AI工程师Jea Kwon说，新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

目前主流的AI语言引擎大多采用人工神经网络技术。这种网络结构中的每个“神经元”实际上是一个数学函数，它们之间相互连接，接收和传递信息，通过多层神经元的复杂运算来实现数据处理和学习。神经网络的这种模拟方式使得AI能够模拟人类大脑的工作方式，从而实现类似人类的智能行为。

最开始时信息流或多或少都是随机的，当网络不断与训练数据匹配，神经元之间流动的信息会不断优化。例如，如果研究人员想训练一个双语翻译模型，它首先要收集海量双语文本，用文本训练模型，它会调整神经元之间的连接，将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练需要大量计算资源。如果模型性能不佳，或者用户需求发生变化，模型可能无法满足需求。

研究人员Mikel Artetxe指出：“假设你有一个包含100种语言的模型，但其中有一种语言没有被包括进去。如果想要将这种语言加入模型，就必须重新进行训练。”

几年前，Artetxe和同事用1种语言训练神经网络，他们抹去神经网络所知的单词组成信息，也就是所谓的“Tokens”。Tokens存储在神经网络的第一层，它也叫“嵌入层”。对于其它层，不去理睬。抹去第1语言的Tokens之后，用第2种语言训练，第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息，但仍然可以用第2种语言重新训练，也就是说模型可以学习、处理第2种语言。研究人员认为，虽然嵌入层存储了第2种语言的语汇特殊信息，但神经网络更底层存储了抽象信息，它涉及到人类语言的幕后概念，正是这些概念帮助模型学习第二种语言。

研究报告作者陈一红认为：“我们生活在同一个世界，用不同语言的词汇来表达相同的概念。因此，在模型中会有相同级别的推理，比如一个苹果，它是甜的、美味的，它代表着不止是一个词汇。”

将新语言添加到已训练模型中，采用“忘却法”效率很高，尽管如此，还是需要重新训练，仍然需要海量数据和强大的处理能力。有没有更好的办法？当然有，不需要训练，直接抹去嵌入层，然后再训练，也就是在初步训练时周期性重置嵌入层。

Artetxe称：“如此一来，整个模型就能适应重置。如果你想扩展模型，让它适应另一种语言，过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验，采用周期性忘却技术训练，将它与那些用标准、非忘却方法训练的模型作比较。结果发现，在处理第1种语言时，忘却型模型得分85.1分，传统标准模型得分86.1分。再用第2种语言训练，只用约500万Tokens（第一种语言用了700亿）训练，忘却型模型的精准度得分降至62.7分，标准模型降到53.3分。

再训练时如果研究人员施加计算限制，忘却型模型的表现会更好。例如，当研究人员将训练长度从125000步短到5000步，忘却型模型的平均得分约为57.8分，标准模型降到37.2分，几乎和猜测差不多。

因此研究人员得出结论：在学习语言时，忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为：“因为模型在训练时不断忘却，然后再重新学习，所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示，模型理解语言时会从更深层次着眼，不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为：“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点，记住抽象信息，而且擅长推断。让AI像人类一样处理信息，比如让它具备忘却能力，AI也许会更有弹性。“

Yihong Chen认为，未来也许会出现制造语言模型的工厂，这样的工厂需要忘却型技术，它是一个基本模型，可以快速适应新领域。（小刀）

本文转载于：https://www.51cto.com/article/783478.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：人工智能与云计算：数字世界的完美组合！

下一篇：2024年Moto G Power 5G即将发布，揭晓全面的性能配置

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

可能在本周或下周曝光的苹果iOS 17.4.1内部测试

据MacRumors网站最新的日志记录显示，苹果公司似乎正在紧锣密鼓地进行内部测试，预计iPhone的iOS17.4.1更新即将推出。MacRumors网站因为多次提前泄露iOS更新信息而备受瞩目。从iOS17.0.3到iOS17.3.1的多个版本更新，该网站都有详细报道，展示了其在行业中的权威地位和准确性。据了解，iOS17.4.1版本将主要致力于修复软件漏洞和增强系统安全性，以提供用户更稳定、安全的移动操作体验。尽管目前关于更新的详细信息尚未公布，但业内人士普遍对此持期待态度。尚无确切消息透露iOS1

7分钟前苹果 0
正版软件

劳斯莱斯Series 2古思特可能揭秘：V12动力或成绝唱

据消息透露，劳斯莱斯正全力准备其即将推出的古思特(Ghost)轿车Series2的改款升级计划。该车型将被认为是劳斯莱斯品牌中最后一批搭载V12发动机的量产车型之一，引起了众多车迷的瞩目。尽管劳斯莱斯前首席执行官托斯滕·穆勒-奥特沃斯(TorstenMüller-Ötvös)在2023年2月已确认，该品牌将在2030年全面实现电动化，所有新车型都将采用纯电动传动系统。然而，在品牌实现全面电动化之前，劳斯莱斯将继续推出搭载V12发动机的经典车型，以满足车迷们的需求。这些经典车型将继续保留品牌独有的豪华和性能

22分钟前劳斯莱斯 0
正版软件

iOS 18推出新内部版本‘VendorUI’，引起用户对新功能的热议

3月12日消息，据国外科技媒体MacRumors报道，苹果公司已开始向工厂和相关供应商分发iOS18的内部构建版本，这一版本被命名为“VendorUI”。VendorUI被视为iOS的预生产版本，用于工厂的质量控制测试，其访问权限受到苹果公司的严格控制。与面向终端消费者的原生iOS版本不同，VendorUI通常会省略某些应用程序，以确保只提供测试所需的应用程序。在WWDC之前，苹果会对分发VendorUI保持谨慎，这可能是因为VendorUI可能会引入新功能、新设置或品牌变化。这种保密措施也会引发科技爱好

37分钟前苹果 0
正版软件

大众调整生产计划，ID.3停止在沃尔夫斯堡工厂制造

根据德国媒体Handelsblatt报道，大众集团最近宣布调整其电动车生产计划。原本计划在沃尔夫斯堡工厂生产的电动车型ID.3将被取消，而茨维考工厂将继续承担这一任务。这一决定是由于ID.3的市场需求未达预期水平。沃尔夫斯堡工厂作为德国甚至全球最大的汽车工厂，自1938年建立以来一直以其巨大的规模和高产能而闻名。然而，随着电动车市场的兴起和变化，大众集团不得不做出一系列适应性调整。据小编了解，大众汽车生产主管ChristianVollmer对此表示：“归根结底，那些‘我们原本不一定需要花’的每一欧元都很重

52分钟前大众汽车 0
正版软件

曝光：2024年索尼Xperia 1 VI旗舰和中端新机RAM配置，性能提升让人期待

索尼公司正全力开发其2024年旗舰手机Xperia1VI，以及两款中端机型Xperia5VI和Xperia10VI。最近，外媒sumahodigest提前曝光了这三款新机的RAM配置信息。据报道，索尼即将推出的旗舰手机Xperia1VI将推出12GB和16GB两款RAM版本，以满足用户对性能需求的不同追求。而中端手机Xperia5VI则将搭载8GBRAM，以确保用户获得流畅的操作体验。此外，另一款中端手机Xperia10VI也将推出6GB和8GB两种RAM版本。这种多样化的配置选择显示了索尼对于不同消费者

1小时前 08:50 索尼 0

学习如何忘记是否能提升AI大模型的性能？

“忘却法”训练效率很高

忘却型模型表现更好

产品推荐

最新发布

相关推荐

热门关注