大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

　　发布于2024-11-01　阅读（0）

扫一扫，手机访问

蚂蚁集团最近宣布推出了名为ATorch的大模型分布式训练加速扩展库，这是一个开源工具。ATorch的目标是通过自动资源动态优化和分布式训练稳定性提升，帮助提高深度学习的智能性。根据了解，在大模型训练中，ATorch可以将千亿模型千卡级别训练的算力利用率提高到60%，相当于为跑车添上了强劲的引擎。这对于深度学习的研究人员和开发者来说，将是一个重要的工具，可以帮助他们更高效地训练和优化大型模型。

大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch 图：ATorch致力于让大模型训练更高效、可复现

随着生成式大模型的爆发，模型训练的数据集和参数规模呈现指数级增长。为了满足这种庞然大物的训练需求，并且能够快速迭代模型，分布式训练已经成为解决方案之一。在这个领域中，PyTorch和TensorFlow等深度学习框架被广泛采用用于模型的构建和训练。为了更好地适应大模型训练，业内已经开展了多项工作，其中之一就是蚂蚁开源的ATorch工具包。ATorch为PyTorch等深度学习框架提供了更加适用于大模型训练的功能和工具，帮助开发者和研究人员更高效地完成模型训练任务。这一工具包的开源将进一步推动大模型训练的发展，为研究和应用领域带来更多机会和挑战。

据了解，ATorch采用了分层的架构设计，功能清晰、设计全面，可为开发者提供极致精简的开发体验，以及领先的稳定性保障。主要包括统一分布式优化策略配置接口、自动分布式策略搜索、自动弹性容错、高效动态显存管理库、自研优化器加速收敛等核心功能。作为PyTorch框架的高性能扩展加速库，ATorch可实现最少化用户代码侵入，为千亿参数大模型千卡级训练提供易用的高性能方案。

最近，在以开源模型为对象的大模型训练优化实践中，ATorch获得了出色的成绩。举例来说，它成功将清华大学开源的GLM-65b大模型的千卡预训练算力利用率从28.8%提升至62%，将Meta开发的LLama2-70b大模型的预训练算力利用率从42%提升至60%，还将英国AI公司Stability AI开发的多模态大模型Stable Diffusion的训练算力利用率从21.8%提升至58.7%。除此之外，ATorch在千卡训练稳定性方面表现出色，日均纯训练时长占比提升至95%，ckpt save耗时控制在1分钟以内，训练重启耗时最快只需5分钟，达到了行业领先水平。

目前，ATorch已经整合到蚂蚁集团的开源产品DLRover中，该产品是基于云原生技术构建的智能分布式深度学习系统。ATorch的加入使得大模型开发者能够更专注于模型架构的设计，无需繁琐地处理工程细节，从而提高训练效率和智能化程度。

本文转载于：https://www.jiqizhixin.com/articles/2024-01-09-2 如有侵犯，请联系admin@zhengruan.com删除

上一篇：宏碁 2023 年营收 2413.21 亿元新台币

下一篇：win10系统更新某些设置由你的组织来管理

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

动感地平线：英菲尼迪发布全新品牌标识与三维特性

6月25日消息，随着电气化趋势的不断加强，许多汽车制造商决定通过更换品牌标识来突出对电气化的重视，并突显其品牌特色。继别克、大众、起亚等厂商之后，近日日本豪华品牌英菲尼迪也宣布升级其品牌标识，并推出全新的标志和三维标识。英菲尼迪的新品牌标识源自于两大设计理念，即"无限之路"和"地平线"。据英菲尼迪官方介绍，新标识首次采用了"动感地平线"的视觉设计，展示了英菲尼迪迈向新曙光的决心和无限创造力的信念。新标识底部的开口更宽，象征着更大的可能性。此外，原有标识内部的尖顶也经过改变，新版本的标志将两条平直的线延伸到

7分钟前地平线品牌标识三维特性 0
正版软件

更好、更安全、更不依赖OpenAI，微软的AI新动向，推出大模型安全工具Azure AI

编译丨伊风出品|51CTO技术栈（微信号：blog51cto）生成性人工智能（generativeAI）的需求正不断增长，而对LLM安全和可靠性的担忧也变得比以往任何时候都更加突出。企业希望能确保为内外部使用而开发的大规模语言模型（LLM）能够提供高质量的输出，而不会偏离到未知领域。为了满足这一需求，有几个关键方面需要考虑。首先，应该加强对LLM模型的可解释性，使其能够透明地展示其生成结果的来源和逻辑推理过程。这将有助于用户理解输出的质量，并评估其可信度。其次，需要提供更多的工具和技术来验证和检测LLM输

17分钟前模型 OpenAI API 0
正版软件

vivo Y27 5G手机现身Google Play管理中心，或为Y36 5G的不同地区版本

5月31日消息，vivo在本月忙碌不已，相继在中国和国际市场推出了一系列新款智能手机。其中包括vivoS17系列、vivoY36、vivoY35m和vivoY78，同时还有vivoV29系列正在紧锣密鼓地筹备中。最新消息显示，vivoY275G手机已经在GooglePlay管理中心现身。据小编了解，vivoY275G手机的型号为V2248，与最近发布的vivoY365G型号相同，这暗示vivoY27可能只是该款手机在不同地区的另一个命名版本。vivoY275G手机将搭载联发科MT6833芯片，此前被称为天

32分钟前 vivo 0
正版软件

今日清明节：气清景明，万物皆显

本月4月4日消息，今天是我国二十四节气中的清明节。“清明”有冰雪消融，草木青青，天气清彻，万物欣欣向荣之意。清明时，气清景明，万物皆显，因此得名。清明，既是节气，又是节日。说到清明节，很多人会想起“清明时节雨纷纷，路上行人欲断魂”的名句。是的，清明一到，气温升高，雨量增多，正是春暖花开的大好时节。清明时节清明节又叫踏青节，是中国传统节日之一，也是最重要的祭祀节日之一，是祭祖和扫墓的日子。在传统社会中，清明节是一个特别盛大的节日，除了扫墓祭奠、怀念离世亲人，它还是踏青嬉游、亲近大自然的节日。4月5日9点12

48分钟前清明节二十四节气 0
正版软件

iPhone、Mac、iPad抵扣金额上涨！苹果换购计划优惠来袭

7月6日消息，苹果中国近日对其AppleTradeIn换购计划进行了调整，为苹果设备的老用户带来了喜讯。据小编了解，在该计划中，iPhone、Mac、iPad等设备的以旧换新抵扣金额都得到了上涨。针对iPhone产品，iPhone13ProMax的最高抵扣金额达到5500元人民币，iPhone13Pro为4900元人民币，iPhone13为3350元人民币，iPhone13mini为3000元人民币，而iPhone12ProMax的最高抵扣金额为3800元人民币，新发布的iPhoneSE第三代则为1800

1小时前 20:00 优惠计划换购 0

大模型训练算力利用率达60%，蚂蚁开源分布式训练扩展库ATorch

产品推荐

最新发布

相关推荐

热门关注