肯定科技创新成果：腾讯成功攻克万亿参数大模型训练挑战

　　发布于2024-12-20　阅读（0）

扫一扫，手机访问

中国电子学会 2023 科学技术奖授奖名单公布，这次，我们发现了一个熟悉的身影 —— 腾讯 Angel 机器学习平台。

在大模型飞速发展的当下，科学技术奖授予机器学习平台类研究和应用项目，对于模型训练平台的价值和重要性给予了充分的肯定。

来自科技进步一等奖的肯定：腾讯破解万亿参数大模型训练难题

科学技术奖认可了机器学习平台类项目的研究和应用，特别在大型模型快速发展的背景下，对模型训练平台的价值和重要性给予了充分的认可。

随着深度学习的兴起，各大公司开始认识到机器学习平台在发展人工智能技术中的重要性。谷歌、微软、英伟达等公司都推出了自己的机器学习平台，以加速人工智能模型的训练过程。这些平台为开发者提供了便捷的支持，使他们能够更快地构建和优化复杂的人工智能系统。这种趋势促使人们更加关注机器学习技术的发展，并为未来的人工智能应用打下了坚实的基础。

从2023年开始，大型模型的兴起进一步推动了模型参数量的提升。各大公司纷纷推出了参数规模达到千亿甚至万亿级别的模型，这些模型普遍采用深度神经网络结构。然而，这种发展也带来了两个核心痛点：模型分布式训练的困难以及应用复杂性所带来的模型设计挑战。

为什么是 Angel 机器学习平台？

详解四大核心技术突破

由多名院士等权威专家组成的鉴定委员会认为，腾讯 Angel 机器学习平台技术复杂度高、研制难度大、创新性强，应用前景广阔，整体技术达到国际先进水平，其中面向 all-to-all 通信的高效缓存调度与管理技术、自适应预采样与图结构搜索技术达到国际领先水平。

来自科技进步一等奖的肯定：腾讯破解万亿参数大模型训练难题

^{腾讯 Angel 平台架构图}

腾讯的 Angel 机器学习平台采用了分布式参数服务器架构，这种架构的特点是将存储模型参数和执行模型计算这两个任务分别在不同的服务器上运行。通过增加更多的服务器，可以支持更大规模、计算需求更高的模型。这种架构使得模型训练过程更为高效，能够处理大规模数据集和复杂模型计算。分布式参数服务器的设计使得系统具有良好的扩展性和灵活性，能够满足不同规模和需求的机器学习任务。这种架构的优势在于可以有效地利用集群资源，提高计算效率，并为用户提供更快速、更

面对海量数据和超大规模模型训练需求，腾讯 Angel 机器学习平台在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得技术突破。

来自科技进步一等奖的肯定：腾讯破解万亿参数大模型训练难题

为了提高训练效率，TB 级机器学习模型通常采用分布式训练方法，需要大量的参数和梯度同步，以 1.8T 模型千卡训练为例，IO 通信量达到 25TB, 耗时占比 53%，此外，加上不同算力集群间的异构网络环境，通信网络延迟不一，这些都对模型训练过程中的通信开销提出了较高的要求。腾讯 Angel 机器学习平台基于腾讯云星脉网络的高效通信与缓存调度管理技术，可有效解决 TB 级模型训练通讯开销大的问题，实现网络通信耗时减少 80%，分布式训练性能达业界主流方案的 2.5 倍。

来自科技进步一等奖的肯定：腾讯破解万亿参数大模型训练难题

现有的算力条件下，尽管模型达到 TB 级，而主流 GPU 的显存仍只有 80G，参数存储有瓶颈。针对 TB 级模型训练参数存储难的关键问题，腾讯 Angel 机器学习平台提出了显存主存统一视角存储管理机制，实现模型存储容量比业界增加 1 倍，训练性能是业界主流方案 2 倍。

来自科技进步一等奖的肯定：腾讯破解万亿参数大模型训练难题

大模型要向通用模型发展，离不开对多模态数据的处理支持，不同模态，例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上，腾讯 Angel 机器学习平台针对广告场景，提出多模态融合学习的全链路排序广告推荐技术，助力广告召回率提升 40% 以上。

来自科技进步一等奖的肯定：腾讯破解万亿参数大模型训练难题

另外，针对面向推荐系统的图模型训练，腾讯 Angel 机器学习平台设计了图节点特征自适应图网络结构搜索技术，可自动输出最优结构，解决了 TB 图模型应用中 “图数据挖掘难” 的问题，实现模型训练性能提升 28 倍，与业界比具有最优扩展性。

腾讯 Angel 机器学习平台锻造之路

腾讯混元大模型扩展到万亿规模

作为腾讯人工智能技术的基础平台，腾讯 Angel 平台诞生于 2015 年，支持 PS-Worker 分布式训练，以及十亿参数 LDA 模型的训练。

2017 年，Angel 框架在 Github 开源，向开发者开放，同时，技术上，Angel 解决了异构网络下的通信问题，性能进一步提升。2019 年，在可扩展图模型多模态理解技术取得突破，解决万亿节点可扩展图模型问题。2021 年，提出 GPU 显存统一视角存储技术，解决大模型参数存储与性能问题。

在腾讯通用人工智能大模型腾讯混元的打造中，腾讯 Angel 机器学习平台也发挥了重要作用。

2023 年 9 月，腾讯混元大模型正式对外亮相，预训练语料超 2 万亿 tokens，具有强大的中文理解与创作能力、逻辑推理能力，以及可靠的任务执行能力。

面对建设腾讯混元大模型的需求，腾讯 Angel 机器学习平台打造了自研的面向大模型训练和推理的机器学习框架 Angel PTM 和 Angel HCF，支持单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提升至主流开源框架的 2.6 倍，千亿级大模型训练可节省 50% 算力成本，升级后支持单任务万卡级别超大规模训练。在推理上，腾讯 Angel 机器学习平台推理速度提高了 1.3 倍，在腾讯混元大模型文生图的应用中，推理耗时从原本的 10 秒缩短至 3 至 4 秒。

此外，Angel 还提供了从模型研发到应用落地的一站式平台，支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力，加速大模型应用构建，腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。

腾讯混元通过采用混合专家模型 (MoE) 结构，已将模型扩展至万亿级参数规模，推动了性能提升和推理成本下降。作为通用模型，腾讯混元在中文表现上处于业界领先水平，尤其在文本生成、数理逻辑和多轮对话中性能表现卓越。目前，腾讯混元也在积极发展多模态模型，以进一步加强文生图和文生视频能力。

腾讯大量的应用场景，为腾讯 Angel 机器学习平台的落地提供了实验地。除了腾讯混元大模型，腾讯 Angel 机器学习平台也支持了腾讯广告以及腾讯会议等产品，并通过腾讯云服务多个行业和企业客户，助力各行各业的数字化和智能化发展。

以腾讯广告为例，采用腾讯 Angel 机器学习平分布式训练优化、多模态理解图数据挖掘等创新技术，广告业务场景中的多模态大模型训练速度提升 5 倍，模型规模提升 10 倍，实现广告召回率大幅提升。

本文转载于：https://www.jiqizhixin.com/articles/2024-03-27-7 如有侵犯，请联系admin@zhengruan.com删除

上一篇：如何使用腾讯电脑管家的路由器管家功能

下一篇：3月20日淘宝大赢家：在古代，官员需三品以上身穿何色衣服

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

地块确认退地，蚂蚁集团之江总部计划落地

本站3月26日消息，据杭州市规划部门称，位于浙江的“蚂蚁之江总部”已退地。一期、二期地块区位图和效果图据潮新闻报道，杭州市规划部门在问政平台上回答市民提出的问题时指出，蚂蚁金服一期地块的情况。该地块位于之江大桥北侧，由支付宝(杭州)信息技术有限公司购买，签订合同日期为2020年11月4日。该企业已于2022年7月1日向杭州市规划和自然资源局提出终止合同的申请。据本站了解，2020年10月21日，蚂蚁科技集团豪掷27亿元成功拿下一线沿江、限高130米、竞拍资格限控股公司营收千亿级的之江地标地块，将打造蚂蚁总

3分钟前蚂蚁集团 0
正版软件

三星宣布为即将发布的全球新品，将推出Galaxy Z Fold 5和Flip 5折叠屏手机

7月6日消息，三星电子今天宣布将于7月26日举行全球新品发布会，预计发布最新一代的GalaxyZFold5和Flip5折叠屏手机。这次发布会将在韩国首尔进行现场直播，与此前在纽约举办的活动不同，三星回到了自己的本土。据小编了解，GalaxyZFold5的主屏尺寸为7.6英寸，分辨率达到2176x1812，外屏尺寸为6.2英寸，分辨率为2316x904。这两块屏幕都采用了SuperAMOLED技术，并支持120Hz的刷新率。新一代折叠屏手机将搭载高通骁龙8Gen2ForGalaxy移动平台，主频为3.36G

13分钟前三星 0
正版软件

高通与索尼达成战略合作，索尼新一代智能手机将搭载高通骁龙移动平台

6月23日消息，高通与索尼今日宣布达成一项长期战略合作协议，将对索尼的未来智能手机产品线产生重大影响。根据协议，索尼新一代的顶级、高端及中端智能手机将全部采用高通骁龙移动计算平台。这一合作将使双方共同努力，将高通骁龙移动计算平台整合进索尼的智能手机产品中，共同打造下一代智能手机。索尼移动部门负责人滨口努表示，索尼搭载高通骁龙8Gen2的新款Xperia1V手机已经超出了消费者的预期，因此对于这次合作充满了信心。据小编了解，业内人士认为，这次合作对于高通来说是巩固客户关系的重要举措。在未来几年内，无论售价高

28分钟前索尼高通骁龙。 0
正版软件

美国个人电脑市场陷入低迷 2023年第一季度出货量下滑28%

05月30日消息，根据市场研究公司Canalys的数据显示，2023年第一季度，美国个人电脑(PC)市场遭遇了一次下滑。整体出货量同比下降了28%，仅达到了1400万台。具体来看，笔记本电脑的出货量下跌了31%，仅有1140万台，而台式机的下降幅度更为严重，下滑了28%，仅有270万台。据小编了解，虽然当前面临一定的困境，但Canalys预计美国个人电脑市场即将迎来复苏。根据预测，2023年第四季度的出货量将同比增长6%，而到了2024年，预计将比2023年增长13%。Canalys首席分析师IshanD

43分钟前 0
正版软件

强劲耐用：华为Mate X3颠覆折叠屏手机标杆

6月15日消息，中国各大电商平台的年中大促618即将到来。作为其中之一，京东将联合各大品牌推出一系列促销活动。今年恰逢京东二十周年庆，许多消费者希望趁此机会以最优惠的价格购买心仪之物。在618期间，不少旗舰手机也将迎来促销。华为MateX3作为备受欢迎的折叠屏旗舰手机，备受消费者青睐。作为首批MateX3用户之一，我在过去的两个多月中体验到了这款手机的卓越之处。华为MateX3具备大屏分屏功能，给我带来了极大的便利。作为经常出差的打工人，我常常需要在路上处理文档或突然加入会议。在咖啡厅准备开会的时候，我可

58分钟前 0

肯定科技创新成果：腾讯成功攻克万亿参数大模型训练挑战

产品推荐

最新发布

相关推荐

热门关注