中国团队开发的7B开源数学模型超越千亿GPT-4

　　发布于2024-11-30　阅读（0）

扫一扫，手机访问

7B开源模型，数学能力超过了千亿规模的GPT-4！

它的表现可谓是突破了开源模型的极限，连阿里通义的研究员也感叹缩放定律是不是失效了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

无需借助任何外部工具，它就能在竞赛水平的MATH数据集上达到51.7%的准确率。

在开源模型中，它第一个在该数据集上达到一半的准确率，甚至超过了早期和API版本的GPT-4。

7B开源数学模型干翻千亿GPT-4，中国团队出品

这一表现让整个开源社区震惊，Stability AI的创始人Emad Mostaque称赞研发团队令人印象深刻，潜力被低估了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

它，就是深度求索团队最新开源的7B数学大模型DeepSeekMath。

7B模型力压群雄

为了评估DeepSeekMath的数学能力，研究团队使用了中（MGSM-zh、CMATH）英（GSM8K、MATH）双语的数据集进行了测试。

在未使用辅助工具、仅靠思维链（CoT）提示的情况下，DeepSeekMath的表现均超越了其他开源模型，其中包括70B的数学大模型MetaMATH。

和自家推出的67B通用大模型相比，DeepSeekMath的成绩也有大幅提升。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如果考虑闭源模型，DeepSeekMath也是在几个数据集上都超越了Gemini Pro和GPT-3.5，在中文的CMATH上超越了GPT-4，MATH上的表现也与之接近。

但要注意的是，GPT-4按泄露规格是一个千亿参数的庞然大物，而DeepSeekMath参数量只有7B。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如果允许使用工具（Python）进行辅助，DeepSeekMath在竞赛难度（MATH）数据集上的表现还能再提高7个百分点。

7B开源数学模型干翻千亿GPT-4，中国团队出品

那么，DeepSeekMath优异表现的背后，都应用了哪些技术呢？

基于代码模型打造

为了获得比从通用模型更好的数学能力，研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

因为团队发现，无论是在两阶段训练还是一阶段训练设置下，代码训练相比于通用数据训练都可以提升模型的数学能力。

7B开源数学模型干翻千亿GPT-4，中国团队出品

在Coder的基础上，研究团队继续训练了5000亿token，数据分布如下图：

7B开源数学模型干翻千亿GPT-4，中国团队出品

训练数据方面，DeepSeekMath使用的是从Common Crawl提取的120B高质量数学网页数据，得到了DeepSeekMath Corpus，总数据量是开源数据集OpenWebMath的9倍。

数据采集过程是迭代式进行的，经过四次迭代，研究团队收集了3500多万个数学网页，Token数量达到了1200亿。

7B开源数学模型干翻千亿GPT-4，中国团队出品

为了确保训练数据中不包含测试集的内容（因为GSM8K、MATH中的内容在互联网上大量存在），研究团队还专门进行了过滤。

为了验证DeepSeekMath Corpus的数据质量，研究团队分别用MathPile等多个数据集训练了1500亿token，结果Corpus在多个数学基准上效果明显领先。

7B开源数学模型干翻千亿GPT-4，中国团队出品

对齐阶段，研究团队首先构建了一个776K样本的中英文数学指导监督微调（SFT）数据集，其中包括CoT、PoT和工具集成推理等三种格式。

而在强化学习（RL）阶段，研究团队使用了一种名为“基于组的相对策略优化”（Group Relative Policy Optimization ，GRPO）的高效算法。

GRPO是近端策略优化（PPO）的一种变体，过程中传统的价值函数被替换为一个基于组的相对奖励估计，可以减少训练过程中的计算和内存需求。

同时，GRPO通过迭代过程进行训练，奖励模型会根据策略模型的输出不断更新，以确保策略的持续改进。

7B开源数学模型干翻千亿GPT-4，中国团队出品

曾推出首个国产开源MoE模型

推出DeepSeekMath的深度求索团队，是国内开源模型领域的一名“头部选手”。

此前，该团队就曾推出过首个国产开源MoE模型DeepSeek MoE，它的7B版本以40%的计算量击败了相同规模的密集模型Llama 2。

作为通用模型，DeepSeek MoE在代码和数学任务上的表现就已十分亮眼，而且资源消耗非常低。

7B开源数学模型干翻千亿GPT-4，中国团队出品

代码方面，该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

同时，它也击败了GPT-3.5-Turbo，成为最接近GPT-4-Turbo的开源代码模型。

7B开源数学模型干翻千亿GPT-4，中国团队出品

如前文所说，此次推出的DeepSeekMath，也正是在Coder的基础之上打造的。

而在X上，已经有人开始在期待Coder和Math的MoE版本了。

7B开源数学模型干翻千亿GPT-4，中国团队出品

论文地址：https://arxiv.org/abs/2402.03300

本文转载于：https://www.51cto.com/article/781276.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：使用 iPhone 上的 Apple Music，快速添加歌曲以播放下一首的三种方法

下一篇：斯坦福和OpenAI联合推出meta-prompting，实现了最强零样本prompting技术的突破

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

奈飞市值增长 700 亿美金，如何实现这一成就？

持续数年的流媒体平台之争，即将迎来大结局。作者|连冉编辑|郑玄传统娱乐巨头与奈飞的流媒体战争中，他们正在逐渐失去优势。而AI技术导致的好莱坞编剧罢工，则成为2023年的致命打击。近日，据《金融时报》等媒体报道，因为花费了大量资金内容在内容制作上，迪士尼、华纳兄弟探索频道、康卡斯特和派拉蒙等传统娱乐巨头的流媒体服务在2023年的损失达50亿美元以上。投资者们对这些巨头的流媒体业务的态度发生了180度转弯，从之前的看好已经转为期待后者尽快缩减规模或者将其剥离。奈飞推出流媒体视频服务时，与传统美国影视巨头之间曾

10分钟前流媒体网飞 0
正版软件

高合汽车就薪资延迟支付和高管自愿减薪事件回应：情况属实

本站2月8日消息，日前，有网友称高合汽车在2月7日召开了员工大会并作出通知：1月的工资无法按时发放、2023年年终奖取消、建议员工自寻出路等。据新浪财经报道，针对此事，高合汽车在接受媒体采访时表示：针对公司公告里的信息确有其事。根据生产经营的实际情况，公司正在采取比如高管主动降薪、缓发工资等调整措施面对内外部的挑战。但是，网传全员居家办公是不实信息，春节前有些同事休假提前回家。在去年10月，部分职场类App就有高合员工声称公司开始进行20%比例的裁员，有的部门裁了50%。对于“比例高达20%的大规模裁员”

15分钟前高合汽车 0
正版软件

丹麦隐私审查机构限制与谷歌分享学生数据，或许需要禁用Chromebook

据BleepingComputer报道，丹麦隐私监管机构Datatilsynet最近做出裁决，要求丹麦各城市在使用可能泄露儿童数据的谷歌服务之前，必须获得更加充分的隐私保障。监管机构发现，谷歌将来自Chromebook和GoogleWorkspaceforEducation的学生数据用于其自身目的，违反了欧洲隐私法。这一裁决意味着，丹麦城市必须确保使用谷歌服务不会给儿童数据的隐私带来风险，并采取适当的措施来保护这些数据的安全。这也是欧洲各国在保护儿童隐私方面越来越重视的一个例子。根据本站的了解，据Data

30分钟前谷歌 0
正版软件

特斯拉或有裁员计划，要求经理确定重要团队成员

据彭博社报道，特斯拉近日似乎计划进行新一轮裁员，要求经理们确定其团队中的“关键”成员。据知情人士透露，最近几天，特斯拉的美国经理受到要求对其下属进行“二元评估”，以确定员工在岗位上的重要性。消息人士称，特斯拉之前取消了部分员工的半年绩效评估。特斯拉最近的裁员举动引发了外界对其未来的担忧。虽然特斯拉裁员并不罕见，但这次裁员可能意味着公司正面临一些挑战。过去，特斯拉一直以迅猛的人员扩张而闻名，但近年来，招聘速度已经放缓。2022年，特斯拉新增员工2.9万人，而2023年仅新增1.2万人。这一数字反映了公司在扩

1小时前 23:00 特斯拉裁员 0
正版软件

德国法院禁止英特尔在该国销售部分处理器，裁定其侵犯了R2半导体专利

德国杜塞尔多夫地区法院裁定英特尔侵犯了R2半导体的专利，并颁布了禁令，禁止在德国销售部分英特尔前代处理器。报道指出，戴尔和惠普设备也可能受到此禁令的影响。图源Pexels德国法院禁止销售某些英特尔处理器及相关设备，英特尔则主张其产品不侵犯R2半导体的专利，并要求法院宣告该专利无效。本站注意到，涉案的欧洲专利涉及电压调节技术。根据R2半导体的声称，英特尔的酷睿系列处理器，包括IceLake、TigerLake、AlderLake和Xeon可扩展"IceLake服务器"处理器，以及搭载这些处理器的消费类笔记本

1小时前 22:45 半导体英特尔专利 0

中国团队开发的7B开源数学模型超越千亿GPT-4

7B模型力压群雄

基于代码模型打造

曾推出首个国产开源MoE模型

产品推荐

最新发布

相关推荐

热门关注