吴越:给30年演戏生涯一份意义非... 业界话低空经济未来:突破技术难... 文化中国行 | AI诗画二十四节气... 网传李现和瞿友宁二搭《你那儿几... 未授权演出又现,琼瑶方面再度发...
栏目分类
热点资讯
>> 你的位置:威海智慧教育云平台app > 新闻动态 > DeepSeek开源第四弹“教”优化,梁文锋参与研发

DeepSeek开源第四弹“教”优化,梁文锋参与研发

发布日期:2025-04-18 07:50    点击次数:186

  

2月27日,DeepSeek开源周(OpenSourceWeek)第四弹来了,DeepSeek在X上宣布这次开源的是三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术,通过这些阐述可以清晰了解团队是如何精细地优化计算和通信,最大限度利用GPU能力的。

这三项优化并行策略其中包括DualPipe,这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,这种算法能够完全重叠前向和后向计算通信阶段,与传统方法相比减少了“流水线气泡”(设备在某些时刻的空闲等待)。 在DualPipe的开发团队署名中,包括创始人梁文锋。

优化并行策略第二项是EPLB(Expert Parallelism Load Balancer,专家并行负载均衡器),它针对V3/R1模型,解决MoE(混合专家)模型在分布式训练和推理中的负载不平衡问题。

当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会根据当前的工作负载而变化,因此保持不同GPU的负载平衡非常重要。DeepSeek曾在V3论文中提到,团队采用冗余专家策略来重复重载专家,他们创新地将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。

在第三部分, DeepSeek直接分享了来自训练和推理框架的性能分析数据,以帮助社区更好地了解通信计算重叠策略和低级实现细节。这些数据是用PyTorch Profiler采集的,下载后可以直接在 Chrome或 Edge 浏览器中打开,进行可视化分析,DeepSeek还模拟了绝对平衡的MoE 路由策略用于性能分析。

DeepSeek这四天的发布都与Infra层的算法有关,分享团队最大限度利用GPU能力的技术细节。大模型生态社区OpenCSG(开放传神)创始人陈冉此前对第一财经举例表示,“相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到900公里。”DeepSeek的模型为什么能够实现较好的效果,对应有一些算法和相应的框架,而这些“脚手架”的开源有利于之后的生态搭建。

陈冉判断,DeepSeek的代码开源或许会影响一批做AI Infra层的从业者,“AI Infra层的人要找新的方向。”但他同时表示,这种开源是一把双刃剑,如果能将DeepSeek开源的内容用好可能也会得利,“用不好就被冲击”。

此前三日,DeepSeek陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA,用于MoE模型训练和推理的DeepEP通信库,以及可支持MoE的FP8 GEMM代码库DeepGEMM。

从GitHub上获得的星标来看,这些项目颇受欢迎,截至发稿,FlashMLA已在GitHub获得超过1万星标,DeepEP的星标已有6000,DeepGEMM目前超过3700,最新发布的DualPipe星标超过700。

就在昨日,DeepSeek还在海内外同时宣布了API 错峰优惠,自2月26日起,北京时间每日00:30至08:30的夜间空闲时段,API 调用价格大幅下调:DeepSeek-V3 降至原价的 50%,DeepSeek-R1 更低至 25%。DeepSeek鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。

另外,也有消息称,DeepSeek正寻求巩固自身优势,尽早推出R2模型,消息提到DeepSeek原本计划在5月初发布R2模型,目前会加快这一速度。DeepSeek目前并未对此回应。

此前DeepSeek在R1论文中提到,R1 的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。

业界认为,DeepSeek-R2的发布可能是AI行业的一个关键节点。

举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者

刘晓洁

相关阅读 AI进化速递丨DeepSeek回应“理论日利润346万元”

DeepSeek最高日赚346万元?官方称理论收益并非实际;清华大学2025年将适度扩招本科生,重点培养“AI+”拔尖创新人才。

31 03-02 20:35 AI进化速递|DeepSeek首次披露理论利润率达545%

DeepSeek首次公布模型推理系统优化细节,披露理论利润率达545%;腾讯元宝上线电脑客户端版本;OpenAI拟将Sora整合进ChatGPT。

58 03-01 20:50 接入DeepSeek!险企“狂飙”

DeepSeek宛如一把钥匙,开启保险行业智能化变革的大门。

349 02-28 20:39 锐意探索,深度应用:安永中国的DeepSeek实践与观察(审计篇)

安永中国深度参与人工智能技术的探索与应用实践,以领先技术驱动商业价值的创新变革。

70 02-28 12:49 一个向左一个向右, OpenAI与DeepSeek 谁能主导AI竞争格局?

OpenAI 发布了昂贵的GPT-4.5,而DeepSeek进行着最后一天的代码开源分享。

465 02-28 13:20 一财最热 点击关闭

上一篇:没有了

下一篇:没有了

Powered by 威海智慧教育云平台app @2013-2022 RSS地图 HTML地图