DeepSeek开源第四弹“教”优化，梁文锋参与研发

发布日期：2025-04-18 07:50 点击次数：187

2月27日，DeepSeek开源周（OpenSourceWeek）第四弹来了，DeepSeek在X上宣布这次开源的是三项优化并行策略，并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术，通过这些阐述可以清晰了解团队是如何精细地优化计算和通信，最大限度利用GPU能力的。

这三项优化并行策略其中包括DualPipe，这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法，这种算法能够完全重叠前向和后向计算通信阶段，与传统方法相比减少了“流水线气泡”（设备在某些时刻的空闲等待）。在DualPipe的开发团队署名中，包括创始人梁文锋。

优化并行策略第二项是EPLB（Expert Parallelism Load Balancer，专家并行负载均衡器），它针对V3/R1模型，解决MoE（混合专家）模型在分布式训练和推理中的负载不平衡问题。

当使用专家并行（EP）时，不同的专家被分配到不同的GPU。由于不同专家的负载可能会根据当前的工作负载而变化，因此保持不同GPU的负载平衡非常重要。DeepSeek曾在V3论文中提到，团队采用冗余专家策略来重复重载专家，他们创新地将重复的专家打包到GPU上，以确保不同GPU之间的负载平衡。

在第三部分， DeepSeek直接分享了来自训练和推理框架的性能分析数据，以帮助社区更好地了解通信计算重叠策略和低级实现细节。这些数据是用PyTorch Profiler采集的，下载后可以直接在 Chrome或 Edge 浏览器中打开，进行可视化分析，DeepSeek还模拟了绝对平衡的MoE 路由策略用于性能分析。

DeepSeek这四天的发布都与Infra层的算法有关，分享团队最大限度利用GPU能力的技术细节。大模型生态社区OpenCSG（开放传神）创始人陈冉此前对第一财经举例表示，“相当于以前DeepSeek是直接给一辆车，告诉大家这辆车续航900公里，但是现在DeepSeek在深挖，用什么方式能够开到900公里。”DeepSeek的模型为什么能够实现较好的效果，对应有一些算法和相应的框架，而这些“脚手架”的开源有利于之后的生态搭建。

陈冉判断，DeepSeek的代码开源或许会影响一批做AI Infra层的从业者，“AI Infra层的人要找新的方向。”但他同时表示，这种开源是一把双刃剑，如果能将DeepSeek开源的内容用好可能也会得利，“用不好就被冲击”。

此前三日，DeepSeek陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA，用于MoE模型训练和推理的DeepEP通信库，以及可支持MoE的FP8 GEMM代码库DeepGEMM。

从GitHub上获得的星标来看，这些项目颇受欢迎，截至发稿，FlashMLA已在GitHub获得超过1万星标，DeepEP的星标已有6000，DeepGEMM目前超过3700，最新发布的DualPipe星标超过700。

就在昨日，DeepSeek还在海内外同时宣布了API 错峰优惠，自2月26日起，北京时间每日00:30至08:30的夜间空闲时段，API 调用价格大幅下调：DeepSeek-V3 降至原价的 50%，DeepSeek-R1 更低至 25%。DeepSeek鼓励用户充分利用这一时段，享受更经济更流畅的服务体验。

另外，也有消息称，DeepSeek正寻求巩固自身优势，尽早推出R2模型，消息提到DeepSeek原本计划在5月初发布R2模型，目前会加快这一速度。DeepSeek目前并未对此回应。

此前DeepSeek在R1论文中提到，R1 的性能将在下一个版本得到改善，因为相关的RL（强化学习）训练数据还很少。随着RL数据的增加，模型解决复杂推理任务的能力持续稳定提升，且会自然涌现出一些复杂行为能力。

业界认为，DeepSeek-R2的发布可能是AI行业的一个关键节点。

举报第一财经广告合作，请点击这里此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部：021-22002972或021-22002335；banquan@yicai.com。文章作者

刘晓洁