DeepSeek 开源周进度更新至 4/5,本次开源了优化并行策略的项目,包括 DualPipe 双向管道并行算法和 EPLB 专家并行负载平衡器。DualPipe 实现了正向和反向计算-通信阶段的完全重叠,减少了流水线气泡。EPLB 用于 V3/R1 中专家并行的负载平衡,通过冗余专家策略和启发式方法分配复制的专家到 GPU 上,以保持负载平衡。同时,还分享了 V3/R1 中计算-通信重叠的分析数据,以帮助社区理解通信-计算重叠策略和底层实现细节。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验