在DeepSeek開(kāi)源周的精彩延續(xù)中,摩爾線程于近日宣布了一項(xiàng)重大進(jìn)展——成功集成并開(kāi)源了針對(duì)DeepSeek通信庫(kù)DeepEP與并行算法DualPipe的支持。這一成果標(biāo)志著摩爾線程在推動(dòng)大模型訓(xùn)練與推理效率方面邁出了堅(jiān)實(shí)的一步,相關(guān)開(kāi)源代碼倉(cāng)庫(kù)MT-DeepEP與MT-DualPipe也隨之亮相。
DeepEP,這一專(zhuān)為混合專(zhuān)家(MoE)模型設(shè)計(jì)的開(kāi)源通信庫(kù),通過(guò)優(yōu)化通信信道的使用,顯著提升了大模型訓(xùn)練的效率,特別是在集群訓(xùn)練中展現(xiàn)出卓越性能。摩爾線程憑借MUSA Compute Capability 3.1全功能GPU的強(qiáng)大實(shí)力,成功適配了DeepEP,并引入了一系列創(chuàng)新特性,包括高效優(yōu)化的All-to-All通信機(jī)制、MTLink + GPU節(jié)點(diǎn)內(nèi)通信支持、高吞吐量與低延遲計(jì)算核心的靈活切換、原生FP8數(shù)據(jù)分發(fā)能力,以及GPU資源的靈活調(diào)度,實(shí)現(xiàn)了計(jì)算與通信的高效協(xié)同。
另一方面,DualPipe作為DeepSeek-V3的核心算法,通過(guò)實(shí)現(xiàn)前向與后向計(jì)算階段計(jì)算與通信的完全重疊,有效減少了“流水線氣泡”,即設(shè)備空閑等待時(shí)間,從而進(jìn)一步提升了訓(xùn)練效率。摩爾線程依托其深度學(xué)習(xí)框架Torch-MUSA(已開(kāi)源)及MUSA軟件棧的全面兼容性,成功實(shí)現(xiàn)了對(duì)DualPipe算法的支持。目前,MT-DualPipe已無(wú)縫接入摩爾線程的MT-Megatron與MT-TransformerEngine框架(后者即將開(kāi)源),能夠完整復(fù)現(xiàn)DeepSeek V3的訓(xùn)練流程。
值得注意的是,MT-DualPipe與MT-Megatron的結(jié)合,不僅實(shí)現(xiàn)了DeepSeek V3模型中MLP-FFN與DW-DG的分離,進(jìn)一步降低了氣泡占比,還優(yōu)化了通信效率。同時(shí),MT-DualPipe與MT-TransformerEngine及MT-DeepEP的協(xié)同工作,借助MT-DeepEP的異步通信引擎,實(shí)現(xiàn)了更高效的通信掩蓋,有效降低了對(duì)計(jì)算資源的損耗。這一系列創(chuàng)新技術(shù)的融合,無(wú)疑為摩爾線程在大模型訓(xùn)練與推理領(lǐng)域的發(fā)展注入了強(qiáng)勁動(dòng)力。
對(duì)于有志于探索大模型訓(xùn)練與推理技術(shù)的開(kāi)發(fā)者而言,摩爾線程的開(kāi)源成果無(wú)疑提供了一套強(qiáng)大的工具集。Torch-MUSA開(kāi)源地址的公布,更是為開(kāi)發(fā)者們打開(kāi)了一扇通往高效深度學(xué)習(xí)實(shí)踐的大門(mén)。