午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

摩爾線程GPU實力展現:快速適配DeepSeek開源庫,原生FP8計算能力引關注!

   發布時間:2025-02-26 22:27 作者:任飛揚

近日,DeepSeek宣布啟動“開源周”活動,并陸續釋放了三個重要的代碼庫資源。國產GPU領域的佼佼者摩爾線程迅速響應,成功完成了對FlashMLA和DeepGEMM兩大開源項目的適配工作。

摩爾線程此番適配的GPU產品,基于其自主研發的MUSA Compute Capability 3.1計算架構。這一架構不僅提供了原生的FP8精度計算能力,還對高性能線性代數模板庫MUTLASS進行了全面升級,從而快速支持了FlashMLA的應用。

不僅如此,摩爾線程還充分利用了MUTLASS的優勢,在新一代GPU架構上實現了FP8矩陣乘法的優化。這一成果使得摩爾線程的GPU能夠完美支持DeepGEMM的相關功能,進一步提升了其在大規模模型訓練和推理方面的性能。

FlashMLA是一個專注于加速MLA推理的內核開源項目,特別適用于DeepSeek系列模型,如DeepSeek-V2、V3和R1等。而DeepGEMM則是一個專為密集矩陣與混合專家(MoE)矩陣乘法設計的FP8 GEMM庫,能夠為V3/R1的訓練與推理提供強大的計算支持。

這兩個開源項目均基于高性能通用矩陣乘法(GEMM)的C++模板庫進行開發,具有極高的靈活性和可擴展性。摩爾線程能夠快速適配這些項目,得益于其GPU架構的創新設計和MUTLASS庫的強大支持。

摩爾線程的新一代GPU不僅具備全新的Tensor計算引擎和數據搬運引擎,還提供了原生FP8計算能力。這使得摩爾線程的GPU在處理前沿算法時,能夠保持足夠高的累加精度,無需額外的二次精度修正。

MUTLASS 0.2.0版本的發布,更是為摩爾線程的開源生態注入了新的活力。借助這一版本,摩爾線程推出了MT-FlashMLA開源倉庫,實現了對DeepSeek FlashMLA的快速兼容部署。同時,MUTLASS還提供了一個全新的參考實現,充分借鑒了FlashAttention3的先進算法思想,為摩爾線程GPU設計了高效的計算流水線。

這一計算流水線的設計,有效隱藏了數據搬運的延遲和Softmax計算的開銷,充分發揮了摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。這無疑為摩爾線程在AI計算領域的競爭力注入了強勁的動力。

對于開發者而言,摩爾線程的開源資源無疑是一筆寶貴的財富。他們可以通過訪問以下鏈接,獲取MT-FlashMLA和MUTLASS的相關資源:

MT-FlashMLA開源地址:https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址:https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

 
 
更多>同類內容
全站最新
熱門內容
本欄最新