12至16末成年毛片视频,一级毛片免费电影,国产精品秦先生手机在线

摩爾線程GPU實力展現：快速適配DeepSeek開源庫，原生FP8計算能力引關注！

發布時間：2025-02-26 22:27 來源：ITBEAR 作者：任飛揚

近日，DeepSeek宣布啟動“開源周”活動，并陸續釋放了三個重要的代碼庫資源。國產GPU領域的佼佼者摩爾線程迅速響應，成功完成了對FlashMLA和DeepGEMM兩大開源項目的適配工作。

摩爾線程此番適配的GPU產品，基于其自主研發的MUSA Compute Capability 3.1計算架構。這一架構不僅提供了原生的FP8精度計算能力，還對高性能線性代數模板庫MUTLASS進行了全面升級，從而快速支持了FlashMLA的應用。

不僅如此，摩爾線程還充分利用了MUTLASS的優勢，在新一代GPU架構上實現了FP8矩陣乘法的優化。這一成果使得摩爾線程的GPU能夠完美支持DeepGEMM的相關功能，進一步提升了其在大規模模型訓練和推理方面的性能。

FlashMLA是一個專注于加速MLA推理的內核開源項目，特別適用于DeepSeek系列模型，如DeepSeek-V2、V3和R1等。而DeepGEMM則是一個專為密集矩陣與混合專家（MoE）矩陣乘法設計的FP8 GEMM庫，能夠為V3/R1的訓練與推理提供強大的計算支持。

這兩個開源項目均基于高性能通用矩陣乘法（GEMM）的C++模板庫進行開發，具有極高的靈活性和可擴展性。摩爾線程能夠快速適配這些項目，得益于其GPU架構的創新設計和MUTLASS庫的強大支持。

摩爾線程的新一代GPU不僅具備全新的Tensor計算引擎和數據搬運引擎，還提供了原生FP8計算能力。這使得摩爾線程的GPU在處理前沿算法時，能夠保持足夠高的累加精度，無需額外的二次精度修正。

MUTLASS 0.2.0版本的發布，更是為摩爾線程的開源生態注入了新的活力。借助這一版本，摩爾線程推出了MT-FlashMLA開源倉庫，實現了對DeepSeek FlashMLA的快速兼容部署。同時，MUTLASS還提供了一個全新的參考實現，充分借鑒了FlashAttention3的先進算法思想，為摩爾線程GPU設計了高效的計算流水線。

這一計算流水線的設計，有效隱藏了數據搬運的延遲和Softmax計算的開銷，充分發揮了摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。這無疑為摩爾線程在AI計算領域的競爭力注入了強勁的動力。

對于開發者而言，摩爾線程的開源資源無疑是一筆寶貴的財富。他們可以通過訪問以下鏈接，獲取MT-FlashMLA和MUTLASS的相關資源：

MT-FlashMLA開源地址：https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址：https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

更多>同類內容

午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

摩爾線程GPU實力展現：快速適配DeepSeek開源庫，原生FP8計算能力引關注！