聯想今日宣布,其首款采用AMD技術的AI大模型訓練服務器——聯想問天WA7785a G3,在單機部署671B(即滿血版)DeepSeek大模型時,成功實現了6708 token/s的極限吞吐量,刷新了單臺服務器運行大模型的性能記錄。這一成就不僅彰顯了聯想在AI基礎設施領域的深厚技術積累和快速研發響應能力,更在AI算力競爭日益激烈的當下,以卓越的技術實力樹立了新的行業標桿。
聯想問天WA7785a G3服務器之所以能夠達到如此高的性能,得益于聯想萬全異構智算平臺的強大支持。該平臺通過一系列創新手段,如訪存優化、顯存優化、PCIe 5.0全互聯架構創新以及精選SGLang框架中性能最優的算子,對大模型從預訓練到推理的全過程進行了深度優化。在實測中,該服務器在部署DeepSeek 671B大模型時,最高吞吐量達到了6708 token/s。
在具體應用場景中,聯想問天WA7785a G3同樣表現出色。在模擬問題對話場景(上下文序列長度分別為128和1K)時,該服務器最高可支持158個并發用戶,TPOT為93毫秒,TTFT為2.01秒。而在模擬代碼生成場景(上下文序列長度分別為512和4K)時,并發數可達140,TPOT為100毫秒,TTFT為5.53秒。這一性能水平意味著,單臺聯想問天WA7785a G3服務器足以支撐1500人規模企業的正常使用。
此次性能突破的背后,是聯想中國基礎設施業務群、聯想研究院ICI實驗室與AMD的深度合作與協同調優。雙方聯合設計、共同實現了這一突破,并仍在持續探索深度調優的新方法,以期實現更高的性能突破。這一合作不僅體現了聯想與AMD在技術創新上的緊密合作,更展示了雙方在AI算力領域的領先地位。
聯想問天WA7785a G3服務器的卓越性能,離不開其硬核的硬件配置。該服務器搭載了2顆AMD處理器和8顆AMD新一代Instinct OAM GPU,這些強大的算力引擎為大模型訓練、推理等場景提供了堅實的支持。同時,WA7785a G3還擁有超大的顯存容量,單顆GPU的HBM3e顯存容量高達192GB,總計達1.5TB。這一超大顯存使得單機在支持全量模型推理時,仍能保持充足的KV緩存空間,滿足大模型并行計算時對跨節點通信的高帶寬需求。
聯想問天WA7785a G3的獨特架構設計也為其卓越性能提供了有力保障。該服務器采用三重獨立風道設計,分別針對CPU節點、GPU節點和交換機節點進行精準散熱控制,提高了散熱效率,確保了服務器的穩定性和可靠性。這一設計不僅有助于最大程度地釋放算力潛能,還突破了帶寬限制,使得聯想問天WA7785a G3成為用戶首選的大模型推理服務器。