英偉達(dá)在最新的GTC 2025大會(huì)上,不僅展示了其最新的計(jì)算芯片技術(shù),還描繪了未來AI領(lǐng)域的宏偉藍(lán)圖。盡管備受矚目的新一代“核彈級(jí)”芯片Rubin還需等待至2026年下半年才能面世,但英偉達(dá)現(xiàn)有的Blackwell Ultra芯片已足夠令業(yè)界矚目。
Blackwell Ultra作為Blackwell系列的升級(jí)版,性能與帶寬均有顯著提升,且支持最新的NVLink技術(shù),實(shí)現(xiàn)了更高的數(shù)據(jù)傳輸速度和帶寬。這款芯片已開始接受預(yù)訂,雖然價(jià)格不菲,但考慮到其強(qiáng)大的性能,市場反響依然熱烈。據(jù)透露,亞馬遜、微軟等科技巨頭已提前預(yù)訂了360萬顆Blackwell Ultra芯片,以進(jìn)一步擴(kuò)展其全球AI算力中心。
英偉達(dá)在發(fā)布會(huì)上強(qiáng)調(diào),Blackwell Ultra的顯存已升級(jí)至288GB,在NVL72狀態(tài)下,其AI性能是前代GB200的1.5倍。盡管這一提升幅度相較于從Hopper架構(gòu)到Blackwell架構(gòu)的飛躍略顯保守,但英偉達(dá)著重指出,F(xiàn)P4推理性能提高了50%。這一提升得益于算力資源的重新分配,F(xiàn)P4推理性能的提升是以犧牲FP64和INT8推理性能為代價(jià)的。
隨著AI模型對(duì)算力和帶寬需求的日益增長,Blackwell Ultra的顯存增長顯得尤為重要。英偉達(dá)透露,F(xiàn)P8和FP4為主的低精度訓(xùn)練正逐漸成為主流,這得益于DeepSeek等技術(shù)的開源,使得低精度訓(xùn)練在保證準(zhǔn)確性的同時(shí),大幅降低了訓(xùn)練成本和推理成本。
展望未來,英偉達(dá)真正的下一代芯片Rubin更是令人期待。單芯片F(xiàn)P4性能提升至25 PFLOPS,雙芯片設(shè)計(jì)的Rubin則高達(dá)50 PFLOPS,是Blackwell Ultra的三倍以上。顯存也升級(jí)為HBM4,帶寬從8TB/s躍升至13TB/s,NVLink狀態(tài)下吞吐量更是達(dá)到前代的兩倍。Rubin支持NVL144,即單個(gè)機(jī)柜最高可串聯(lián)144顆芯片,提供高達(dá)3.6EF的FP4算力,遠(yuǎn)超當(dāng)前Blackwell Ultra的水平。
英偉達(dá)還展示了Rubin Ultra,其性能更是驚人,支持NVL576,擁有15 EF的FP4算力和5EF的FP8算力,是GB300 NVL72的14倍。這一系列的升級(jí)不僅體現(xiàn)了英偉達(dá)在芯片技術(shù)上的領(lǐng)先地位,更為全球算力規(guī)模的暴漲奠定了堅(jiān)實(shí)基礎(chǔ)。
除了硬件升級(jí),英偉達(dá)還提出了“AI工廠”的構(gòu)想,旨在將計(jì)算機(jī)轉(zhuǎn)變?yōu)樯a(chǎn)Token的工廠。這一構(gòu)想中,AI工廠能夠根據(jù)用戶需求全自動(dòng)化地訓(xùn)練專屬AI模型,實(shí)現(xiàn)AI模型的“千人千面”。為實(shí)現(xiàn)這一目標(biāo),英偉達(dá)發(fā)布了Dynamo系統(tǒng),這一“AI工廠的操作系統(tǒng)”能夠整合優(yōu)化計(jì)算機(jī)資源,成倍提高Token生成效率。
英偉達(dá)CEO黃仁勛在演講中強(qiáng)調(diào),隨著AI模型的參數(shù)量不斷增長,算力效率的重要性將更加凸顯。高效的算力不僅能夠提升Token輸出速度,還能降低成本,使企業(yè)從每一次用戶訪問中獲得更高利潤。他堅(jiān)信,英偉達(dá)的技術(shù)將引領(lǐng)AI領(lǐng)域的未來發(fā)展,并助力企業(yè)實(shí)現(xiàn)“買得越多,賺得越多”的目標(biāo)。
英偉達(dá)還宣布將Dynamo系統(tǒng)開源,支持多種框架,以便各企業(yè)根據(jù)自身需求進(jìn)行優(yōu)化和調(diào)整。這一舉措進(jìn)一步彰顯了英偉達(dá)在推動(dòng)AI領(lǐng)域開源浪潮中的積極作用,也為全球AI生態(tài)的構(gòu)建奠定了堅(jiān)實(shí)基礎(chǔ)。