北京2025年1月8日 /美通社/ -- 日前,國際標準性能評估組織SPEC公布了AI基準測試SPEC ML最新進展,該基準已完成面向不同AI負載下的軟硬件系統的性能、擴展性和模算效率三大關鍵指標構建。其中模算效率首次納入SPEC ML基準評測,將填補大模型計算效率評測基準領域的研究空白。
隨著人工智能更加廣泛的應用,為AI/ML建立強大的基準測試比以往任何時候都更加重要。SPEC ML基準委員會主席Arthur Kang表示,統一的基準評測方法不僅有助于簡化模型比較,還將為注重效率、準確性和可持續性的創新鋪平道路。目前AMD、英特爾、NVIDIA、浪潮信息、NetApp和Red Hat等科技企業正在共同參與開發 SPEC ML基準測試,SPEC呼吁更多伙伴參與到項目中,通過產業上下游的合作,為大模型的開發應用樹立新的性能評估標桿,為AI技術的高效、綠色、可持續發展注入新動力,共創更加繁榮與可持續的AI新時代。
近年來,隨著預訓練模型的快速發展,人工智能領域迎來了顯著的技術進步。這些模型通過大規模數據集的預訓練,并結合微調技術來適應不同任務,在自然語言處理和計算機視覺等多個領域取得了顯著成效。然而,隨著模型結構和參數量的日益復雜,其在不同軟件框架和硬件平臺上的表現存在差異,如何全面、公正地比較模型、算力系統的綜合性能變得愈加困難。為了在不增加大規模計算資源投入的情況下提升模型的準確性和效率,建立統一的基準測試體系已成為AI領域的迫切需求,這不僅可以幫助開發者選擇最適合的技術方案,還能為優化計算資源利用、降低碳排放提供科學的參考依據。
但當前業界在模型、框架和硬件協同效能評估方面存在顯著空白,缺乏統一的評估基準,評估過程難以量化,導致開發者難以做出最優的技術選擇。尤其是在大型模型的訓練和推理過程中,計算資源和能源的消耗成為行業面臨的重要挑戰。如何在滿足性能需求的同時優化計算資源的利用,降低能源消耗,是當前研究和應用的關鍵所在。為此,SPEC ML首次提出將模算效率納入基準評測,模型本身精度越高、在對應軟件上對硬件性能利用率越高、推理及訓練所需算力越小,模算效率越高。模算效率的評價對象涵蓋了AI大模型、運行框架和硬件算力平臺的一整套軟硬件系統。
模算效率的首次提出,將增強不同預訓練模型、軟件框架和硬件系統之間的可比性,促進模型與硬件的協同優化,推動AI計算系統的能效提升和技術創新:
- 提升可比性與公正性:統一的基準測試標準能夠提供公平的評估平臺,幫助開發者、研究人員和企業通過可量化的指標對不同模型、框架和硬件平臺進行公正比較。
- 促進模型與硬件的協同優化:通過標準化的基準測試,不僅能提高模型的效能,還能指導硬件平臺與軟件框架的協同發展。通過合理配置計算資源,可以在保證高效性和準確性的前提下,減少不必要的計算開銷,從而降低成本和碳排放。
- 推動綠色發展與可持續性:隨著模型規模和計算需求的增長,能源消耗和碳排放問題日益嚴峻。標準化的基準測試能夠幫助行業識別效率低下的環節,促進綠色計算技術的發展,推動AI技術朝著更可持續的方向發展。
- 激發創新與優化:明確的評估標準為開發者提供了方向,能夠幫助開發者識別現有技術的瓶頸,進一步推動技術突破和創新。通過標準化的測試,軟硬件的開發中可以更加專注于如何提升模型的效能和計算效率,而不是陷入復雜且不一致的評估過程中。