1顆X處理器相當幾顆Y處理器?一云多芯算力評估計算器來了!
北京2025年1月6日 /美通社/ -- 近日,浪潮云海聯合中國軟件評測中心、騰訊云等10余家核心機構、廠商共同發布了《一云多芯算力調度研究報告》(以下簡稱報告)。報告指出,當前一云多芯正從混合部署、資源統管的第一階段,向業務牽引、分層解耦、架構升級的第二階段過渡,為保障應用高效適配、自由遷移與性能調優,算力量化調度成為當下重要關注點。因此,報告從算力調度架構維度,對一云多芯實際落地過程中存在的挑戰進行詳細剖析,針對算力等價調度難題設計了量化方法,推出算力評估計算器,并提出一云多芯算力調度整體參考設計,為行業用戶實現應用的跨架構遷移提供重要的評估依據。
1中國軟件評測中心、浪潮云海等聯合發布
一云多芯走向第二階段 算力量化調度成為關注重點
當前,隨著行業"上云用數賦智"進程的不斷加速和深化,應用場景呈現多樣化趨勢,尤其是近幾年AIGC大模型、跨學科科學計算等興起,數據中心的計算場景呈現計算精度橫向擴展與數據的數量級縱向增長相交織的態勢,實時性要求不斷提升。為更好地滿足當前多元異構算力場景需求,越來越多的數據中心開始采用一云多芯架構,以確保多元異構算力即便在功能、性能和可靠性等方面存在差異,依然可以高效穩定地實現應用跨處理器低成本或自由切換,保障關鍵業務長期穩定運行。
一云多芯并非一蹴而就,而是跟隨用戶需求的動態調整來持續演進。一云多芯需要基于以系統設計為核心的思維,采用以場景驅動的"硬件重構+軟件定義"的融合架構,通過"三步走"實現最終的目標。當前第一階段混合部署、資源統管的階段目標基本實現,一云多芯正在向第二階段過渡,圍繞業務牽引、分層解耦、架構升級,實現應用跨架構平滑切換和線性彈性伸縮。
一云多芯發展到當前階段,用戶已經不再滿足于資源池的納管,而是開始關注一云多芯場景下的算力如何更高效、高質量的使用,從而使得算力量化調度能力成為重要關注點。然而,在真實生產環境中,由于異構芯片在指令集上各有千秋,在性能上也存在較大差異,導致應用在跨架構切換時仍面臨一些棘手難題。比如說,當應用跨架構遷移時,性能可能會出現較大波動,導致服務質量降低,無法達到預期;在新老副本切換流量過程中可能引發短暫的延遲、中斷或錯誤,造成應用響應異常等等。
2一云多芯發展路線圖
報告指出,應從算力調度出發,建立多層次的算力衡量體系,實現應用性能的精確衡量,從而確保應用可以跨架構平滑切換及線性彈性伸縮,同時通過構建標準化的算力調度架構,提升整體系統的靈活與可擴展性。
算力量化調度:從"等價"開始
算力量化調度針對用戶目前普遍面臨的應用遷移效果難以預估的問題,希望通過對算力的精確衡量以及架構感知的算力有向調度等手段,實現應用的跨架構等價運行,從而確保應用的一致性體驗并降低運維復雜度。
應用的跨架構等價運行中的"等價性"主要體現在功能的等價性和性能的等價性,其目的是保障應用的跨架構高效穩定運行,從而實現用戶體驗的一致性。功能的等價性主要面臨的挑戰是異構處理器之間指令集的差異,對于操作系統及應用程序的跨架構可運行性提出了更高的要求;性能的等價性主要面臨的挑戰是異構處理器之間性能的差異,通過建立科學、全面的算力量化評估模型,準確分析不同架構的處理能力、運算速度等方面的特性,為應用在跨架構運行時提供資源分配(例如CPU、內存、副本數等)的依據,成為保障其在不同架構下性能等價的有效方法。
報告指出,算力量化是實現應用等價遷移的基礎,可使用兩類算力量化方法,分別為基于測評反饋的算力量化方法和基于性能模型的算力量化方法。其中,基于性能模型的算力量化方法可通過建立典型應用性能模型的方式,避免在線測評的開銷,實現跨架構資源封裝規格的快速推理。
同時由于不同芯片架構性能差異較大,為保障創新架構云平臺與之前利舊平臺保持相同的算力水平,保障整個遷移適配過程中業務、用戶無感,浪潮云海創新自研了算力評估平臺工具,初步實現基于性能模型的規格算力評估。該平臺內置了整機性能模型,并使用智能化的計算工作流對影響整機性能的因子進行綜合計算,定義了通用性能調度指數(GIPS,Generic Index for Performance Based Scheduler),實現了支持一云多芯算力調度場景的整機性能評估。
3浪潮云海算力評估工具
發布首個一云多芯算力調度架構參考設計
為保障客戶應用跨架構平滑遷移,構建標準化的算力調度架構也至關重要。報告圍繞多芯場景下的資源可管理性、程序可運行性及狀態可遷移性三個核心方面開展最佳實踐的探索,提出了一種一云多芯算力調度參考設計,涵蓋基礎設施層、服務器操作系統層、云操作系統層、基礎應用層、業務應用層。
4一云多芯算力調度參考設計
報告強調,基礎設施層需要強化性能及RAS設計,提升性能、穩定性及可靠性,推動生態繁榮并構建整機開放標準;服務器操作系統是異構硬件與多樣化的軟件之間重要的橋梁,需要解決跨架構可運行性問題,并提供場景化的算力測算分析方法,指導應用的調優;云操作系統層作為把不同垂直技術棧拉通的核心層級,需要通過運行時的資源封裝及架構感知的有向調度,實現應用的跨架構分發,并且提供層次化算力分析方法,實現應用跨架構等價調度;應用層則需要重點考慮有狀態負載的數據狀態同步及無狀態負載的跨架構流量分發等問題?;谌缟蠀⒖荚O計,實現基礎設施層至應用層的各層級高效協同、廣泛兼容。
概括而言,一云多芯算力調度強調構建分層解耦、開放標準的整體架構,確保從基礎設施至應用層的各層級能夠獨立運行、獨立演化,同時通過標準化、規范化的協議、標準實現層間協同,并且兼容多樣化的硬件平臺,從而提升整體系統的靈活性與可擴展性。
一云多芯是多元算力變革下的云基礎設施演化的必經之路。不同的芯片技術與復雜的生態環境相交織,對云操作系統廠商的技術實力、實施能力與生態牽引力均提出了更高的要求,必須要依靠原始創新實現技術突破,以生態開放協同實現產品技術融合,通過產業鏈上下游協同,生態共建,形成完善的一云多芯行業標準,實現真正的應用跨架構自由切換,推動"一云多芯"向第三階段邁進。