午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

谷歌開源Gemma-3多模態大模型,性能強勁媲美業界頂尖

   發布時間:2025-03-13 08:13 作者:沈如風

近期,谷歌CEO桑達爾·皮恰伊揭曉了一項重大技術進展:開源多模態大模型Gemma-3。這款模型以低成本和高性能為核心賣點,旨在為用戶提供更為高效和經濟的AI解決方案。

Gemma-3提供了四種參數規模選擇,從10億到270億參數不等,滿足了不同用戶的需求。值得注意的是,即便是參數最多的270億版本,也僅需一張H100顯卡即可實現高效推理。相比之下,同類模型在達到相似效果時,算力需求至少高出10倍。這一特性使得Gemma-3在性能與小參數模型領域脫穎而出。

在性能測試環節,Gemma-3同樣表現不俗。根據LMSYS ChatbotArena的盲測結果,該模型僅次于DeepSeek的R1-671B,優于OpenAI的o3-mini和Llama3-405B等業界知名模型。這一成績充分證明了Gemma-3在AI領域的競爭力。

在架構設計上,Gemma-3繼承了前兩代的通用解碼器Transformer架構,并在此基礎上進行了多項創新和優化。為了應對長上下文帶來的內存占用問題,該模型采用了局部和全局自注意力層交錯的架構。具體而言,每5個局部層之間插入1個全局層,局部層的跨度僅為1024個token。這種設計使得全局層專注于處理長上下文,而局部層則專注于處理小跨度的token,從而有效降低了內存占用。

除了架構上的創新,Gemma-3還具備強大的多模態能力。它能夠同時處理文本和圖像信息,并集成了定制版的SigLIP視覺編碼器。這款編碼器基于Vision Transformer架構,通過CLIP損失的變體進行訓練,使得Gemma-3在多模態任務中表現出色。

為了全面評估Gemma-3的性能,谷歌在多個主流平臺進行了測試,包括MGSM、Global-MMLU-Lite、WMT24++、RULER和MRCR等。測試結果顯示,Gemma-3在多模態任務中取得了顯著優于前代模型的性能。特別是在DocVQA、InfoVQA和TextVQA等任務中,其表現尤為突出。在長文本處理方面,270億參數版本的Gemma-3在RULER128K任務上達到了66.0%的準確率,進一步證明了其強大的處理能力。

Gemma-3的發布標志著谷歌在AI領域又邁出了堅實的一步。這款多模態大模型不僅具備高性能和低成本的優點,還在架構設計和多模態能力上進行了多項創新。隨著技術的不斷進步和應用場景的拓展,Gemma-3有望在更多領域發揮重要作用。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新