Hugging Face,這一在人工智能領域備受矚目的平臺,近期宣布了一項重大進展:他們成功研發并開源了一款名為SmolVLM的創新視覺語言模型。此舉意味著,廣大研究者與技術開發者將能夠自由訪問該模型的全部資源,包括模型檢查點、數據集、訓練方法及配套工具,所有內容均遵循Apache 2.0許可協議。
在架構設計上,SmolVLM巧妙融合了Idefics3的先進理念,并選用了性能卓越的SmolLM2 1.7B作為其語言處理的核心。該模型通過引入一項創新的像素混洗技術,實現了視覺信息的高效壓縮,壓縮率驚人地提升了9倍,從而大幅提高了處理速度。
為了訓練這一強大的模型,Hugging Face精心挑選了Cauldron和Docmatix兩個大型數據集。他們還對SmolLM2進行了上下文擴展,使其能夠輕松應對更長的文本輸入以及多張圖像的處理需求。這些優化措施不僅顯著降低了內存占用,還有效解決了大型模型在普通設備上運行時的性能瓶頸問題。
在內存管理方面,SmolVLM展現出了令人驚嘆的能力。它能夠將384x384像素的圖像塊高效編碼為81個tokens,這一表現在同類模型中堪稱佼佼者。在與知名模型Qwen2-VL的對比測試中,SmolVLM在相同測試圖片下的內存占用大幅降低。在多項基準測試中,SmolVLM更是展現出了卓越的性能優勢:其預填充吞吐量比Qwen2-VL快了3.3至4.5倍,而生成吞吐量更是達到了驚人的7.5至16倍提升。