昆侖萬維近日宣布了一項重大技術突破,正式向公眾開源了其自主研發的多模態思維鏈推理模型Skywork R1V。此舉標志著昆侖萬維成為中國首個在多模態推理模型領域進行開源的企業,同時開放了模型的權重和技術報告,供業界研究與使用。
Skywork R1V模型的權重可通過Hugging Face和GitHub兩大平臺下載,分別對應的鏈接為:https://huggingface.co/Skywork/Skywork-R1V-38B和https://github.com/SkyworkAI/Skywork-R1V。
據了解,Skywork R1V是一款專注于解決復雜視覺任務的推理模型,它通過多步邏輯推理與分析,能夠精準解決視覺邏輯推理、視覺數學問題、科學現象分析以及醫學影像診斷等多種挑戰。在MATH500和AIME兩項權威基準測試中,Skywork R1V分別取得了94.0和72.0的高分,展現出強大的邏輯推理與數學分析能力。
在視覺理解能力方面,Skywork R1V同樣表現出色。通過將文本推理與思維鏈推導能力遷移到視覺任務中,該模型在MMMU和MathVista兩項視覺推理基準測試中分別獲得了69和67.5分的優異成績。這些成就不僅證明了Skywork R1V在跨模態任務中的高效融合能力,也彰顯了其在復雜多模態任務中的卓越表現。
昆侖萬維團隊在Skywork R1V模型中引入了三項關鍵技術創新。首先,他們首次提出了利用Skywork-VL的視覺投影器,實現了文本推理能力向視覺任務的高效遷移,同時保留了模型原本的優秀文本推理能力。這一創新無需重新訓練語言模型和視覺編碼器,大大提升了遷移效率和效果。
其次,團隊采用了多模態混合式訓練策略(Iterative SFT+GRPO),通過結合迭代監督微調與GRPO強化學習,分階段對齊視覺-文本表征,實現了跨模態任務的高效融合。這一策略不僅提升了模型在MMMU和MathVista等基準測試中的表現,還與更大規模的閉源模型基本持平。通過反復迭代地利用高質量數據與高難度數據的組合,模型的知識鞏固與錯誤糾正能力得到了顯著提升。
最后,團隊還提出了一種基于視覺-文本復雜度的自適應推理鏈長度控制機制。這一機制能夠動態優化模型的推理過程,避免“過度思考”,從而提升推理效率。結合多階段自蒸餾策略,進一步提升了數據生成與推理過程的質量,促進了模型在復雜多模態任務中的表現。