昆侖萬(wàn)維近日宣布了一項(xiàng)重大技術(shù)突破,正式向公眾開(kāi)源了其自主研發(fā)的多模態(tài)思維鏈推理模型Skywork R1V。此舉標(biāo)志著昆侖萬(wàn)維成為中國(guó)首個(gè)在多模態(tài)推理模型領(lǐng)域進(jìn)行開(kāi)源的企業(yè),同時(shí)開(kāi)放了模型的權(quán)重和技術(shù)報(bào)告,供業(yè)界研究與使用。
Skywork R1V模型的權(quán)重可通過(guò)Hugging Face和GitHub兩大平臺(tái)下載,分別對(duì)應(yīng)的鏈接為:https://huggingface.co/Skywork/Skywork-R1V-38B和https://github.com/SkyworkAI/Skywork-R1V。
據(jù)了解,Skywork R1V是一款專(zhuān)注于解決復(fù)雜視覺(jué)任務(wù)的推理模型,它通過(guò)多步邏輯推理與分析,能夠精準(zhǔn)解決視覺(jué)邏輯推理、視覺(jué)數(shù)學(xué)問(wèn)題、科學(xué)現(xiàn)象分析以及醫(yī)學(xué)影像診斷等多種挑戰(zhàn)。在MATH500和AIME兩項(xiàng)權(quán)威基準(zhǔn)測(cè)試中,Skywork R1V分別取得了94.0和72.0的高分,展現(xiàn)出強(qiáng)大的邏輯推理與數(shù)學(xué)分析能力。
在視覺(jué)理解能力方面,Skywork R1V同樣表現(xiàn)出色。通過(guò)將文本推理與思維鏈推導(dǎo)能力遷移到視覺(jué)任務(wù)中,該模型在MMMU和MathVista兩項(xiàng)視覺(jué)推理基準(zhǔn)測(cè)試中分別獲得了69和67.5分的優(yōu)異成績(jī)。這些成就不僅證明了Skywork R1V在跨模態(tài)任務(wù)中的高效融合能力,也彰顯了其在復(fù)雜多模態(tài)任務(wù)中的卓越表現(xiàn)。
昆侖萬(wàn)維團(tuán)隊(duì)在Skywork R1V模型中引入了三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新。首先,他們首次提出了利用Skywork-VL的視覺(jué)投影器,實(shí)現(xiàn)了文本推理能力向視覺(jué)任務(wù)的高效遷移,同時(shí)保留了模型原本的優(yōu)秀文本推理能力。這一創(chuàng)新無(wú)需重新訓(xùn)練語(yǔ)言模型和視覺(jué)編碼器,大大提升了遷移效率和效果。
其次,團(tuán)隊(duì)采用了多模態(tài)混合式訓(xùn)練策略(Iterative SFT+GRPO),通過(guò)結(jié)合迭代監(jiān)督微調(diào)與GRPO強(qiáng)化學(xué)習(xí),分階段對(duì)齊視覺(jué)-文本表征,實(shí)現(xiàn)了跨模態(tài)任務(wù)的高效融合。這一策略不僅提升了模型在MMMU和MathVista等基準(zhǔn)測(cè)試中的表現(xiàn),還與更大規(guī)模的閉源模型基本持平。通過(guò)反復(fù)迭代地利用高質(zhì)量數(shù)據(jù)與高難度數(shù)據(jù)的組合,模型的知識(shí)鞏固與錯(cuò)誤糾正能力得到了顯著提升。
最后,團(tuán)隊(duì)還提出了一種基于視覺(jué)-文本復(fù)雜度的自適應(yīng)推理鏈長(zhǎng)度控制機(jī)制。這一機(jī)制能夠動(dòng)態(tài)優(yōu)化模型的推理過(guò)程,避免“過(guò)度思考”,從而提升推理效率。結(jié)合多階段自蒸餾策略,進(jìn)一步提升了數(shù)據(jù)生成與推理過(guò)程的質(zhì)量,促進(jìn)了模型在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。