英偉達(dá)近期在視覺-語言模型領(lǐng)域取得了重大突破,推出了一款名為Eagle 2.5的新型模型。這款模型專注于長(zhǎng)上下文多模態(tài)學(xué)習(xí),特別擅長(zhǎng)處理大規(guī)模視頻和圖像。
Eagle 2.5盡管參數(shù)規(guī)模僅為8B,但在Video-MME基準(zhǔn)測(cè)試中展現(xiàn)出了驚人的性能。在處理512幀輸入的測(cè)試中,它獲得了72.4%的高分,這一成績(jī)足以媲美規(guī)模更大的模型,如Qwen2.5-VL-72B和InternVL2.5-78B。這一成績(jī)的背后,離不開英偉達(dá)在模型訓(xùn)練策略上的創(chuàng)新。
為了提升模型的性能,英偉達(dá)采用了兩項(xiàng)關(guān)鍵訓(xùn)練策略:信息優(yōu)先采樣和漸進(jìn)式后訓(xùn)練。信息優(yōu)先采樣技術(shù)通過圖像區(qū)域保留和自動(dòng)降級(jí)采樣,確保了原始圖像區(qū)域的完整性和視覺細(xì)節(jié)的優(yōu)化。同時(shí),漸進(jìn)式后訓(xùn)練策略通過逐步擴(kuò)展模型上下文窗口,讓模型在不同輸入長(zhǎng)度下都能保持穩(wěn)定性能,避免了過擬合單一上下文范圍的問題。
Eagle 2.5的訓(xùn)練數(shù)據(jù)管道也經(jīng)過了精心設(shè)計(jì)。英偉達(dá)整合了開源資源和定制數(shù)據(jù)集Eagle-Video-110K,該數(shù)據(jù)集專為理解長(zhǎng)視頻設(shè)計(jì),采用了雙重標(biāo)注方式。通過自上而下的故事級(jí)分割和自下而上的問答對(duì)生成,數(shù)據(jù)集在強(qiáng)調(diào)多樣性的同時(shí),確保了敘事連貫性和細(xì)粒度標(biāo)注,為模型在高幀數(shù)任務(wù)中的表現(xiàn)提供了有力支持。
在性能表現(xiàn)方面,Eagle 2.5-8B在多項(xiàng)視頻和圖像理解任務(wù)中都展現(xiàn)出了卓越的性能。在視頻基準(zhǔn)測(cè)試中,它在MVBench、MLVU和LongVideoBench上分別獲得了74.8、77.6和66.4的高分。在圖像基準(zhǔn)測(cè)試中,它在DocVQA、ChartQA和InfoVQA上也分別取得了94.1、87.5和80.4的優(yōu)異成績(jī)。這些成績(jī)充分證明了Eagle 2.5在視覺-語言模型領(lǐng)域的領(lǐng)先地位。
為了進(jìn)一步驗(yàn)證模型的有效性,英偉達(dá)還進(jìn)行了消融研究。研究結(jié)果表明,移除信息優(yōu)先采樣和自動(dòng)降級(jí)采樣技術(shù)會(huì)導(dǎo)致模型性能下降。而加入漸進(jìn)式訓(xùn)練和Eagle-Video-110K數(shù)據(jù)集則能帶來更穩(wěn)定的性能提升。這一結(jié)果進(jìn)一步證明了英偉達(dá)在模型訓(xùn)練策略和數(shù)據(jù)集設(shè)計(jì)上的正確性。