午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

智源發(fā)布Emu3:原生多模態(tài)世界模型,能否一統(tǒng)圖像文本視頻?

   發(fā)布時(shí)間:2024-10-22 07:21 作者:趙云飛

智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨(dú)特之處在于,僅需基于下一個(gè)token預(yù)測,無需依賴擴(kuò)散模型或組合方法,便能實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

在圖像生成任務(wù)中,Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型,獲得了人類偏好評(píng)測的高度認(rèn)可。同時(shí),在視覺語言理解任務(wù)中,Emu3也展現(xiàn)出了強(qiáng)大的實(shí)力,其對于12項(xiàng)基準(zhǔn)測試的平均得分超越了LlaVA-1.6。在視頻生成任務(wù)中,Emu3同樣表現(xiàn)出色,VBench基準(zhǔn)測試得分高于OpenSora 1.2。

Emu3配備了一個(gè)強(qiáng)大的視覺tokenizer,能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務(wù)提供了更加統(tǒng)一的研究范式。

Emu3的研究結(jié)果充分證明了下一個(gè)token預(yù)測作為多模態(tài)模型范式的強(qiáng)大潛力,它不僅能實(shí)現(xiàn)超越語言本身的大規(guī)模多模態(tài)學(xué)習(xí),還能在多模態(tài)任務(wù)中取得先進(jìn)性能。目前,Emu3已開源關(guān)鍵技術(shù)和模型,為相關(guān)研究提供了有力支持。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新