阿里通義萬相今日宣布了一項重大技術突破,正式向公眾開源其創新的“首尾幀生視頻模型”。該模型以驚人的140億參數規模,在業界首次實現了如此大規模的開源首尾幀視頻生成技術。
這款模型的核心功能在于,用戶僅需提供一張起始圖片和一張結束圖片,它便能自動生成一段高清720p的視頻,完美銜接首尾畫面。這一技術的問世,無疑將為用戶帶來前所未有的視頻生成體驗,滿足更加個性化和定制化的需求。
為了讓更多用戶能夠輕松體驗這一前沿技術,阿里通義萬相提供了多種獲取途徑。用戶可以直接訪問通義萬相官網,免費試用該模型;同時,該模型也已在Github、Hugging Face以及魔搭社區等平臺上線,供開發者下載并進行本地部署和二次開發。
首尾幀生視頻技術相較于文生視頻和單圖生視頻,具有更高的可控性。然而,這類模型的訓練難度也相應提升。為了確保生成的視頻內容既與用戶輸入的兩張圖像保持一致,又能遵循用戶的提示詞指令,同時實現從首幀到尾幀的自然、流暢過渡,阿里通義萬相團隊在模型設計上下了不少功夫。
基于現有的Wan2.1文生視頻基礎模型架構,團隊引入了額外的條件控制機制,從而實現了首尾幀視頻生成的精準與流暢。在訓練階段,團隊構建了專門用于首尾幀模式的訓練數據,并采用了并行策略來優化文本與視頻編碼模塊以及擴散變換模型模塊,這不僅提升了模型的訓練效率,還確保了高清視頻生成的效果。
在推理階段,面對有限的內存資源,團隊采用了模型切分策略和序列并行策略,在確保推理效果不受影響的前提下,大幅縮短了推理時間,使得高清視頻推理成為可能。
這款首尾幀生視頻模型不僅技術先進,而且在功能上也有著諸多亮點。用戶可以利用它完成更加復雜和個性化的視頻生成任務,如實現同一主體的特效變化、不同場景的運鏡控制等。例如,用戶只需上傳兩張相同位置但不同時間段的外景圖片,并輸入一段提示詞,模型便能生成一段展現四季交替或晝夜變化的延時攝影效果視頻。用戶還可以通過旋轉、搖鏡、推進等運鏡控制,將兩張不同畫面的場景巧妙銜接,使視頻在保持與預設圖片一致性的同時,擁有更加豐富的鏡頭語言。
這一技術的推出,無疑將為視頻創作領域帶來一場革命性的變革。無論是專業視頻制作者還是普通用戶,都將能夠利用這一技術輕松實現心中的創意,創作出獨一無二的視頻作品。