近日,快手科技與北京大學及北京郵電大學的研究團隊聯手,推出了一款名為Pyramid Flow的開源文生視頻AI模型,該模型為開發者、藝術家和創作者提供了更加高效、靈活的視頻生成解決方案。
Pyramid Flow在視頻生成速度上表現優異,僅需56秒即可生成一段5秒、384p的視頻,其速度在同類模型中名列前茅,甚至超越了部分全序列擴散模型。
在視頻質量方面,Pyramid Flow同樣表現出色。它能夠基于文本描述,生成最長10秒、1280x768分辨率、24fps的高質量視頻,同時在光影效果、運動動作一致性、文本語義還原和色彩搭配等方面也展現出卓越的性能。
為了實現高效的視頻生成,Pyramid Flow引入了新穎的“金字塔流匹配”技術,通過分階段生成視頻來降低計算成本。與傳統模型相比,它在大多數階段使用低分辨率,僅在最終階段達到全分辨率,有效減少了所需的tokens數量,僅為傳統擴散模型的四分之一。
目前,這款創新的Pyramid Flow模型已在Hugging Face平臺上線,并實現了完全開源。這一技術的推出,不僅為視頻生成領域帶來了新的突破,也為處理和生成高維度視頻數據提供了有效的解決方案。