近日,快手科技、北京大學和北京郵電大學攜手,共同推出了Pyramid Flow文生視頻模型。這款模型能夠根據用戶輸入的文本,生成最長可達10秒、分辨率為1280x768、幀率為24fps的高質量視頻。這一創新成果為開發者、藝術家和創作者們帶來了更高效、更靈活的視頻生成解決方案,并已在Hugging Face平臺上線,實現完全開源。
Pyramid Flow的核心優勢在于其高效生成的能力。該模型采用新技術,通過統一的AI模型分階段生成視頻,其中大多數階段為低分辨率,僅在最后階段達到全分辨率。這種“金字塔流匹配”方法在保持視頻高視覺質量的同時,大幅降低了計算成本,其tokens數量僅為傳統diffusion模型的四分之一。
在推理速度方面,Pyramid Flow同樣表現出色。它能夠在56秒內生成一個5秒、384p的視頻,速度上媲美甚至超過了許多全序列diffusion模型。
Pyramid Flow在MIT許可證下發布,允許包括商業應用、修改和再分發在內的廣泛使用。這一開源和商業友好的政策,吸引了眾多希望將模型集成到專有系統中的開發者和公司。