騰訊公司近期在人工智能領域取得了新的里程碑式進展,其混元大模型正式推出了視頻生成功能。這一技術的實現,標志著騰訊在文本生成圖像、3D建模等能力之外,又增添了視頻生成的強大實力。據悉,混元大模型的參數量驚人,達到了130億,是當前最大的視頻開源模型之一。
這款大模型不僅支持中文輸入,還兼容英文,進一步拓寬了其應用場景和受眾范圍。其視頻生成能力尤為突出,生成的畫面質量極高,幾乎達到了“超寫實”級別,且在動態場景中保持了高度的穩定性和準確性。尤為在包含鏡面反射的場景中,模型能夠精準模擬出鏡面反射與外部環境的同步變化,光影效果自然流暢,符合物理原理。
混元大模型的成功,離不開其背后強大的技術支持。該模型采用了先進的DiT架構,并結合了新一代文本編碼器,這一組合使得模型在理解和處理語義信息方面更加高效和精準。這一改進在描繪復雜場景和多主體互動時尤為明顯,能夠呈現出更加細膩和豐富的畫面效果。
為了讓更多用戶能夠體驗到這一前沿技術,騰訊公司特別推出了試用申請服務。感興趣的普通用戶可以在騰訊元寶App的“AI應用”板塊中找到“AI視頻”功能,并提交試用申請。而對于企業客戶,騰訊云也提供了便捷的接入服務,目前API內測申請已經同步開放。此次開源行動不僅涵蓋了模型權重、推理代碼等核心要素,還提供了完整的模型算法,企業和個人開發者均可免費獲取和使用。