在AI技術日新月異的當下,視頻大模型領域迎來了前所未有的發展浪潮。繼OpenAI發布其視頻大模型Sora Turbo之后,盡管其支持的生成視頻時長僅為最初宣傳的三分之一,且仍處于小范圍測試階段,但這并未阻擋國內AI企業在此領域的快速推進。
今年2月,Sora的首次亮相標志著視頻大模型行業的黃金發展期正式開啟。然而,令人意想不到的是,作為行業推動者的Sora,在國內市場卻面臨了激烈的競爭,甚至顯得有些掉隊。國內市場上,騰訊、阿里巴巴、字節跳動等互聯網巨頭紛紛推出了自己的AI視頻大模型,市場上一時間涌現出了不下二十款同類產品。
AI視頻大模型不僅賦予了AI更強大的理解和重構真實世界的能力,也為用戶提供了無限的想象空間。與泛用場景的大語言模型不同,視頻大模型的使用場景更為專業,因此現階段多需要付費才能隨心生成視頻。免費用戶通常只能依靠系統積分或每日贈送的次數生成視頻,且可能無法體驗部分高階功能。
在眾多國內AI視頻大模型中,快手科技旗下的可靈無疑是先行者之一,其體驗在眾多模型中名列前茅。可靈支持文生視頻和圖片生成視頻兩種模式,且能夠調整創意想象力和創意相關性。用戶可以通過文字描述生成最高5秒的高品質視頻,或通過圖片生成最高10秒的標準品質視頻,并支持運鏡調節。一段描述寧靜海灘的視頻生成后,無論是風吹椰子樹的細節,還是貓咪舔舐毛發的動作,都表現得相當出色,盡管生成的視頻場景是在白天而非夜晚。
抖音也不甘落后,推出了自己的視頻大模型即夢。即夢除了支持文生視頻和圖生視頻外,還加入了對口型功能,能夠根據文本或錄音調整視頻。即夢更新迭代速度極快,目前已有多個版本可用。通過即夢生成的視頻質量也相當不錯,但貓咪的動作略顯單調和僵硬,樹葉也未隨風而動。
騰訊推出的混元視頻大模型則略顯稚嫩,生成的視頻質量不如可靈和即夢。騰訊混元目前僅支持文生視頻,且每日免費生成次數有限。生成的視頻中,月亮顯得過于虛假,貓咪的動作也充滿了違和感。
北京數生科技與清華大學聯合研發的Vidu大模型則表現出了不俗的實力。Vidu支持文生視頻和圖生視頻,還能根據同一主體不同角度的圖片生成更具真實感的立體畫面。生成的視頻質量高,運鏡自然流暢,細節豐富,唯一的漏洞在于沙灘的質感稍顯不足。
智譜清言開發的清影大模型雖然功能豐富,但生成的視頻質量卻令人失望。畫面中幾乎看不到貓咪的存在,更像是一張靜態圖片。與同門師兄弟Vidu相比,清影在自然語言理解能力上還有待提升。
愛詩科技的PixVerse大模型則以其唯美的畫面風格吸引了眼球。生成的視頻中,小貓的毛發細節和水面的波紋都表現得十分到位,但貓咪的動作卻顯得有些僵硬。盡管如此,PixVerse的表現依然令人印象深刻。
從當前的市場表現來看,國內AI視頻大模型領域已呈現出群雄逐鹿的態勢。盡管各模型在細節上還存在一定的不足,但整體實力已不容小覷。未來,隨著技術的不斷進步和市場的日益成熟,AI視頻大模型有望在更多領域發揮重要作用。