近日,清華大學人工智能研究院的一項重大創新引發了業界的廣泛關注。該研究院副院長、同時也是生數科技創始人及首席科學家的朱軍,正式推出了名為Vidu Q1的高可控視頻大模型,這一成果被標榜為行業內首個具備高度可控性的AI視頻大模型。
據官方介紹,Vidu Q1在多個關鍵技術領域實現了顯著突破,尤其是在多主體細節可控性、音效同步控制以及畫質增強方面。以多主體細節可控為例,該模型不僅能夠基于語義指令進行操作,還能融入參考圖的視覺信息,進一步實現對視頻中多個主體位置、大小、運動軌跡等屬性的精確控制。無論是角色的出場順序、退場方式,還是坐立姿態、行動路線,Vidu Q1都能進行細致入微的調整,以滿足用戶的多樣化需求。
在音效同步控制方面,Vidu Q1同樣表現出色。它能夠根據視頻環境的變化和畫面的切換,自動生成相應的音效,并實現對音效長短區間和出現時間點的精準控制。例如,在視頻的前兩秒內,可以精確設置風聲作為背景音效,而在接下來的三到五秒內,則切換為雨聲,從而營造出更加真實、生動的視聽體驗。
這一創新成果的問世,標志著AI視頻生成技術邁上了一個新的臺階。Vidu Q1的高可控性不僅為用戶提供了更加靈活多樣的視頻創作方式,也為視頻制作、動畫制作、廣告創意等行業帶來了全新的可能性。可以預見,隨著該技術的不斷成熟和推廣,它將在未來發揮更加重要的作用,推動相關行業的快速發展。