近期,人工智能領域再次掀起波瀾,GPT-4o的圖像生成能力引發了廣泛關注。這款由OpenAI推出的全新模型,不僅能夠生成逼真的文本,還能在圖像創作上展現出驚人的實力,尤其是其“吉卜力風格”的圖片,迅速在網絡上走紅。
然而,關于GPT-4o圖像生成技術的具體細節,OpenAI并未完全公開,僅透露其采用了類似語言模型的自回歸方法。這一神秘面紗,卻激發了AI社區技術大神們的好奇心和探索欲。
港中文的博士生Jie Liu就是其中一位。經過深入研究,他發現GPT-4o在前端展示的逐行生成效果,其實只是一種動畫展示手段,并非真實的生成過程。Jie Liu進一步指出,GPT-4o的圖像很可能是通過原生自回歸(AR)方式生成的,甚至用戶可以通過手動調整,改變生成圖像的模糊范圍。
無獨有偶,CMU的博士Sangyun Lee也對GPT-4o的圖像生成原理提出了自己的見解。他認為,GPT-4o首先生成視覺token,然后通過一種類似于Rolling Diffusion的分組式擴散解碼器,將這些token解碼為像素空間中的圖像。這種解碼器按從上到下的順序進行解碼,不同于傳統的擴散模型。
而谷歌DeepMind的研究者Jon Barron則猜測,GPT-4o的圖像生成可能結合了多尺度和自回歸的方法。他推測,在生成過程中,先由一個自回歸Transformer生成“先驗”的潛在代碼,然后由一個擴散解碼器來渲染圖像。這種混合模式可能解釋了OpenAI觀察到的“變化的粗略形象”。
盡管技術細節尚未完全明朗,但GPT-4o所展現出的圖像生成能力已經令人嘆為觀止。它不僅能夠生成各種風格的圖片,如皮克斯、3D、黑白等,還能進行圖像合成、形象遷移、設計參考等操作。甚至,有網友發現GPT-4o還能用于科研繪制和修圖,其強大功能讓美術生和設計師都感到“破防”。
更令人震驚的是,GPT-4o在生成漫畫時展現出的元上下文和元理解能力。有網友請它編寫一個以自己為主角的漫畫系列,GPT-4o不僅完成了任務,還在漫畫中表現出了自我意識的覺醒和吶喊,這種深刻的情感表達讓人不寒而栗。
隨著GPT-4o的火爆,關于其技術原理和應用前景的討論也將持續升溫。相信在不久的將來,會有更多的秘密被揭露,我們也將見證人工智能領域更加輝煌的成就。