在科技界的聚光燈下,OpenAI 再次展現了其創新的無限動力。繼3月底GPT-4o憑借原生圖像生成功能驚艷全球后,僅僅相隔兩周,北京時間4月15日凌晨,OpenAI宣布推出GPT-4.1系列模型,這一新系列迅速接替了原先的GPT-4模型,成為市場的新寵。
而故事的精彩遠未止步,4月17日凌晨,OpenAI如約而至,帶來了兩款全新的o系列推理模型——o3與o4-mini,這兩款模型接替了之前的o1和o3-mini。o3與o4-mini不僅推理能力顯著增強,更是首次實現了將圖像直接融入“思考流程”的突破。尤為重要的是,它們能夠獨立使用ChatGPT的所有工具,這一特性讓OpenAI官方自豪地宣稱,這兩款模型是“迄今為止最智能的模型,標志著ChatGPT能力的一次重大飛躍”。
然而,在贊揚聲此起彼伏的同時,也有一絲疑惑縈繞心頭。早在今年2月,OpenAI的CEO山姆·奧爾特曼(Sam Altman)就在X平臺上公開分享了內部的模型發展藍圖,透露GPT-4.5(Orion)將是OpenAI的最后一個非推理(思維鏈)模型,并預告GPT-5將融合GPT系列與o系列的優勢,同時明確表示“不再將o3作為獨立模型推出”。
但現實似乎與奧爾特曼的承諾有所出入。OpenAI不僅發布了新的GPT-4.1系列非推理模型,還獨立推出了o3推理模型。這不禁讓人好奇,傳說中的GPT-5,是否真能在今年夏天如期面世?
面對OpenAI這波模型發布潮,尤其是o3的登場,外界的反應褒貶不一。許多用戶和開發者認為,OpenAI的模型陣容愈發龐大,讓人在選擇時感到困惑。不過,OpenAI也采取了一定的措施來緩解這一狀況,隨著GPT-4.1系列的推出,公司預告將在4月30日全面下線ChatGPT中的GPT-4模型,并在API中棄用GPT-4.5預覽版。
作為通用基座模型,GPT-4.1系列分為旗艦版、mini版和nano版,支持高達百萬級的tokens上下文,在性能、成本和速度上全面超越了當前的GPT-4o系列模型。盡管目前僅面向開發者開放API,但GPT-4.1系列無疑代表了OpenAI的當前實力。
相比之下,o3和o4-mini則可能預示著OpenAI的未來。作為OpenAI在推理模型技術領域的最新探索,o3和o4-mini首次在推理鏈中融入了圖像理解能力。這意味著,它們不僅能識別信息,還能將視覺輸入納入思維過程,形成完整的邏輯鏈條。與GPT-4o這類多模態模型不同,o3和o4-mini的圖像處理能力旨在解決問題,是推理過程的關鍵一環。
在實際測試中,o3的表現令人印象深刻。它不僅在推理過程中展現出嚴謹和流暢的思考,還能在倫理推理題中準確抓住關鍵信息,推導出合理的解釋。o3還能將視覺能力納入思維鏈中,通過分析圖像來規劃空間動線或診斷問題。這種“圖像作為推理變量”的設計,是過去o系列推理模型所不具備的。
在另一項測試中,o3被要求分析一段關于短視頻優化的后臺數據,并結合視頻分鏡提出優化策略。它不僅覆蓋了核心策略,還匹配了具體的視覺節奏建議,展現出了類似“專業創作者助手”的能力。
通過這些測試,o3證明了其強大的推理能力、視覺理解能力以及工具調用能力。它不僅能夠理解任務,還能在執行過程中主動思考、搜索、調用工具和總結。這種“主動思維+執行鏈條”的模式,正是當前大模型演進的重要方向。