在科技巨頭谷歌的最新動作中,其傾力打造的Gemini 2.5大語言模型正式亮相,標榜為迄今為止谷歌“智慧之巔”的AI成果。這款模型在邏輯推理、數學計算及科學任務上的表現,據稱已超越OpenAI、Anthropic、xAI及DeepSeek等競爭對手的同類產品。
盡管谷歌方面坦誠,Gemini 2.5 Pro版本與OpenAI的o1-pro相比,仍存在一定的差距,但這并未削弱Gemini 2.5的光芒。該模型并非依賴外部圖像處理能力,而是采用了一種創新的統一架構,通過共享注意力機制,實現了圖像、文本、音頻及代碼的協同處理,展現了其全面的處理能力。
Gemini 2.5 Pro作為一款全新的思考型AI模型,其邏輯推理、代碼生成及復雜任務處理能力得到了顯著提升。目前,該模型已支持100萬tokens的上下文識別,并計劃在未來擴展至200萬tokens,這將使其在撰寫報告等任務中展現出驚人的實力。從已曝光的演示來看,Gemini 2.5 Pro的生成能力確實令人眼前一亮。
谷歌已通過其AI Studio平臺和Gemini app,向Gemini Advanced訂閱用戶開放了Gemini 2.5的試用。然而,首批用戶也發現了一些局限性,如模型目前無法聯網,且不支持Deep Research和Canvas工具。但谷歌強調,這只是Gemini 2.5的初步版本,未來還將推出更多升級版本,并逐步將模型功能集成到谷歌的搜索、Gmail、Docs等生態系統中。關于定價細節,谷歌表示將在后續逐步公布。
與此同時,OpenAI也在積極行動,為ChatGPT Plus和Pro用戶推送了內置于GPT-4o的圖像生成模型。這款新模型支持多輪對話中的圖像修改和編輯,上下文理解能力顯著增強。用戶可以要求GPT-4o保留圖像的某些元素,如帽子或服飾,同時修改其他部分。每個物品的屬性、關系都可以被獨立控制,為用戶提供了前所未有的創作自由度。
例如,用戶要求GPT-4o創建一張兩個20歲左右女巫閱讀路標的照片級真實感圖像,其中一位女巫擁有灰白漸變發色,另一位則擁有長波浪紅棕色頭發。隨后,用戶還可以在上下文中修改路牌上的時間、注釋,甚至讓女巫卷起魔毯、微傾身體,調整街邊汽車、路標及女巫的位置等細節。這種多模態、推理及上下文理解能力的結合,無論是谷歌還是OpenAI,都在通過強大的性能和開放的體驗策略,為用戶帶來更多的想象空間。