近期,科技巨頭谷歌推出了一款名為Gemini 2.5 Flash的混合推理模型,該模型憑借獨特的“思考預(yù)算”調(diào)節(jié)功能,在保持卓越性能的同時,實現(xiàn)了成本的大幅縮減。
據(jù)悉,在閉源思考模式下,Gemini 2.5 Flash的處理成本僅為每百萬tokens 0.6美元,與全功能思考模式下的3.5美元相比,成本降低了驚人的600%。值得注意的是,即便是以基礎(chǔ)模式運行,該模型的表現(xiàn)也超越了其前代產(chǎn)品Gemini 2.0 Flash。
在性能評估方面,Gemini 2.5 Flash在大模型排行榜上取得了顯著成績,以1392分的ELO評分緊隨GPT-4.5-preview之后,位列第二,與Grok-3的表現(xiàn)不相上下。這一成績充分展示了該模型在AI領(lǐng)域的強(qiáng)勁實力。
在具體任務(wù)測試中,Gemini 2.5 Flash同樣表現(xiàn)出色。在GPQA知識問答中,通過分配24K的思考預(yù)算,模型性能提升了6%。而在LiveCodeBench代碼基準(zhǔn)測試中,當(dāng)思考預(yù)算為16K時,模型達(dá)到了最佳表現(xiàn)。這些測試結(jié)果進(jìn)一步驗證了該模型在復(fù)雜任務(wù)處理方面的能力。
對比測試結(jié)果顯示,Gemini 2.5 Flash在多模態(tài)推理和數(shù)學(xué)任務(wù)上的表現(xiàn)明顯優(yōu)于Claude 3.7 Sonnet,其綜合性能與OpenAI最新的o4-mini模型相當(dāng)。在模擬人類綜合能力的“人類最后一次考試”基準(zhǔn)測試中,該模型以12.1%的高分位列第二,再次證明了其強(qiáng)大的綜合能力。
Gemini 2.5 Flash的創(chuàng)新之處在于其“思考預(yù)算”機(jī)制,這一機(jī)制使得用戶可以根據(jù)實際需求調(diào)整模型的思考深度和成本,從而在性能與成本之間實現(xiàn)了完美的平衡。這一創(chuàng)新為AI應(yīng)用開發(fā)提供了更加靈活和經(jīng)濟(jì)的選擇,有助于推動AI技術(shù)的普及和發(fā)展。