近日,科技界巨頭馬斯克攜其xAI團(tuán)隊(duì)在一場備受矚目的直播活動(dòng)中,正式揭曉了萬眾期待的Grok 3。在前期密集的宣傳攻勢下,Grok 3被賦予了極高的期望,馬斯克甚至將其譽(yù)為劃時(shí)代的智能突破。
然而,發(fā)布會(huì)上的豪情壯志與Grok 3的實(shí)際表現(xiàn)形成了鮮明對比。馬斯克宣稱,Grok 3在數(shù)學(xué)、科學(xué)與編程領(lǐng)域的基準(zhǔn)測試中已超越所有主流模型,并計(jì)劃將其應(yīng)用于SpaceX的火星任務(wù)計(jì)算,甚至預(yù)言未來三年內(nèi)將取得諾貝爾獎(jiǎng)級(jí)別的科研成就。
但令人遺憾的是,媒體在發(fā)布會(huì)后對Grok 3 Beta版的測試卻暴露了其短板。面對一個(gè)簡單的數(shù)學(xué)問題——“9.11與9.9哪個(gè)大?”,號(hào)稱最聰明的Grok 3卻未能給出正確答案,這一尷尬表現(xiàn)迅速在網(wǎng)絡(luò)上引發(fā)熱議,網(wǎng)友戲稱其為“不屑回答簡單問題的天才”。
不僅如此,在xAI發(fā)布會(huì)直播期間,當(dāng)Grok 3嘗試分析游戲《流放之路 2》的職業(yè)與升華效果時(shí),也給出了大量錯(cuò)誤答案,而馬斯克本人在直播中并未察覺這些明顯的錯(cuò)誤。
盡管在官方PPT中,Grok 3在大模型競技場Chatbot Arena中的表現(xiàn)看似遙遙領(lǐng)先,但深入分析后發(fā)現(xiàn),其與DeepSeek R1和GPT4.0的差距僅為1%到2%,這一微弱優(yōu)勢并不足以支撐起馬斯克前期的豪言壯語。
在資源投入方面,馬斯克透露,Grok 3使用了超過20萬張H100芯片,總訓(xùn)練小時(shí)數(shù)高達(dá)兩億小時(shí)。相比之下,DeepSeek V3僅以2000張H800芯片訓(xùn)練兩個(gè)月,便取得了與Grok 3相近的性能,這無疑揭示了隨著模型規(guī)模擴(kuò)大,性能提升的邊際效應(yīng)愈發(fā)明顯的現(xiàn)狀。
面對外界的質(zhì)疑,馬斯克在社交媒體上回應(yīng)稱,當(dāng)前的Grok 3僅為測試版,完整版將在未來幾個(gè)月內(nèi)推出,并誠邀用戶反饋使用中的問題。這一表態(tài)似乎暗示著,Grok 3仍有改進(jìn)的空間,而馬斯克及其團(tuán)隊(duì)正致力于解決當(dāng)前存在的問題。