久久99久久99小草精品免视看,亚洲娇小性hd,中文国产成人精品久久久

Meta Llama 4口碑翻車：開源大模型競(jìng)爭(zhēng)加劇下的失速之痛？

發(fā)布時(shí)間：2025-04-08 23:18 來源：ITBEAR 作者：顧雨柔

在人工智能領(lǐng)域，開源大模型Llama 4的發(fā)布風(fēng)波持續(xù)發(fā)酵，引發(fā)廣泛關(guān)注和討論。4月8日，備受矚目的大模型評(píng)測(cè)平臺(tái)Chatbot Arena發(fā)表了一份措辭嚴(yán)厲的聲明，針對(duì)社群對(duì)meta新模型Llama 4排名的質(zhì)疑，承諾將公開2000多場(chǎng)真人對(duì)比測(cè)試的完整數(shù)據(jù)，并罕見地點(diǎn)名meta。

Chatbot Arena指出，meta應(yīng)該更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一個(gè)針對(duì)人類偏好優(yōu)化的定制化模型。平臺(tái)正在更新排行榜的策略，以避免此類混淆再次發(fā)生。這一聲明不僅是對(duì)當(dāng)前事件的澄清，更是對(duì)整個(gè)大模型行業(yè)的一次警示。

Chatbot Arena由加州大學(xué)伯克利分校發(fā)起，通過真人盲測(cè)機(jī)制，讓開發(fā)者和AI愛好者在平臺(tái)上用相同問題向兩款模型提問，對(duì)比回答內(nèi)容并投票打分。這種獨(dú)特的評(píng)測(cè)方式使其成為外界最為信賴的大模型排行榜之一。模型在Chatbot Arena排行榜的排名，直接影響其在媒體和開發(fā)者群體中的口碑與采納率。

因此，當(dāng)meta在4月5日發(fā)布最新一代開源大模型Llama 4，并迅速?zèng)_上Chatbot Arena排行榜第二，僅次于Google前腳發(fā)布的Gemini 2.5 Pro時(shí)，引起了所有人的好奇和期待。然而，很快社區(qū)發(fā)現(xiàn)，這一版本是未公開、定制化調(diào)優(yōu)的實(shí)驗(yàn)?zāi)Ｐ停莔eta開源的正式版。爭(zhēng)議由此爆發(fā)：這是否構(gòu)成“刷榜”？Chatbot Arena是否被利用為營(yíng)銷工具？meta為何要如此操作？

不僅如此，在部分官方未展示的專業(yè)基準(zhǔn)測(cè)試中，Llama 4的表現(xiàn)也不盡如人意，幾乎墊底。許多首批嘗試的用戶在Reddit等社交平臺(tái)上表達(dá)了失望，指出Llama 4在編程能力上的不足。有用戶提到：“考慮到Llama-4-Maverick有402B的參數(shù)量，我為什么不直接使用DeepSeek-V3-0324呢？或者Qwen-QwQ-32B可能更合適——雖然性能相似，但它的參數(shù)量只有32B。”

回溯至4月5日，meta在官方博客上宣布Llama 4系列模型面向社區(qū)開源，包括Llama 4 Scout、Llama 4 Maverick以及仍在訓(xùn)練中的“教師模型”Llama 4 Behemoth，均首次采用混合專家（MoE）架構(gòu)。其中，最受關(guān)注的Maverick版本擁有128個(gè)“專家”，170億活躍參數(shù)（總參數(shù)為4000億），meta將其描述為“同類最佳的多模態(tài)模型”。

然而，Llama 4發(fā)布后不久，情況便急轉(zhuǎn)直下。首批用戶對(duì)Llama 4的表現(xiàn)并不滿意，尤其是在需要代碼能力和嚴(yán)謹(jǐn)邏輯推理的場(chǎng)景中，Llama 4的表現(xiàn)并未兌現(xiàn)超越GPT、DeepSeek的承諾。在Aider Chat提供的Polyglot編程測(cè)試中，Maverick版本的正確率僅為16%，處于排行榜末尾，與其龐大的參數(shù)體量完全不符，甚至落后于規(guī)模更小的開源模型，如Google Gamma。

面對(duì)風(fēng)評(píng)下滑和嚴(yán)厲質(zhì)疑，meta團(tuán)隊(duì)迅速出面澄清。經(jīng)手“后訓(xùn)練”的meta GenAI成員虞立成（Licheng Yu）表示，虛心聆聽各方反饋，并希望能在下一版有所提升。他強(qiáng)調(diào)，meta從未為了刷點(diǎn)而針對(duì)測(cè)試集進(jìn)行過度擬合。同時(shí)，meta GenAI的副總裁Ahmad Al-Dahle也在社交媒體上明確表示，meta沒有在測(cè)試集上訓(xùn)練Llama 4。

盡管這些回應(yīng)試圖平息爭(zhēng)議，但Llama 4的真實(shí)能力仍備受質(zhì)疑。作為開源陣營(yíng)中曾經(jīng)“最有希望挑戰(zhàn)OpenAI”的旗手，Llama 4原本承載著開發(fā)者與產(chǎn)業(yè)界的高度期待。然而，它在發(fā)布一周內(nèi)便從“高光”跌入“信任危機(jī)”，成為大模型競(jìng)賽中一次罕見的口碑“滑鐵盧”。

追根究底，Llama 4的問題不在于造假，而在于開源大模型競(jìng)爭(zhēng)加劇下的失速。過去兩年，meta憑借Llama 2和Llama 3逐步在開源模型市場(chǎng)上建立起“領(lǐng)先、可靠”的認(rèn)知。然而，隨著DeepSeek V3/R1的發(fā)布，開源與閉源模型的差距被扭轉(zhuǎn)，且開源模型的發(fā)展速度大大加快。這讓原本作為“開源領(lǐng)導(dǎo)者”的Llama面臨更大的壓力。

meta也未能控制住動(dòng)作的變形。Llama-4-Maverick-03-26-Experimental針對(duì)對(duì)話模式的優(yōu)化本身無可厚非，但“首發(fā)”Chatbot Arena的目的卻路人皆知。在參數(shù)規(guī)模膨脹、架構(gòu)復(fù)雜化（MoE）的同時(shí)，Llama 4很可能沒有留出足夠的測(cè)試和改進(jìn)時(shí)間，才導(dǎo)致發(fā)布后不穩(wěn)定的性能表現(xiàn)。

更多>同類內(nèi)容

午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

Meta Llama 4口碑翻車：開源大模型競(jìng)爭(zhēng)加劇下的失速之痛？