午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

資訊在沃

AI新挑戰:超級馬力歐能否成為衡量智能的新標尺?

   發布時間:2025-03-04 16:25 作者:馮璃月

在AI技術日新月異的今天,任天堂的游戲魅力依舊不減,甚至有觀點認為,在AI時代,任天堂依然是游戲領域的領航者。這一觀點在最近的一系列實驗中得到了新的驗證。

上個月,美國AI企業Anthropic在Twitch平臺上,利用最新的AI模型Claude 3.7 Sonnet挑戰了經典游戲《寶可夢·紅》。這場直播不僅展示了AI技術的驚人進步,還引發了觀眾的熱議。經過多輪測試,研究員們發現,《寶可夢》系列游戲成為了檢驗Claude 3.7 Sonnet性能的絕佳基準。在這款游戲中,Claude 3.7展現出了它的“智慧”,成功贏得了三個道館的徽章。

然而,最新的研究表明,《超級馬力歐兄弟》或許比《寶可夢》更適合作為AI工具的測試平臺。加州大學圣地亞哥分校的Hao AI Lab團隊設計了一個與GamingAgent框架集成的《超級馬力歐兄弟》游戲,用于測試AI的性能。在這個框架中,AI被賦予了一些基本指令,如躲避敵人和障礙物,并通過Python代碼生成輸入來控制游戲角色馬力歐。

實驗結果令人驚訝,Claude 3.7在測試中表現最佳,緊隨其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。與《寶可夢》的回合制戰斗相比,《超級馬力歐兄弟》這種強調即時反應的游戲對AI的推理能力提出了更高的挑戰。在游戲中,每一秒都至關重要,稍有不慎就可能導致游戲失敗。

其實,用游戲來測試AI并非新鮮事。早在2019年,OpenAI就曾舉辦了一場比賽,展示了其AI模型OpenAI Five在Dota 2游戲中的實力。這款AI不僅擊敗了由專業玩家組成的隊伍,還在公開發布后擊敗了99.4%的在線選手。然而,隨著時間的推移,OpenAI逐漸將研究重心轉向了自然語言處理等領域。

前Salesforce首席AI科學家Richard Socher曾指出,盡管為游戲創建AI令人興奮且易于商業化,但這些AI模型在現實世界中的價值有限。他認為,游戲作為一個抽象、簡單的環境,與真實世界存在顯著差異。如果AI模型不能很好地適應新環境,就很難在時代變化中解決實際問題。即便是勝率高達9成的OpenAI Five,也僅能玩轉Dota 2中的16個角色。

隨著GPT-4.5的發布,AI評測領域也面臨著新的挑戰。OpenAI的研究人員表示,他們正在經歷一場“評估危機”,對于如何評估AI模型的性能感到困惑。GPT-4.5雖然被贊譽為獨特且富有人情味,但其“品味”卻難以量化評估。

盡管如此,我們仍然可以欣賞到AI在《超級馬力歐兄弟》中的精彩表現。這些實驗不僅讓我們看到了AI技術的無限可能,也為我們提供了思考AI未來發展方向的新視角。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新