午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

<li id="czgbh"></li>

資訊在沃

當前位置：沃資訊 > 數碼 > 正文內容

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

發布時間：2025-04-21 08:09 來源：ITBEAR 作者：楊凌霄

近期，關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛關注與討論。爭議的核心在于，OpenAI首次發布o3模型時公布的測試結果與外界第三方機構的測試結果存在顯著差異。

去年12月，OpenAI自豪地宣布，其o3模型在極具難度的FrontierMath數學問題集上取得了突破性成績，正確率超過四分之一，遠超其他競爭對手。OpenAI首席研究官Mark Chen在直播中強調，這一成績是在內部激進測試條件下，使用資源更為強大的o3模型版本所得出的。

然而，事情并未如此簡單。負責FrontierMath的Epoch研究所隨后公布的獨立基準測試結果顯示，公開發布的o3模型得分僅為約10%，遠低于OpenAI宣稱的分數。這一發現立即引發了外界對OpenAI透明度和測試實踐的質疑。

值得注意的是，OpenAI在12月公布的測試結果中確實包含了一個與Epoch測試結果相符的較低分數。Epoch在報告中指出，測試設置的差異、評估使用的FrontierMath版本更新，以及可能的計算資源和框架不同，都可能是導致結果差異的原因。

ARC Prize基金會也在X平臺上發布消息，進一步證實了Epoch的報告。ARC Prize指出，公開發布的o3模型是一個針對聊天和產品使用進行了調整的不同版本，且所有發布的o3計算層級都比預發布版本要小。這意味著，盡管o3模型在內部測試中取得了高分，但公開發布的版本在性能上有所妥協。

盡管如此，OpenAI并未因此止步。該公司后續推出的o3-mini-high和o4-mini模型在FrontierMath上的表現已經超越了最初的o3模型。同時，OpenAI還計劃在未來幾周內推出更強大的o3版本——o3-pro。

然而，這一系列事件再次凸顯了人工智能基準測試結果的復雜性和不確定性。尤其是當這些結果來自有產品需要銷售的公司時，外界對其真實性和可靠性的質疑聲往往會更加響亮。隨著人工智能行業的競爭加劇，各供應商紛紛急于推出新模型以吸引眼球和市場份額，基準測試“爭議”正變得越來越普遍。

事實上，類似的爭議并非個例。今年1月，Epoch因在OpenAI宣布o3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻的學者直到公開時才知道OpenAI的參與。而最近，埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發布了誤導性的基準測試圖表。就在本月，meta也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。

更多>同類內容

問界M8火爆上市！余承東宣布：大規模交付即將啟動

04-21

《超級機器人大戰Y》8月28日震撼登陸！PS5/Steam/Switch同步發售

04-20

蔚來螢火蟲上市，李斌：未來車款增減，盈利說了算！

04-20

長城2025上海車展前瞻：閃電貓旅行版攜手UTV越野小車震撼登場

04-20

AMD Radeon Pro新專業顯卡曝光：搭載32GB大顯存，性能如何？

04-20

真我GT7新機來襲：預裝realme UI 6.0，承諾四年系統維護與三大安卓版本更新

04-20

問界M8首批交付，余承東宣布：下周全國大范圍提車！

04-20

黃桷沱長江大橋新突破！世界級公軌兩用懸索橋先導索成功跨越天塹

04-20

大眾邁騰豪華型限時特惠，14萬內盡享B+級轎車奢華體驗！

04-20

大眾“與眾06”預告圖曝光，金色標識亮點十足，上海車展即將登場！

04-20

問界M8首批交付，72小時大定破4.4萬臺，鴻蒙智行新車受熱捧！

04-20

真我GT7來襲，天璣9400+性能續航雙冠王，定價有多激進？

04-20

劉慈欣論人形機器人半馬：具身機器人或將徹底改變社會？

04-20

Android 16新突破：Linux終端應用可享手機全額存儲

04-20

阿維塔06驚艷上市，華系轎車新寵，比Model 3便宜近5萬，僅19.19萬起！

04-19

點擊查看更多 +

全站最新

《風暴崛起》意外提前發售，RTS 游戲品類能否借此東風重回巔峰？

《風暴崛起》意外提前發售，RTS 游戲品類能否借此東風重回巔峰？

英特爾Arc顯卡新動向：GDDR7顯存加持，能否撼動英偉達地位？

英特爾Arc顯卡新動向：GDDR7顯存加持，能否撼動英偉達地位？

vivo今晚盛啟新品發布會，X200系列手機、平板、手表齊亮相！

vivo今晚盛啟新品發布會，X200系列手機、平板、手表齊亮相！

AltStore Classic來襲！歐盟iPhone用戶側載應用更自由

AltStore Classic來襲！歐盟iPhone用戶側載應用更自由

羅技美國多款產品悄然提價，最高漲幅竟達25%！

羅技美國多款產品悄然提價，最高漲幅竟達25%！

問界M8火爆上市！余承東宣布：大規模交付即將啟動

問界M8火爆上市！余承東宣布：大規模交付即將啟動

QQ音樂會員歌曲播放新規：單日設備數受限，免費及購買歌曲不受影響

QQ音樂會員歌曲播放新規：單日設備數受限，免費及購買歌曲不受影響

筆記本電腦能用多久？壽命長短取決于這些因素！

筆記本電腦能用多久？壽命長短取決于這些因素！

熱門內容

本欄最新

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

問界M8火爆上市！余承東宣布：大規模交付即將啟動

問界M8火爆上市！余承東宣布：大規模交付即將啟動

《超級機器人大戰Y》8月28日震撼登陸！PS5/Steam/Switch同步發售

《超級機器人大戰Y》8月28日震撼登陸！PS5/Steam/Switch同步發售

蔚來螢火蟲上市，李斌：未來車款增減，盈利說了算！

蔚來螢火蟲上市，李斌：未來車款增減，盈利說了算！

長城2025上海車展前瞻：閃電貓旅行版攜手UTV越野小車震撼登場

長城2025上海車展前瞻：閃電貓旅行版攜手UTV越野小車震撼登場

AMD Radeon Pro新專業顯卡曝光：搭載32GB大顯存，性能如何？

AMD Radeon Pro新專業顯卡曝光：搭載32GB大顯存，性能如何？

真我GT7新機來襲：預裝realme UI 6.0，承諾四年系統維護與三大安卓版本更新

真我GT7新機來襲：預裝realme UI 6.0，承諾四年系統維護與三大安卓版本更新

問界M8首批交付，余承東宣布：下周全國大范圍提車！

問界M8首批交付，余承東宣布：下周全國大范圍提車！

沃資訊門戶 · 資訊在沃千萬用戶的默認資訊主頁合作微信：netspread（注明:沃資訊）
Copyright ? wwo.com.cn All rights reserved. 魯ICP備11015305號-23

<span id="5knls"><optgroup id="5knls"><center id="5knls"></center></optgroup></span>

<label id="5knls"></label>

<label id="5knls"><meter id="5knls"></meter></label>