近期,據日經新聞披露的一項聯合研究成果顯示,中美兩國的新型生成式人工智能(AI)已經展現出令人矚目的學術能力,成功跨越了日本頂尖學府——東京大學理科3類入學考試的門檻。這一突破性進展是通過對比測試美國OpenAI的“o1”模型與中國AI初創企業DeepSeek的“R1”模型得出的。
測試內容涵蓋了2025年度的東京大學入學考試科目,由AI初創公司Life Prompt提供答案輸出,并由知名預備學校河合塾的專業講師進行評分。結果顯示,在兩個基礎模型的表現中,o1獲得了374分,R1緊隨其后,取得了369分,均超過了東大理科3類合格的最低分數線368.7分。
值得注意的是,盡管R1在理科1類和理科2類的共通考試中未能達到合格線,但在其他類別,包括文科在內,它與o1均成功“合格”。這一表現不僅展示了AI在跨學科應用上的潛力,也反映了其在學術評估中的廣泛適用性。
在具體的考試科目中,英語成為了AI模型的強項。o1和R1在英語部分的得分率均超過了75%,河合塾的英語講師久恒秀雄對此評價道:“這兩個模型在英語表達上幾乎沒有單詞和語法的錯誤,其水平遠遠超過了東大考生的平均水平。”
然而,在數學科目上,盡管AI模型能夠正確解答出不少最終答案,但在圖形處理和論證問題上卻頻繁出現論述錯誤和說明不足的情況。在滿分為120分的理科數學考試中,o1得了38分,R1得了49分,這一成績顯著低于合格者的平均分。負責數學評分的香坂季京講師指出:“AI在數學論證上的表現還有待提高。”
對于這一研究成果,自2011年起便致力于“機器人能否進入東京大學”項目的國立信息學研究所新井紀子教授給予了高度評價:“這是AI成長歷程中的一個重要里程碑。然而,我們也必須認識到,AI有時會給出令人困惑甚至錯誤的答案。因此,培養能夠正確判斷并熟練使用AI輸出的人才顯得尤為重要。”