在人工智能技術(shù)的飛速發(fā)展下,一個(gè)令人啼笑皆非的現(xiàn)象悄然興起:每當(dāng)有新的視頻生成器問世,網(wǎng)絡(luò)上總會(huì)出現(xiàn)一段威爾·史密斯享用意大利面的視頻。這一場(chǎng)景,似乎成了新技術(shù)試金石,用以檢驗(yàn)AI能否以假亂真,重現(xiàn)史密斯大快朵頤的瞬間。TechCrunch對(duì)此進(jìn)行了詳細(xì)報(bào)道,指出這一現(xiàn)象已超越了簡(jiǎn)單的網(wǎng)絡(luò)迷因,成為了衡量AI視頻生成能力的非正式標(biāo)準(zhǔn)。
有趣的是,史密斯本人也于二月通過Instagram回應(yīng),親自模仿了這一場(chǎng)景,加入了這場(chǎng)由AI引發(fā)的網(wǎng)絡(luò)狂歡。但這僅僅是2024年人工智能領(lǐng)域眾多奇特“民間”評(píng)測(cè)標(biāo)準(zhǔn)中的一個(gè)縮影。早前,一位16歲的開發(fā)者創(chuàng)建了一款應(yīng)用,讓AI操控《我的世界》游戲,以此測(cè)試其建筑設(shè)計(jì)的智慧。同時(shí),英國一位程序員也搭建了一個(gè)平臺(tái),讓AI在“你畫我猜”和“四子棋”等游戲中展開對(duì)決,進(jìn)一步探索AI的娛樂潛能。
盡管人工智能領(lǐng)域不乏專業(yè)的性能測(cè)試,但這些略顯古怪的測(cè)試方式卻意外走紅。原因在于,許多專業(yè)的AI基準(zhǔn)測(cè)試對(duì)于普通大眾而言,顯得過于深?yuàn)W難懂。企業(yè)常常強(qiáng)調(diào)AI在解決奧林匹克數(shù)學(xué)難題或博士級(jí)別問題上的能力,然而,大多數(shù)人使用聊天機(jī)器人的目的,僅僅是進(jìn)行日常對(duì)話或回復(fù)郵件,這些高深的測(cè)試與他們的實(shí)際需求相去甚遠(yuǎn)。
即便是行業(yè)內(nèi)廣泛采用的評(píng)測(cè)方法,也并非盡善盡美。以備受關(guān)注的“聊天機(jī)器人競(jìng)技場(chǎng)”為例,該平臺(tái)允許網(wǎng)絡(luò)用戶對(duì)AI在特定任務(wù)上的表現(xiàn)進(jìn)行評(píng)分,如開發(fā)網(wǎng)頁應(yīng)用或生成圖像。然而,參與評(píng)分的用戶大多來自人工智能和科技行業(yè),他們的投票往往基于個(gè)人偏好,缺乏代表性,這使得評(píng)測(cè)結(jié)果的公正性和普適性受到質(zhì)疑。
相比之下,“四子棋”、“我的世界”以及“威爾·史密斯吃面條”等另類基準(zhǔn)測(cè)試,雖然缺乏嚴(yán)謹(jǐn)性,卻因其娛樂性和易理解性而廣受歡迎。當(dāng)然,這些測(cè)試也存在局限性,AI在某一任務(wù)上的出色表現(xiàn),并不能直接反映其在其他任務(wù)上的能力。例如,能夠完美生成“威爾·史密斯吃面條”視頻的AI,未必能準(zhǔn)確生成漢堡的圖像。