近日,維基媒體基金會(huì)旗下的 Wikimedia Enterprise 公布了一項(xiàng)重要進(jìn)展,他們?cè)?Kaggle 平臺(tái)上推出了英語(yǔ)和法語(yǔ)版本的維基百科結(jié)構(gòu)化內(nèi)容快照數(shù)據(jù)集,該數(shù)據(jù)集以 JSON 格式呈現(xiàn)。
據(jù)了解,這一數(shù)據(jù)集的發(fā)布旨在方便 AI 和機(jī)器學(xué)習(xí)領(lǐng)域的專業(yè)人士進(jìn)行建模、基準(zhǔn)測(cè)試、對(duì)齊、微調(diào)和探索性分析。數(shù)據(jù)集在設(shè)計(jì)過(guò)程中充分考慮了機(jī)器學(xué)習(xí)的工作流程,大大簡(jiǎn)化了機(jī)器訪問(wèn)維基百科內(nèi)容的流程,使得使用者無(wú)需再對(duì)維基百科主站的原始內(nèi)容進(jìn)行繁瑣的抓取和解析。
對(duì)于 AI 爬蟲而言,這一數(shù)據(jù)集的推出無(wú)疑是一個(gè)利好消息。它們可以直接利用現(xiàn)成的數(shù)據(jù)集進(jìn)行工作,從而減少了在主站爬取數(shù)據(jù)所帶來(lái)的流量負(fù)擔(dān)。這一改變不僅有助于提升 AI 爬蟲的工作效率,同時(shí)也為維基百科的可持續(xù)運(yùn)營(yíng)提供了有力支持。
維基媒體基金會(huì)表示,他們將繼續(xù)致力于推動(dòng)數(shù)據(jù)的開(kāi)放和共享,以支持全球范圍內(nèi)的知識(shí)創(chuàng)新和傳播。未來(lái),他們還將探索更多方式,以便更好地服務(wù)于學(xué)術(shù)界、產(chǎn)業(yè)界以及廣大用戶。