近期,維基媒體基金會,這一運營著全球知名在線百科全書維基百科的非營利組織,透露了一項令人關切的運營挑戰。該基金會在一篇博文中指出,專為AI訓練數據集抓取資源的網絡爬蟲活動正對其造成前所未有的運營開支壓力。
維基百科的關聯項目——維基共享資源,作為一個龐大的多媒體資料庫,長期以來吸引著各類用戶。然而,自2024年初以來,從該平臺下載多媒體內容的帶寬使用量激增了50%,這一增長主要由自動化程序驅動,而非傳統的人類用戶行為。
維基媒體基金會以往能夠有效應對突發事件引發的人類用戶流量高峰,但AI時代網絡爬蟲活動的頻繁加劇,正逐漸侵蝕其系統冗余,迫使基金會將寶貴的時間和資源投入到應對非人類流量上。這不僅影響了用戶體驗,也增加了運營成本。
基金會的數據存儲策略是,低頻內容存放在核心數據中心,而高頻內容則在更靠近用戶的數據中心備份。然而,網絡爬蟲的“遍歷式”查詢模式導致大量流量涌向核心數據中心,從而推高了流量成本。據統計,盡管機器人瀏覽量僅占總體的35%,但它們卻消耗了核心數據中心65%的流量資源。
更令人擔憂的是,這些自動爬蟲不僅訪問了公開資源,甚至還試圖訪問維基媒體基金會開發環境的關鍵系統,如代碼審查平臺和錯誤跟蹤器,這進一步加劇了安全風險和運營負擔。
維基媒體基金會強調,盡管其提供的所有內容是免費的,但維護這些內容的基礎設施并非無成本。基金會呼吁建立一個負責任、可持續的基礎設施使用規范,以避免“公地悲劇”的重演,即公共資源因過度使用而遭受破壞。
面對這一挑戰,維基媒體基金會正積極尋求解決方案,以確保維基百科及其姊妹項目的持續健康發展。同時,該基金會也呼吁社會各界關注并支持其工作,共同維護這一寶貴的全球知識共享平臺。
為了應對日益增長的自動化訪問需求,維基媒體基金會也在探索技術創新,如優化數據存儲策略、提升系統冗余度以及加強安全防護措施等,以期在保障用戶體驗的同時,有效控制運營成本。