近期,人工智能領域再度掀起波瀾,meta公司因被指控在其大型語言模型Llama的訓練過程中使用了盜版內容,而陷入了版權糾紛的風暴中心。這一事件不僅引起了業界的廣泛關注,更被視為科技公司在AI訓練中使用未經授權內容所面臨的首次重大版權訴訟。
事情的起因可追溯到2023年,小說家理查德·卡德雷與克里斯托弗·金登聯手,對meta提起了名為“Kadrey等人訴meta平臺案”的訴訟。他們指控meta在未經版權所有者許可的情況下,擅自使用了受保護的內容來訓練其LLM模型Llama。這一指控迅速引發了輿論的熱議。
在案件審理過程中,meta曾試圖通過提交經過編輯的信息文件來規避一些敏感內容,但加利福尼亞州北區聯邦地區法院的法官文斯·查布拉卻堅持要求公開原始文件。這些文件無疑成為了案件的關鍵證據,它們不僅揭示了meta員工之間關于LLama和meta AI的交談細節,更有一位工程師在對話中坦承,自己在公司筆記本上下載盜版內容時感到不妥。這一表述無疑證實了meta確實涉及了使用盜版內容訓練AI的行為。文件中還有對話暗示,meta的首席執行官馬克·扎克伯格對于使用盜版材料的行為持默許態度。
進一步調查發現,meta獲取盜版內容的渠道之一竟是LibGen,這個自2008年在俄羅斯創建的大型資源庫,長期以來一直因涉及版權訴訟而備受爭議。盡管其實際運營者身份不明,但meta卻從中獲取了大量的書籍、雜志和學術論文等內容用于AI訓練。meta還被曝出從其他非法資源庫中獲取了內容。
面對如此指控,meta并未坐以待斃,而是提出了自己的辯護意見。meta認為,其使用公共材料的行為符合“合理使用”法律原則,即在特定情況下,即使未經許可使用受版權保護的內容也是合法的。meta還強調,他們使用這些文本僅僅是為了進行語言統計建模并生成原始表達,而非用于其他商業目的。
值得注意的是,meta并非孤例。在此之前,已有其他大型科技公司因使用受版權保護內容訓練AI模型而遭受質疑。例如,去年的一項調查就指出,蘋果創建的OpenELM模型中包含了來自超過17萬個YouTube視頻的字幕。這一發現最初引發了人們對蘋果是否濫用受版權保護內容訓練Apple Intelligence的擔憂。然而,蘋果隨后澄清稱,OpenELM是一個用于研究目的的開源模型,其數據庫并未用于支持Apple Intelligence。
蘋果還表示,其在iOS和macOS上提供的AI功能是在“許可數據”上訓練的,這些數據包括為增強特定功能而選擇的數據以及由網絡爬蟲收集的公開可用數據。值得注意的是,許多大型出版商,如《紐約時報》和《大西洋月刊》,已明確表示不會與Apple Intelligence的訓練共享其內容,這也在一定程度上反映了出版界對于科技公司使用受版權保護內容的謹慎態度。