亚洲精品在线视频,精品一区二区久久,特级毛片免费视频

AI數(shù)據(jù)源頭揭秘：巨頭壟斷加劇，西方文化主導下的模型偏見何時休？

發(fā)布時間：2025-01-30 15:23 來源：ITBEAR 作者：沈如風

在人工智能領域，LLM和Agent技術日新月異，取得了高度成熟的進展。然而，相比之下，數(shù)據(jù)收集方面的規(guī)范化進程卻明顯滯后。一個引人深思的問題擺在了人們面前：AI訓練所需的海量數(shù)據(jù)究竟源自何處？為了解答這一問題，一個名為數(shù)據(jù)溯源計劃（DPI）的國際性研究團隊應運而生。

Longpre強調(diào)，對于基座模型的能力而言，互聯(lián)網(wǎng)的規(guī)模和數(shù)據(jù)的異構性至關重要。對規(guī)模的需求也促進了合成數(shù)據(jù)的大量使用。除了語言模型外，近年來多模態(tài)生成式AI（GenAI）也迅速崛起，如圖像和視頻生成模型。這些模型同樣需要盡可能多的數(shù)據(jù)，而視頻模型的語音和圖像數(shù)據(jù)集中，超過70%的數(shù)據(jù)都來自YouTube。這一現(xiàn)象對擁有YouTube平臺的谷歌及其母公司Alphabet極為有利，因為文本數(shù)據(jù)分布在整個互聯(lián)網(wǎng)上，由許多不同的網(wǎng)站和平臺控制，但視頻數(shù)據(jù)的權力卻如此集中地掌握在一家公司手中。

AI Now Institute聯(lián)合執(zhí)行董事Sarah Myers West對此表示擔憂，她認為谷歌在開發(fā)自己的人工智能模型（如Gemini）方面具有巨大優(yōu)勢，這引發(fā)了人們對其如何向競爭對手提供數(shù)據(jù)的疑問。更深層次的問題是，如果我們所交互的大多數(shù)AI數(shù)據(jù)集都反映了以利潤為導向的科技巨頭的意圖和設計，那么這些大公司可能會以符合自己利益的方式重塑我們世界的基礎設施。

數(shù)據(jù)集之間的集成和沿襲缺乏一致性，這使得開發(fā)人員很難做出正確的數(shù)據(jù)選擇，也無法保證模型訓練過程中沒有使用過受版權保護的數(shù)據(jù)。最近，OpenAI、Google等公司與出版商、Reddit等主要論壇以及網(wǎng)絡社交媒體平臺達成了獨家數(shù)據(jù)共享協(xié)議，這進一步加劇了數(shù)據(jù)壟斷的趨勢。這一趨勢有利于AI領域的最大玩家，他們有足夠的財力進行數(shù)據(jù)交易，但卻犧牲了學術界研究人員、非營利組織和小公司的利益。

更令人擔憂的是，用于訓練AI模型的數(shù)據(jù)嚴重偏向西方世界。DPI團隊分析的數(shù)據(jù)集中，超過90%來自歐洲和北美，而非洲的數(shù)據(jù)占比不到4%。Hugging Face首席倫理學家Giada Pistilli指出，英語在訓練數(shù)據(jù)中占據(jù)主導地位的原因之一是互聯(lián)網(wǎng)中90%以上的內(nèi)容仍然是英語；另一個原因是便利性：將其他語言的數(shù)據(jù)集放在一起并考慮其他文化需要進行更多的數(shù)據(jù)工作以及開發(fā)人員的有意識意圖。這導致多模態(tài)模型的輸出往往以西方文化為焦點，例如當提示AI模型生成婚禮的景象和聲音時，可能只能得到西式婚禮相關的內(nèi)容。

數(shù)據(jù)集代表了人類社會中的偏見，而經(jīng)過這些數(shù)據(jù)訓練的模型又加劇了這些偏見。這可能導致AI模型推動一種以美國為中心的世界觀，同時不經(jīng)意間抹去其他語言和文化。為了解決這個問題，DPI團隊呼吁加強數(shù)據(jù)收集方面的規(guī)范化進程，提高數(shù)據(jù)透明度和多樣性，以確保AI技術的公平性和可持續(xù)性發(fā)展。

更多>同類內(nèi)容

午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

AI數(shù)據(jù)源頭揭秘：巨頭壟斷加劇，西方文化主導下的模型偏見何時休？