近期,哥倫比亞大學數字新聞研究中心公布了一項針對AI搜索引擎的深度研究報告,引起了廣泛關注。該研究聚焦于當前市面上八款主流的AI搜索工具,包括ChatGPT Search、Perplexity系列、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search以及Copilot,旨在通過一系列嚴格測試評估它們的準確性和可靠性。
研究人員精心挑選了來自20家新聞機構的200篇報道作為測試樣本,確保這些報道在谷歌搜索結果中排名靠前。隨后,他們利用相同的查詢語句,逐一測試這些AI搜索工具的表現,重點關注它們能否正確引用文章內容、新聞機構名稱及原始鏈接。
測試結果顯示,除了Perplexity及其付費版本外,其余AI搜索引擎的表現均不盡人意。總體而言,AI搜索引擎給出的答案中,有高達60%是不準確的。更令人擔憂的是,這些AI工具對于錯誤答案的“自信”態度,使得問題進一步惡化。它們往往以不容置疑的口吻陳述錯誤信息,甚至在受到質疑時,仍試圖通過邏輯自洽來維護其答案的正確性。
這項研究不僅揭示了AI搜索引擎在準確性方面的不足,更引發了業界對于大語言模型可靠性的深刻反思。長期以來,人們一直擔心大語言模型可能會一本正經地胡說八道,而此次研究的數據結果無疑為這一擔憂提供了有力佐證。這些AI工具在陳述錯誤信息時,往往表現得非常自信,這無疑增加了用戶誤信錯誤信息的風險。
ChatGPT Search雖然回答了所有200個新聞查詢,但其“完全正確”率僅為28%,而“完全錯誤”率則高達57%。盡管表現不佳,但ChatGPT Search并非墊底。X公司旗下的Grok AI系列表現更為糟糕,其中Grok-3 Search的錯誤率更是驚人地達到了94%。而微軟Copilot也問題頻出,在200次查詢中,有104次拒絕回答,剩下的回答中,正確率也僅為16%,總體錯誤率接近70%。
令人驚訝的是,盡管這些AI搜索工具存在諸多問題,但它們的開發公司仍在向用戶收取高額的訂閱費用,每月費用從20美元至200美元不等。更令人費解的是,付費版Perplexity Pro和Grok-3 Search雖然回答次數更多,但錯誤率也隨之上升。這一現象無疑引發了用戶對于AI搜索工具性價比的質疑。
此次研究揭示了當前AI搜索引擎在準確性和可靠性方面存在的問題和挑戰。隨著AI技術的不斷發展,我們期待未來能夠看到更加準確、可靠的AI搜索工具問世,為用戶提供更加優質的信息服務。