jazzjazz国产精品一区二区,999精品视频在线观看,亚洲一本二本三本的区

中國信通院開啟大模型幻覺測試，涵蓋人文社科等五大維度

發(fā)布時間：2025-03-19 16:50 來源：ITBEAR 作者：馮璃月

近日，中國信息通信研究院（中國信通院）通過其官方微信公眾號發(fā)布了一項重要舉措，旨在深入探索大型人工智能模型（大模型）的“幻覺”現(xiàn)象，并推動其在實際應(yīng)用中的安全與可靠性。該舉措基于前期AI Safety Benchmark的測評經(jīng)驗，正式啟動了針對大模型的幻覺測試項目。

所謂大模型幻覺（AI Hallucination），是指當(dāng)這些模型在生成文本或回答問題時，可能會創(chuàng)造出看似合理但實際上與用戶輸入不符（即忠實性幻覺）或違背事實（即事實性幻覺）的內(nèi)容。隨著大模型在醫(yī)療、金融等關(guān)鍵行業(yè)的廣泛應(yīng)用，這種幻覺現(xiàn)象所帶來的潛在風(fēng)險日益凸顯，引起了業(yè)界的廣泛關(guān)注。

本次幻覺測試主要針對的是大語言模型，測試內(nèi)容涵蓋了忠實性幻覺和事實性幻覺兩大類型。為了全面評估這些模型，測試數(shù)據(jù)包含了超過7000條中文測試樣本，測試形式則分為信息抽取、知識推理（針對忠實性幻覺）以及事實判別（針對事實性幻覺）等題型。測試維度廣泛，涵蓋了人文科學(xué)、社會科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和形式科學(xué)等多個領(lǐng)域。

具體來看，測試體系的設(shè)計旨在通過多樣化的題型和豐富的測試樣本，準(zhǔn)確捕捉大模型在不同情境下的幻覺表現(xiàn)。這不僅有助于揭示模型潛在的缺陷，也為后續(xù)的優(yōu)化和改進(jìn)提供了重要依據(jù)。

為了推動大模型的安全應(yīng)用，中國信通院誠摯邀請相關(guān)企業(yè)積極參與此次模型測評。通過共同的努力，旨在提升大模型的準(zhǔn)確性和可靠性，降低幻覺現(xiàn)象帶來的應(yīng)用風(fēng)險。

中國信通院還強調(diào)了測試工作的重要性，指出這不僅是對大模型性能的一次全面檢驗，更是推動人工智能領(lǐng)域健康發(fā)展的重要一環(huán)。通過持續(xù)的測試和評估，將有助于提高整個行業(yè)對大模型幻覺現(xiàn)象的認(rèn)識和應(yīng)對能力。

更多>同類內(nèi)容

午夜日韩久久影院,亚洲欧美在线观看首页,国产情侣真实露脸在线最新,一级毛片在线观看免费

中國信通院開啟大模型幻覺測試，涵蓋人文社科等五大維度