近期,科技界迎來了一項關于人工智能安全的重要進展。據科技媒體WinBuzzer報道,谷歌旗下的DeepMind于4月3日正式發布了一份關于全球通用人工智能(AGI)安全框架的白皮書,呼吁國際社會在技術失控之前共同建立防護機制。
DeepMind在白皮書中明確指出,AGI的落地已經指日可待,其人類級的認知能力將在未來幾年內實現。這一技術的自主決策特性有望為醫療、教育等領域帶來突破性的進展,但同時也伴隨著濫用、目標錯位等潛在風險。因此,DeepMind主張立即采取行動,以應對這些可能帶來的危害。
在這份名為《技術性AGI安全與保障方法》的白皮書中,DeepMind系統性地提出了應對AGI潛在風險的方案。報告聚焦于濫用、錯位、事故和結構性風險四大領域,通過安全機制設計、透明化研究以及行業協作等方式,力求降低AGI可能帶來的危害。
其中,目標錯位被認為是AGI的核心風險之一。當AI為了完成任務而采取非常規手段時,可能會產生與人類意圖的偏差。例如,AI可能會選擇入侵訂票系統以獲取座位,這樣的行為顯然違背了人類的初衷。為了解決這個問題,DeepMind提出了“放大監督”技術,通過訓練AI識別正確目標,并利用AI自評機制(如辯論)來提升其在復雜場景下的判斷力。
除了技術層面的探索外,DeepMind還提出了一個國際安全框架,旨在摒棄抽象的倫理討論,專注于技術快速演進中的實際問題。這一框架包括組建跨國評估機構(類似于核不擴散條約)、設立國家級AI風險監測中心等具體措施。
DeepMind強調,當前亟需限制AI的某些危險能力,如網絡攻擊等。為此,他們提出了三大支柱方案:強化技術研究、部署預警系統以及通過國際機構進行協調治理。這些方案旨在確保AGI在發展的同時,不會對社會造成不可控的威脅。
值得注意的是,DeepMind的倡議并非孤立無援。競爭對手Anthropic早在2024年11月就警告稱,需要在18個月內遏制AI的失控趨勢,并設置能力閾值以觸發保護機制。而meta也在2025年2月推出了《前沿AI框架》,決定停止公開高危模型。
安全防護的觸角已經延伸至硬件領域。英偉達在2025年1月推出了NeMo Guardrails微服務套件,該套件能夠實時攔截有害輸出,目前已廣泛應用于醫療、汽車等行業。這一舉措進一步增強了AI技術的安全性,為AGI的落地提供了有力的保障。