在人機共存的復雜環境中,機器人的社交導航能力成為了衡量其智能化水平的關鍵指標。社交導航,即在遵循社會規范的前提下,機器人自主執行導航任務,這一領域正面臨著前所未有的挑戰。
想象一下,一個機器人需要在密集的人群中穿梭,目標點恰好位于兩名行人未來軌跡的交匯點。此時,機器人不僅要靈活規避潛在的碰撞風險,還需與行人保持適當的社交距離,這無疑對機器人的導航算法提出了極高的要求。
傳統的預建地圖方法在面對人群密集的動態環境時顯得力不從心,而現有的強化學習(RL)方法又存在短視決策和過度依賴全局信息的問題。為了克服這些難題,香港科技大學(廣州)和香港科技大學的研究團隊聯合提出了一種名為Falcon的新算法。
Falcon算法的核心在于將軌跡預測算法融入社交導航任務中,從而實現長期動態避障并提升導航性能。該算法框架由兩個主要模塊組成:主策略網絡和時空預知模塊。
主策略網絡是Falcon的“大腦”,負責指導機器人的行動。它引入了社會認知懲罰機制,通過設計專門的懲罰函數來避免機器人干擾人類的未來軌跡,從而有效規避碰撞風險并保持社交距離。這些懲罰項包括障礙物碰撞懲罰、人類接近懲罰和軌跡阻礙懲罰。
而時空預知模塊則結合軌跡預測與多種社交感知輔助任務,顯著增強了機器人對未來環境動態變化的預測能力。它能夠預測場景中的人數、實時跟蹤行人位置以及預測未來幾秒內行人的路徑,從而幫助機器人提前規劃避障策略。
然而,社交導航領域的另一個重要挑戰在于現有基準的真實性不足。現有基準通常過于簡化場景,忽略了場景的復雜性,同時行人動作僵硬、運動模式失真,難以反映實際場景中的交互情況。
為了彌補這些缺陷,研究團隊構建了兩個新的數據集——Social-HM3D和Social-MP3D。這兩個數據集基于高精度3D掃描技術,涵蓋了公寓、辦公樓、商場等多種室內場景,并采用了多目標導向的軌跡生成算法和ORCA動態避障模型來模擬人類的自然行為。這些新基準不僅平衡了人機交互的社交密度,還避免了過度擁擠的情況。
實驗結果表明,Falcon算法在目標達成和社會合規方面表現出色。在Social-HM3D數據集中,Falcon達到了55.15%的成功率和成功路徑效率(SPL),即使在未訓練過的Social-MP3D數據集上也能取得55.05%的成功率。同時,在保持社交距離和避免碰撞方面,Falcon也表現出良好的性能。
研究團隊還發現了幾個關鍵結論。首先,未來感知算法優于以往的實時感知算法,因為它能夠主動預測行人軌跡并提前調整路徑,從而顯著提升安全性和效率。其次,輔助任務有助于提高導航性能,其中軌跡預測最為重要。最后,社會認知懲罰機制(SCP)和時空預知模塊(SPM)相輔相成,能夠改善性能并加快訓練收斂速度。
隨著Falcon算法的提出和新基準的構建,社交導航領域的研究將邁上新的臺階。這些成果不僅為機器人提供了更加智能、高效的導航策略,還為未來的人機交互和智能機器人發展奠定了堅實的基礎。