核心概念
本文提出了一種基於強化學習的無人機編隊控制方法,該方法能夠在引導飛行的同時,透過行為決策讓多架無人機維持編隊並避開靜態和動態障礙物。
文獻資訊
Xie, Y., Yu, C. B, Zang, H., Gao, F., Tang, W., Huang, J., ... & Wang, Y. (2024). Multi-UAV Behavior-based Formation with Static and Dynamic Obstacles Avoidance via Reinforcement Learning. arXiv preprint arXiv:2410.18495v1.
研究目標
本研究旨在開發一種基於強化學習的方法,用於控制多架無人機在保持預設隊形的同時避開靜態和動態障礙物,並安全抵達目標區域。
方法
兩階段強化學習訓練流程:
第一階段:在簡化場景中,透過隨機搜尋線性效用函數的權重向量,找到最佳的目標權重平衡。
第二階段:將第一階段找到的效用函數應用於更複雜的場景,並利用課程學習逐步提高任務難度,加速訓練過程並提升最終效能。
基於注意力機制的觀測編碼器:
使用多頭自我注意力機制和多頭交叉注意力機制,有效地處理不同數量的障礙物資訊,並強化無人機之間的隊形維持能力。
主要發現
與基於規劃的方法和基於強化學習的基準方法相比,本研究提出的方法在避障率和隊形維持方面均表現更佳,尤其是在包含靜態、動態和混合障礙物的場景中。
透過消融實驗驗證了注意力機制觀測編碼器和課程學習策略的有效性。
在真實世界的部署中,該方法展現出強大的泛化能力和避障能力,能夠在保持隊形的同時安全地避開各種障礙物。
主要結論
本研究提出了一種基於強化學習的多無人機編隊控制方法,透過兩階段訓練流程、課程學習和注意力機制觀測編碼器,有效解決了多目標優化、大探索空間和仿真與現實之間的差距等挑戰,實現了無人機在複雜環境下的安全、穩定和高效的編隊飛行。
意義
本研究為多無人機系統在複雜環境下的編隊控制提供了一種新的解決方案,在無人機集群應用領域,例如搜索和救援、物流運輸等方面具有潛在的應用價值。
局限性和未來研究方向
本研究假設無人機之間具有完美的通訊,未來可以探討在通訊延遲或中斷的情況下的解決方案。
目前的方法僅限於結構化環境,未來可以考慮結合視覺感測器,使系統能夠在非結構化環境中運行。
統計資料
在模擬實驗中,與其他方法相比,該方法在混合障礙物場景(2 個球體 + 10 個圓柱體)中的無碰撞率最高,達到 89%,隊形維持度最佳,為 0.278。
隨著障礙物數量的增加,該方法的性能僅略有下降,展現出其強大的可擴展性和泛化能力。
在真實世界部署中,該方法能夠在保持隊形的同時,透過積極的躲避策略安全地穿越所有障礙物。