핵심 개념
本文提出了一種利用逆向強化學習從專家示範數據中學習獎勵函數,並結合運動規劃器生成逼真且安全的自主水面艦艇靠泊策略的方法。
本文提出了一種利用專家示範數據實現全驅動自主水面艦艇自主靠泊的方法。我們將靠泊問題視為模仿學習任務,並採用逆向強化學習 (IRL) 從專家軌跡中學習獎勵函數。該方法採用兩階段神經網絡架構,將傳感器提供的環境信息和艦艇運動學信息整合到獎勵函數中。然後,學習到的獎勵函數與運動規劃器一起使用,以生成靠泊軌跡。模擬實驗證明,這種方法能夠在不同的環境配置下產生類似人類的靠泊行為。
無人水面艦艇的自主靠泊仍然是一個具有挑戰性的問題,因為其涉及複雜的流體動力學、環境干擾和機動性限制。傳統的基於規則的方法難以適應複雜和動態的環境。相比之下,能夠從專家示範中學習的神經網絡允許自主系統根據真實數據調整其行為。