本研究旨在解決機器人在非線性、非高斯環境中進行線上決策時,如何確保安全性和最佳化決策的問題。現有的線上 POMDP 求解器在隨時設定下存在問題,無法提供可靠且安全的最佳自主性。
本文提出了一種名為 PC-MCTS 的新型線上置信空間規劃方法,該方法建立在最近提出的機率置信依賴約束公式的基礎上。與現有方法不同,PC-MCTS 採用蒙地卡羅樹搜尋 (MCTS) 方法在連續域中實現隨時安全性,無需依賴搜尋的收斂性。該方法通過修剪置信樹中不安全的動作並修正相關值和統計數據,確保隨時滿足機率約束。
PC-MCTS 方法為具有機率約束的線上決策提供了一種有效且可靠的解決方案,確保了隨時安全性並實現了良好的性能。
本研究對於機器人和其他需要在不確定環境中進行安全和最佳決策的自主系統具有重要意義。
翻譯成其他語言
從原文內容
arxiv.org
深入探究