핵심 개념
本文提出了一種利用先驗資訊來提高基於採樣的成本最小化算法效率的方法。通過保存歷史的最優軌跡,並在新的狀態下優先採樣這些軌跡,可以顯著提高算法的性能。
초록
本文研究了自主車輛(AV)在長期成本最小化問題中的應用。在這個問題中,AV需要在一段時間T內,最小化狀態序列s1:T和動作序列a1:T的預期成本。由於T很大,作者採用了模型預測控制(MPC)的方法,在較短的時間窗H內進行優化。
為了簡化計算,作者使用了一個固定的運動原語字典Dα,從中採樣合適的運動序列。為了提高採樣效率,作者提出了利用先驗資訊的方法:
- 保存歷史上成本最優的運動序列,形成一個先驗軌跡庫D'prior。
- 在新的狀態下,優先從D'prior中採樣,並根據保存的先驗分布計算採樣概率。如果狀態不在庫中,則採用均勻採樣。
- 通過調整參數β,可以控制先驗軌跡庫的使用程度。
作者分析了這種方法的性能,包括在沒有先驗資訊時的期望表現,以及隨著先驗資訊積累時的性能提升。
통계
在沒有先驗資訊時,連續N次採樣得到低於平均成本的軌跡的概率為:
δ1 = 1 - (1 - Pμ-)^N
在有先驗資訊時,得到低於平均成本的軌跡的概率為:
δ2 = 1 - (1 - P'μ-)^N ≥ δ1 = 1 - (1 - Pμ-)^N
其中P'μ- ≥ |D-| / |Dα|