核心概念
本論文では、最大エントロピー微分動的計画法をTsallisエントロピーを用いて一般化した手法を提案する。Tsallisエントロピーを用いることで、最適制御ポリシーがq-Gaussianとなり、より広範な探索が可能になる。さらに、探索分散がトラジェクトリの価値関数に応じて自動的にスケーリングされるため、必要に応じて効果的な探索を行うことができる。
要約
本論文では、最大エントロピー微分動的計画法(ME-DDP)をTsallisエントロピーを用いて一般化した手法を提案している。
まず、Tsallisエントロピーの定義と性質について説明している。Tsallisエントロピーは、Shannon エントロピーの一般化であり、q-Gaussianという重い裾野を持つ分布を導出することができる。
次に、ME-DDPの最適化問題にTsallisエントロピーを導入し、最適制御ポリシーとして q-Gaussianを導出している。この q-Gaussianの分散は、価値関数に応じて自動的にスケーリングされる特徴を持つ。これにより、必要に応じて効果的な探索を行うことができる。
一方、Tsallisエントロピーを用いた場合、Shannon エントロピーの場合のようなマルチモーダルなポリシーは得られないことを示している。
最後に、2つのロボットシステムを用いた数値実験を行い、提案手法がShannon エントロピーを用いたME-DDPよりも優れた探索性能を示すことを確認している。特に、提案手法は探索パラメータの調整が容易であることも示されている。
統計
トラジェクトリの価値関数が低い場合、探索分散は小さくなる。
トラジェクトリの価値関数が高い場合、探索分散が大きくなる。