核心概念
動力学モデルの対称性を活用することで、非対称な報酬関数を持つ環境においても、より効率的にモデルを学習できる。
要約
本論文では、動力学モデルの対称性を活用してモデルを学習する手法を提案している。従来の手法では、動力学モデルと報酬関数の両方が同じ対称性を持つことを前提としていたが、現実世界の多くの環境では動力学モデルと報酬関数の対称性が異なる。
提案手法では、動力学モデルのみが対称性を持つ場合でも、Cartan's moving frame methodを用いて動力学モデルを低次元の入力空間で表現することで、より効率的にモデルを学習できる。
具体的には、まず動力学モデルの対称性を特定し、それに基づいて状態空間を低次元の空間に変換する。その変換された空間でモデルを学習することで、パラメータ数を削減しつつ、対称性を保ったモデルを得ることができる。
提案手法を2つの環境(駐車問題、Reacherタスク)で評価し、従来手法と比較して、特に少ないパラメータ数の場合に優れた性能を示すことを確認した。
統計
動力学モデルの対称性を活用することで、状態空間の次元を大幅に削減できる。
例えば、駐車問題では24次元の状態空間を4次元に、Reacherタスクでは11次元の状態空間を8次元に削減できる。