Khái niệm cốt lõi
本論文では、強化学習において、従来の厳密な等変性を持つモデルよりも柔軟に対応できる近似的等変性を持つモデルを提案し、近似的対称性を持つタスクにおいて、サンプル効率とノイズに対するロバスト性の両面で優れた性能を示すことを実証しています。
本論文は、強化学習における近似的等変性について、理論的分析と実証実験を通して検証した研究論文である。従来の強化学習では、タスクに対称性が存在する場合、等変性を持つニューラルネットワークを用いることで、サンプル効率と汎化性能が向上することが知られていた。しかし、現実世界の多くのタスクは完全な対称性を持つことは少なく、近似的対称性しか持たない場合が多い。このような場合、厳密な等変性を課すことは不適切となる。
本研究では、近似的等変性を持つ強化学習アルゴリズムを開発し、近似的等変性マルコフ決定過程(MDP)を定義し、近似的等変性が最適なQ関数に与える影響を理論的に特徴付けた。具体的には、緩和されたグループ畳み込みを用いた新しい強化学習アーキテクチャを提案し、いくつかの連続制御ドメインと実際の金融データを用いた株式取引において実験を行った。その結果、近似的等変性は、厳密な対称性が存在する場合には従来の研究と同等の性能を示し、近似的対称性を持つドメインでは従来の研究を上回る性能を示すことが明らかになった。さらに、これらの手法の副産物として、テスト時のノイズに対するロバスト性の向上も確認された。
本研究では、緩和されたグループ畳み込みを用いて、近似的等変性を持つ強化学習アーキテクチャを実現した。具体的には、エンコーダ、方策、批評家のそれぞれに緩和されたグループ畳み込み層を用いることで、近似的等変性を実現した。