本論文では、強化学習における様々な学習目標(報酬なし学習、モデル推定、嗜好ベース学習など)に対して、一つの一般的な複雑性指標と対応するアルゴリズムを提案する。
具体的には以下の通り:
一般的な学習目標Gに対して、G-DECという一般的な複雑性指標を定義する。G-DECは、探索(情報獲得)と活用(近最適な方策)のトレードオフを捉える。
G-DECに基づいたG-E2Dアルゴリズムを提案する。このアルゴリズムは、探索方策と出力方策を分離することで、様々な学習目標に対応できる。
G-DECが各学習目標の下限にもなることを示す。つまり、G-DECは各目標の統計的複雑性を完全に特徴付ける。
具体的な学習目標として、報酬なし学習、モデル推定、嗜好ベース学習を取り上げ、それぞれの複雑性指標と対応アルゴリズムを示す。
さらに、この一般的な枠組みを用いて、様々な強化学習問題クラスに対する新しい効率的な結果を導出する。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Fan Chen,Son... om arxiv.org 04-30-2024
https://arxiv.org/pdf/2209.11745.pdfDiepere vragen