Value Explicit Pretraining(VEP)は、転移強化学習のために一般化可能な表現を学習する方法です。VEPは、外観変化や環境ダイナミクスに関係なく、以前に学習したタスクと同じ目的を共有する新しいタスクの学習を可能にします。自己教師付き対比損失を使用してエンコーダーを事前トレーニングし、時間的に滑らかな表現を学習します。VEPは、タスク進行の反映であるベルマンリターン推定に基づいて異なるタスク間の状態を関連付けることを学びます。実験では、実在感のあるナビゲーションシミュレーターとAtariベンチマークを使用して、VEPによって生成された事前トレーニング済みエンコーダーが未知のタスクへの汎化能力でSoTA事前トレーニング方法よりも優れていることが示されました。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問