核心概念
従来のエピソード強化学習(ERL)のサンプル効率の低さを、Transformer ベースの批評家を用いたオフポリシー更新スキームによって大幅に改善する新しいアルゴリズム、TOP-ERL を提案する。
摘要
TOP-ERL: Transformer ベースのオフポリシー エピソード強化学習
この論文は、行動シーケンスの価値を予測するために Transformer を批評家として活用する、Transformer ベースのオフポリシー エピソード強化学習(TOP-ERL)と呼ばれる新しいオフポリシー強化学習アルゴリズムを提案しています。
この研究の主な目的は、エピソード全体にわたる行動軌跡の予測に焦点を当てたエピソード強化学習(ERL)のサンプル効率の低さを克服することです。ERLは、従来のステップベースのRLと比較して、疎な報酬環境における優れた探索能力と滑らかな行動生成という利点がある一方で、特に密な報酬設定においてサンプル効率が低いという課題がありました。
TOP-ERLは、この問題に対処するために、行動シーケンス評価のためのTransformerの活用、Nステップリターンの学習目標としての採用、およびオフポリシー更新ルールの適用という3つの主要な貢献をしています。
Transformerによる行動シーケンス評価: TOP-ERLは、長い行動シーケンスをより小さなセグメントに分割し、Transformerベースの批評家アーキテクチャとNステップリターン推定を用いて各セグメントの状態行動値を推定します。Transformerは、シーケンスデータのパターン認識における能力により、ERLにおける行動シーケンスの価値を効果的に評価することができます。
Nステップリターンを学習目標として使用: 批評家の更新には、単一ステップTDエラーよりもバイアスと分散のバランスに優れているNステップリターンを採用しています。これにより、特に遅延報酬のある環境において、より正確な価値推定が可能になります。
オフポリシー更新ルールの適用: TOP-ERLは、SAC(Soft Actor-Critic)と同様に、Transformer批評家の選好に基づいて行動シーケンスを選択するオフポリシー更新ルールを採用しています。これにより、過去の経験を再利用し、サンプル効率を大幅に向上させることができます。