本論文では、強化学習において、従来の厳密な等変性を持つモデルよりも柔軟に対応できる近似的等変性を持つモデルを提案し、近似的対称性を持つタスクにおいて、サンプル効率とノイズに対するロバスト性の両面で優れた性能を示すことを実証しています。
本稿では、抽象化モデルを用いてドメイン固有の語彙の不確実な解釈を処理することにより、ノイズの多い不確実な環境においても、報酬機械を用いて深層強化学習エージェントがタスク構造を活用できることを示しています。
本稿では、ラベル付けされていない動画データから視覚ダイナミクスの事前知識を活用することで、強化学習におけるポリシー学習の効率性を向上させる手法を提案する。
本稿では、最終的な分子構造だけでなく、分子全体の軌跡を最適化する、新しい強化学習フレームワークを提案する。これは、従来の手法では困難であった、複雑なエネルギー地形における局所的な最小値を回避し、より効果的に最適な分子構造を発見することを可能にする。
状態ベースの連続制御タスクにおいて、ユークリッド対称性に基づくデータ拡張を用いることで、強化学習アルゴリズムのデータ効率と漸近性能を大幅に向上させることができる。
階層強化学習とグラフニューラルネットワークを組み合わせることで、複雑な制御問題を単純なサブタスクに分解し、ロボットなどの構造化されたエージェントの制御を効率的に学習できる。
従来のエピソード強化学習(ERL)のサンプル効率の低さを、Transformer ベースの批評家を用いたオフポリシー更新スキームによって大幅に改善する新しいアルゴリズム、TOP-ERL を提案する。
事前学習済み汎用ポリシーのマルチタスク環境への適応を効率化する、情報利得に基づくアクティブなデモンストレーション収集手法を提案する。
拡散モデルを用いることで、複雑で多峰性のある行動を表現できるエネルギーベースポリシーからのサンプリングが可能になる。
大規模言語モデルを活用して、カスタム環境における多目的強化学習課題の報酬関数を効率的に設計・最適化する手法を提案する。