状態ベースの連続制御タスクにおいて、ユークリッド対称性に基づくデータ拡張を用いることで、強化学習アルゴリズムのデータ効率と漸近性能を大幅に向上させることができる。
階層強化学習とグラフニューラルネットワークを組み合わせることで、複雑な制御問題を単純なサブタスクに分解し、ロボットなどの構造化されたエージェントの制御を効率的に学習できる。
従来のエピソード強化学習(ERL)のサンプル効率の低さを、Transformer ベースの批評家を用いたオフポリシー更新スキームによって大幅に改善する新しいアルゴリズム、TOP-ERL を提案する。
事前学習済み汎用ポリシーのマルチタスク環境への適応を効率化する、情報利得に基づくアクティブなデモンストレーション収集手法を提案する。
拡散モデルを用いることで、複雑で多峰性のある行動を表現できるエネルギーベースポリシーからのサンプリングが可能になる。
大規模言語モデルを活用して、カスタム環境における多目的強化学習課題の報酬関数を効率的に設計・最適化する手法を提案する。
本研究では、状態と制御に依存する拡散係数を持つ連続時間線形二次制御問題に対して、モデルフリーのアクター-クリティックアルゴリズムを提案し、そのレグレット上界を導出した。提案手法は、モデルパラメータの推定を必要とせず、劣線形レグレットを達成できることを示した。
提案するSLDACアルゴリズムは、非凸確率的制約条件と環境との相互作用コストが高いという課題に取り組む。アクターモジュールではCSSCA法を使用し、クリティックモジュールでは単一ループ設計と観測の再利用を行うことで、収束性を保証しつつ効率的に最適化を行う。
準ハイパーボリック割引は人間の短期的な即時的な報酬への偏好を捉えることができるが、最適な方策は初期状態に依存し、時間非整合的になる可能性がある。このため、マルコフ完全均衡(MPE)と呼ばれる方策を見つけることが重要である。本研究では、MPEを発見するための初めてのモデルフリーの強化学習アルゴリズムを提案し、その収束性を示した。
アクションマスキングとカリキュラム学習の適用により、オペレーショナル・テクノロジーのサイバーセキュリティ対策における強化学習エージェントの学習効率と全体的なパフォーマンスが大幅に向上した。