大規模言語モデルを活用して、カスタム環境における多目的強化学習課題の報酬関数を効率的に設計・最適化する手法を提案する。
本研究では、状態と制御に依存する拡散係数を持つ連続時間線形二次制御問題に対して、モデルフリーのアクター-クリティックアルゴリズムを提案し、そのレグレット上界を導出した。提案手法は、モデルパラメータの推定を必要とせず、劣線形レグレットを達成できることを示した。
提案するSLDACアルゴリズムは、非凸確率的制約条件と環境との相互作用コストが高いという課題に取り組む。アクターモジュールではCSSCA法を使用し、クリティックモジュールでは単一ループ設計と観測の再利用を行うことで、収束性を保証しつつ効率的に最適化を行う。
準ハイパーボリック割引は人間の短期的な即時的な報酬への偏好を捉えることができるが、最適な方策は初期状態に依存し、時間非整合的になる可能性がある。このため、マルコフ完全均衡(MPE)と呼ばれる方策を見つけることが重要である。本研究では、MPEを発見するための初めてのモデルフリーの強化学習アルゴリズムを提案し、その収束性を示した。
アクションマスキングとカリキュラム学習の適用により、オペレーショナル・テクノロジーのサイバーセキュリティ対策における強化学習エージェントの学習効率と全体的なパフォーマンスが大幅に向上した。
ヒューマンインテュイションを確率的グラフィカルモデルとして形式化し、標準的な深層強化学習アルゴリズムと組み合わせることで、サンプル効率を向上させ、学習された方策の説明可能性を高める。
環境の変化に適応できる堅牢な方策を学習するためのカリキュラムを実験的に検討し、因子化された状態表現を使うことで、単純なカリキュラムでも堅牢な方策を学習できることを示した。
提案されたCoLaNETアーキテクチャは、モデルベースの強化学習における現在の状態を評価するために使用できる。
ソフトアクタークリティックアルゴリズムにおいて、ベータ分布を用いることで、より効率的な学習が可能になる。
IRS を光学無線通信ネットワークに統合することで、ユーザの合計データレートを向上させ、サービスの継続性を確保することができる。強化学習アルゴリズムを用いることで、事前の知識なしに近最適な解を提供できる。