Core Concepts
平均場制御問題における連続時間q学習の重要性と定義に焦点を当てる。
Abstract
この論文は、平均場制御問題における連続時間q学習の概念を探求しています。JiaとZhou(2023)によって導入されたQ-learningの連続時間版であるq-learningを、エントロピー正則化強化学習の設定で調査しています。単一エージェントの制御問題とは異なり、エージェント間の平均場相互作用がq関数の定義を微妙なものにし、統合されたq関数と必須q関数が自然に現れることが明らかになりました。これら2つのq関数はすべてのテストポリシーに対する積分表現を介して関連付けられています。弱いマルチンゲール条件と提案されたテストポリシー検索方法に基づいて、いくつかのモデルフリー学習アルゴリズムが考案されました。具体的な例では、LQ制御フレームワーク内およびLQ制御フレームワーク外で、最適値関数とq関数の正確なパラメータ化を取得し、シミュレーション実験でアルゴリズムを説明しています。
Stats
二つの異なるq関数がすべてのテストポリシーを含む弱いマルチンゲール特性でどう利用されるか。
テストポリシー検索方法はどう決定されるか。
弱マルチンゲール損失を最小限に抑えるため更新規則がどう提案されているか。
テストポリシーではなくターゲットポリシーがサンプルと観測生成に使用されている理由は何か。
Quotes
"我々は特定時刻ステップサイズΔtで統合Q関数Q∆t(t, µ, h; π)が我々の統合したq関数とどう関係しているかを示します"
"この論文では平均場制御問題における連続時間q学習コンセプトを探求します"
"二つの異なるq関数はすべてのテストポリシー下で弱マルチンゲール特性を通じて密接な関係があることが示されます"