複数のエージェントが競合するマルコフゲーム環境で、厳密なナッシュ均衡が難しいため、近似ナッシュ均衡を見つける新しい方法が提案されました。この手法は、エージェントが単独で方針を変更した場合の最大報酬差ϵを推定し、任意の状態に対するϵ最小化方針も推定します。ニューラルネットワークによってこれらの関係性を表現し、バッチ更新中にNash Q学習を実行して近似ナッシュ均衡を学習します。特に動的価格領域では、厳密な解決策がしばしば扱いづらい中で近似ナッシュ均衡が学習されることが示されました。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Larkin Liu om arxiv.org 03-05-2024
https://arxiv.org/pdf/2207.06492.pdfDiepere vragen