本論文では、未知の強い単調性を持つゲームにおいて、各プレイヤーがバンディットフィードバックのみを利用して最適な無後悔学習を行う問題を扱っている。
まず、単一エージェントの設定で、滑らかで強い凹性を持つ報酬関数に対して、ミラー降下法に基づく新しいバンディット学習アルゴリズムを提案し、その最適な後悔界を示した。
次に、この単一エージェントアルゴリズムを多エージェントの強い単調性を持つゲームに適用し、最後の反復での収束率が最適であることを示した。これは、これまでの最良の収束率を改善するものである。
具体的には、以下の結果を得た:
これらの結果は、バンディットフィードバックの下での最適な無後悔学習アルゴリズムを初めて明らかにしたものである。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Wenjia Ba,Ti... pada arxiv.org 04-01-2024
https://arxiv.org/pdf/2112.02856.pdfPertanyaan yang Lebih Dalam