本研究では、エージェントのドロップアウトが起こる多エージェントMDPを扱う。中央プランナーの目的は、事前にエージェントのドロップアウト確率を知った上で、期待システムの価値を最大化するポリシーを見つけることである。
まず、ドロップアウトが起こった後のシステムは新しいMDPとして定義され、状態空間、行動空間、遷移確率、報酬関数が変化する。ドロップアウトが確率的に起こる場合、2^N通りの可能な実現を全て評価するのは現実的ではない。
そこで本研究では、ドロップアウトを考慮した「ロバストMDP」を定義し、これを用いてポリシーの評価を行う。ロバストMDPの報酬関数は、ドロップアウト実現の期待値として定義される。これにより、ドロップアウト後のシステムの価値を、ドロップアウト前のシステムから得られるサンプルから推定できるようになる。
さらに、ポリシー重要サンプリング(IS)を用いて、ロバストMDPの価値関数と特定のドロップアウト実現の価値関数を推定する手法を提案する。これにより、ドロップアウト前のシステムを良好なポリシーで制御しつつ、ドロップアウト後のポリシーを評価できる。
最後に、エージェントドロップアウトの構造的性質を活用して、ドロップアウト前にドロップアウト後の良好なポリシーを見つける手法を示す。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Carmel Fisck... kl. arxiv.org 09-24-2024
https://arxiv.org/pdf/2304.12458.pdfDybere Forespørgsler