Zuverlässige Off-Policy-Vorhersage für Mehrfachagentensysteme durch konforme Prognose
Die Kernaussage dieses Artikels ist, dass die MA-COPP-Methode eine konforme Vorhersagemethode ist, die eine zuverlässige Off-Policy-Vorhersage für Mehrfachagentensysteme ermöglicht, indem sie die Verteilungsverschiebung berücksichtigt, die durch den Wechsel der Richtlinienpolitik entsteht.