Vorteilsbewusste Strategieoptimierung für Offline-Verstärkungslernen
Die Kernaussage dieses Artikels ist, dass die vorgeschlagene Methode "Advantage-Aware Policy Optimization" (A2PO) die Einschränkungskonflikte bei der Verwendung von gemischten Offline-Datensätzen im Verstärkungslernen effektiv lösen kann, indem sie die Verhaltensrichtlinien der verschiedenen Datensätze explizit berücksichtigt.