Der Artikel befasst sich mit dem Offline-Verstärkungslernen, bei dem effektive Agentenpolitiken aus vorgesammelten Datensätzen ohne Online-Exploration erlernt werden. Eine Herausforderung dabei ist das Out-of-Distribution-Problem, bei dem die Verteilungsverschiebung zwischen den durch die gelernte Politik induzierten Daten und den durch die Verhaltenspolitik gesammelten Daten zu Extrapolationsfehlern führt.
Um dieses Problem anzugehen, versuchen Offline-RL-Methoden, angemessene Konservativität auf den Lernagenten innerhalb der Verteilung des Datensatzes aufzuerlegen. Allerdings treten bei der Verwendung von gemischten Qualitätsdatensätzen, die von mehreren Verhaltenspolitiken gesammelt wurden, oft Einschränkungskonflikte auf, da bestehende Methoden jede Stichprobe gleich behandeln, ohne die Unterschiede in der Datenqualität zu berücksichtigen.
Um dieses Problem zu lösen, führt der Artikel die Methode "Advantage-Aware Policy Optimization" (A2PO) ein. A2PO verwendet einen bedingten variationalen Autoencoder (CVAE), um die Aktionsverteilungen der verschachtelten Verhaltenspolitiken durch Modellierung der Vorteilswerte aller Trainingsdaten als bedingte Variablen zu entwirren. Anschließend kann der Agent die so entwirrrten Aktionsverteilungsbeschränkungen befolgen, um die vorteilsbewusste Politik in Richtung hoher Vorteilswerte zu optimieren.
Umfangreiche Experimente auf dem D4RL-Benchmark zeigen, dass A2PO den aktuellen Stand der Technik bei Offline-RL-Methoden sowohl für Einzelqualitäts- als auch für gemischte Qualitätsdatensätze übertrifft.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania