Der Artikel befasst sich mit dem Offline-Verstärkungslernen, bei dem effektive Agentenpolitiken aus vorgesammelten Datensätzen ohne Online-Exploration erlernt werden. Eine Herausforderung dabei ist das Out-of-Distribution-Problem, bei dem die Verteilungsverschiebung zwischen den durch die gelernte Politik induzierten Daten und den durch die Verhaltenspolitik gesammelten Daten zu Extrapolationsfehlern führt.
Um dieses Problem anzugehen, versuchen Offline-RL-Methoden, angemessene Konservativität auf den Lernagenten innerhalb der Verteilung des Datensatzes aufzuerlegen. Allerdings treten bei der Verwendung von gemischten Qualitätsdatensätzen, die von mehreren Verhaltenspolitiken gesammelt wurden, oft Einschränkungskonflikte auf, da bestehende Methoden jede Stichprobe gleich behandeln, ohne die Unterschiede in der Datenqualität zu berücksichtigen.
Um dieses Problem zu lösen, führt der Artikel die Methode "Advantage-Aware Policy Optimization" (A2PO) ein. A2PO verwendet einen bedingten variationalen Autoencoder (CVAE), um die Aktionsverteilungen der verschachtelten Verhaltenspolitiken durch Modellierung der Vorteilswerte aller Trainingsdaten als bedingte Variablen zu entwirren. Anschließend kann der Agent die so entwirrrten Aktionsverteilungsbeschränkungen befolgen, um die vorteilsbewusste Politik in Richtung hoher Vorteilswerte zu optimieren.
Umfangreiche Experimente auf dem D4RL-Benchmark zeigen, dass A2PO den aktuellen Stand der Technik bei Offline-RL-Methoden sowohl für Einzelqualitäts- als auch für gemischte Qualitätsdatensätze übertrifft.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yunpeng Qing... klokken arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07262.pdfDypere Spørsmål