Die Studie untersucht die Herausforderungen beim Offline-Reinforcement-Learning (RL) mit heterogenen Datensätzen. Bestehende Offline-RL-Algorithmen wie TD3+BC, AWAC und IQL zeigen einen deutlichen Leistungsrückgang, wenn Datensätze aus verschiedenen Aufgaben einfach zusammengefügt werden, selbst wenn die Algorithmen auf den individuellen Datensätzen gut funktionieren.
Um dieses Phänomen zu untersuchen, formulieren die Autoren mehrere Hypothesen, darunter Überkonservativität der Algorithmen, Skalierbarkeit der Netzwerke, Schätzunsicherheit und Varianz der Vorteilsfunktion. Eine systematische empirische Analyse zeigt, dass die Skalierung der Netzwerkarchitektur der Schlüsselfaktor ist - eine einfache Vergrößerung der Netzwerke überwindet die paradoxen Versagensmodi und übertrifft sogar den Stand der Technik auf gängigen Benchmarks wie D4RL.
Darüber hinaus zeigen die Autoren, dass moderne Netzwerkarchitekturen, die Stabilität und Plastizität verbessern, keinen zusätzlichen Vorteil bringen. Auch andere Lösungen wie Evaluations-Sampling oder Vorteilsstichproben-Schätzung haben nur begrenzte Auswirkungen. Insgesamt legt die Studie nahe, dass die Skalierung der Modellkapazität der Schlüssel ist, um Offline-RL-Methoden für heterogene Datensätze zu verbessern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Edoardo Ceti... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13097.pdfDeeper Inquiries