Herausforderungen beim Offline-Reinforcement-Learning mit heterogenen Datensätzen
Bestehende Offline-Reinforcement-Learning-Algorithmen scheitern oft, wenn Datensätze aus verschiedenen Quellen kombiniert werden, da ihre Leistung erheblich abnimmt. Einfache Lösungen wie eine Vergrößerung der Netzwerkarchitektur können jedoch dieses Paradoxon überwinden und sogar die Leistung auf Standard-Benchmarks übertreffen.