Ein natürlicher Ansatz für Online-Algorithmen für Hybrid-RL mit begrenzter Abdeckung
Ein einfacher Ansatz, um bestehende optimistische Online-RL-Algorithmen durch Einbeziehung von Offline-Daten zu verbessern, kann zu ähnlichen nachweisbaren Gewinnen führen wie komplexere Ansätze, selbst wenn die Offline-Daten von schlechter Qualität sind.