Globale Optimalität und Konvergenz von Temporal-Differenz-Lernen und Q-Lernen mit überparametrisierten neuronalen Netzen
Temporal-Differenz-Lernen und Q-Lernen können die optimale Repräsentation in überparametrisierten neuronalen Netzen global minimieren und konvergieren.