Główne pojęcia
Informationsverlust in der Darstellung von Wertfunktionen kann die statistische Effizienz von modellfreien Methoden wie LSTD stark beeinträchtigen.
Streszczenie
Der Artikel untersucht den Zusammenhang zwischen der Darstellungskraft von Wertfunktionen und der statistischen Effizienz von modellfreien Methoden wie LSTD (Least-Squares Temporal Difference Learning) im Vergleich zu modellbasierten Ansätzen.
Zentrale Erkenntnisse:
- In einigen Fällen können Informationen über die Übergangsstruktur des Modells nicht in der Wertfunktionsdarstellung repräsentiert werden. Dies führt zu einem Informationsverlust.
- Dieser Informationsverlust korreliert stark mit der relativen statistischen Ineffizienz von LSTD im Vergleich zu modellbasierten Methoden.
- In linearen dynamischen Systemen mit allgemeinen linearen Übergängen und linearen Belohnungen ist LSTD genauso effizient wie modellbasierte Schätzungen, da hier kein Informationsverlust auftritt.
- Sobald die Übergangsstruktur eingeschränkter ist, wie bei diagonalen linearen Übergängen oder quadratischen Belohnungen, verliert LSTD an statistischer Effizienz, da es implizit in einer zu großen Klasse von Modellen optimiert.
- Die Ergebnisse zeigen, dass die Darstellungskraft von Wertfunktionen ein zentraler Faktor für die relative Leistungsfähigkeit von modellfreien und modellbasierten Methoden ist.
Statystyki
Die Standardabweichung des Schätzfehlers von LSTD wächst linear mit der Dimension d, während sie für modellbasierte Schätzungen nur konstant wächst.
Die Standardabweichung des LSTD-Schätzers ist um einen Faktor Θ(d) größer als die des modellbasierten Schätzers bei diagonalen linearen Übergängen.
Cytaty
"Model free estimation of value functions is ubiquitous in reinforcement learning."
"Unfortunately, model-free algorithms are sometimes sample inefficient."