핵심 개념
Wir präsentieren den ersten Algorithmus, der eine horizonfreie Regret-Schranke für lineare Markov-Entscheidungsprozesse erreicht, bei denen die Größe des Übergangsmodells exponentiell oder sogar abzählbar unendlich sein kann.
초록
Die Studie befasst sich mit dem Problem des effizienten Lernens in Reinforcement-Learning-Umgebungen, bei denen die Zustandsübergänge und Belohnungen linear in einer bekannten Merkmalsmenge dargestellt werden können.
Kernpunkte:
- Bisherige Arbeiten zu horizonfreien Regret-Schranken konnten nur für Szenarien mit polynomieller Abhängigkeit von der Größe des Übergangsmodells, wie tabulare Markov-Entscheidungsprozesse (MDPs) und lineare Mischungs-MDPs, erreicht werden.
- Wir präsentieren den ersten Algorithmus, der eine horizonfreie Regret-Schranke für lineare MDPs erreicht, bei denen die Größe des Übergangsmodells exponentiell oder sogar abzählbar unendlich sein kann.
- Im Gegensatz zu früheren Arbeiten, die explizit das Übergangsmodell schätzen und die inhomogenen Wertfunktionen in verschiedenen Zeitschritten berechnen, schätzen wir direkt die Wertfunktionen und Konfidenzintervalle.
- Wir erreichen die horizonfreie Schranke, indem wir (1) mehrere gewichtete Kleinste-Quadrate-Schätzer für die Wertfunktionen verwenden und (2) ein Strukturlemma nutzen, das zeigt, dass die maximale Gesamtvariation der inhomogenen Wertfunktionen durch einen polynomiellen Faktor der Merkmalsdimension beschränkt ist.
통계
Der Erwartungswert der kumulativen Belohnung in einer Episode ist fast sicher kleiner oder gleich 1. (Annahme 1)
Die Übergangswahrscheinlichkeiten und Belohnungsfunktion sind lineare Funktionen bekannter Merkmale. (Annahme 2)
인용구
Keine relevanten Zitate identifiziert.