Core Concepts
Die Autoren entwickeln minimax-optimale und recheneffiziente Algorithmen für verteilungsrobustes Offline-Reinforcement-Learning mit linearer Funktionsapproximation. Sie zeigen, dass Funktionsapproximation in diesem Kontext wesentlich herausfordernder ist als im Standard-Offline-Reinforcement-Learning und präsentieren neuartige Techniken zur Analyse und Verbesserung der Algorithmen.
Abstract
Die Autoren befassen sich mit dem Problem des verteilungsrobusten Offline-Reinforcement-Learnings (RL), bei dem eine robuste Politikoptimierung gegen Umgebungsperturbationen angestrebt wird. Da viele Anwendungen große Zustands- und Aktionsräume aufweisen, ist der Einsatz leistungsfähiger Funktionsapproximationen erforderlich, um die Generalisierungsfähigkeit der Entscheidungsfindung zu verbessern.
Die Autoren konzentrieren sich auf ein grundlegendes Setting, in dem das nominale Modell und die gestörten Modelle linear parametrisiert sind. Sie schlagen zwei Algorithmen vor:
Distributionally Robust Pessimistic Value Iteration (DRPVI): Dieser Algorithmus basiert auf dem Pessimismus-Prinzip und verwendet einen neuen Funktionsapproximationsmechanismus, der speziell für d-rechteckige lineare DRMDPs entwickelt wurde. Die Autoren leiten eine instanzabhängige obere Schranke für die Suboptimalität von DRPVI her, die sich von Ergebnissen für Standard-lineare MDPs unterscheidet.
Variance-Aware Distributionally Robust Pessimistic Value Iteration (VA-DRPVI): Dieser Algorithmus erweitert DRPVI, indem er Varianzinformationen in den Funktionsapproximationsmechanismus einbezieht. Dies führt zu einer kleineren oberen Schranke für die Suboptimalität. Darüber hinaus zeigen die Autoren, dass der robuste Wertfunktionsbereich unter bestimmten Bedingungen eine Bereichsschrumpfung aufweist, was zu einer weiteren Verbesserung der oberen Schranke führt.
Die Autoren beweisen auch eine informationstheoretische untere Schranke und zeigen, dass VA-DRPVI minimax-optimal ist. Beide Algorithmen, DRPVI und VA-DRPVI, sind recheneffizient und überwinden die hohe Rechenbelastung, die in Einstellungen mit (s, a)-rechteckigen Unsicherheitsmengen auftritt.
Stats
Der Erwartungswert der Summe der normierten Featurevektoren über den optimalen robusten Pfad ist beschränkt durch den Supremum über alle Übergangswahrscheinlichkeiten in der Unsicherheitsmenge.
Die Varianz-gewichtete Summe der normierten Featurevektoren über den optimalen robusten Pfad ist beschränkt durch den Supremum über alle Übergangswahrscheinlichkeiten in der Unsicherheitsmenge.
Quotes
Keine relevanten Zitate identifiziert.