Die Autoren befassen sich mit dem Problem des verteilungsrobusten Offline-Reinforcement-Learnings (RL), bei dem eine robuste Politikoptimierung gegen Umgebungsperturbationen angestrebt wird. Da viele Anwendungen große Zustands- und Aktionsräume aufweisen, ist der Einsatz leistungsfähiger Funktionsapproximationen erforderlich, um die Generalisierungsfähigkeit der Entscheidungsfindung zu verbessern.
Die Autoren konzentrieren sich auf ein grundlegendes Setting, in dem das nominale Modell und die gestörten Modelle linear parametrisiert sind. Sie schlagen zwei Algorithmen vor:
Distributionally Robust Pessimistic Value Iteration (DRPVI): Dieser Algorithmus basiert auf dem Pessimismus-Prinzip und verwendet einen neuen Funktionsapproximationsmechanismus, der speziell für d-rechteckige lineare DRMDPs entwickelt wurde. Die Autoren leiten eine instanzabhängige obere Schranke für die Suboptimalität von DRPVI her, die sich von Ergebnissen für Standard-lineare MDPs unterscheidet.
Variance-Aware Distributionally Robust Pessimistic Value Iteration (VA-DRPVI): Dieser Algorithmus erweitert DRPVI, indem er Varianzinformationen in den Funktionsapproximationsmechanismus einbezieht. Dies führt zu einer kleineren oberen Schranke für die Suboptimalität. Darüber hinaus zeigen die Autoren, dass der robuste Wertfunktionsbereich unter bestimmten Bedingungen eine Bereichsschrumpfung aufweist, was zu einer weiteren Verbesserung der oberen Schranke führt.
Die Autoren beweisen auch eine informationstheoretische untere Schranke und zeigen, dass VA-DRPVI minimax-optimal ist. Beide Algorithmen, DRPVI und VA-DRPVI, sind recheneffizient und überwinden die hohe Rechenbelastung, die in Einstellungen mit (s, a)-rechteckigen Unsicherheitsmengen auftritt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhishuai Liu... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09621.pdfDeeper Inquiries