Die Arbeit stellt den MMD-QL-Algorithmus vor, der die Unsicherheit der Wertfunktionen in der Verstärkungslernung durch Verwendung des MMD-Barycenter effizient propagiert.
Zunächst wird gezeigt, dass MMD-QL unter der durchschnittlichen Verlustmetrik wahrscheinlich näherungsweise korrekt (PAC-MDP) ist. In Experimenten auf tabellarischen Umgebungen übertrifft MMD-QL andere Algorithmen in Bezug auf die kumulierten Belohnungen.
Anschließend wird MMD-QL um tiefe Netzwerke erweitert, um den MMD-Q-Netzwerk (MMD-QN)-Algorithmus zu erstellen. Unter bestimmten Annahmen wird die Konvergenzrate von MMD-QN unter Verwendung von Funktionsapproximation analysiert. Empirische Ergebnisse auf anspruchsvollen Atari-Spielen zeigen, dass MMD-QN im Vergleich zu Benchmark-Algorithmen für tiefes Verstärkungslernen gut abschneidet und seine Effektivität beim Umgang mit großen Zustands-Aktions-Räumen hervorhebt.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Srinjoy Roy,... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00686.pdfГлибші Запити