Die Arbeit stellt den MMD-QL-Algorithmus vor, der die Unsicherheit der Wertfunktionen in der Verstärkungslernung durch Verwendung des MMD-Barycenter effizient propagiert.
Zunächst wird gezeigt, dass MMD-QL unter der durchschnittlichen Verlustmetrik wahrscheinlich näherungsweise korrekt (PAC-MDP) ist. In Experimenten auf tabellarischen Umgebungen übertrifft MMD-QL andere Algorithmen in Bezug auf die kumulierten Belohnungen.
Anschließend wird MMD-QL um tiefe Netzwerke erweitert, um den MMD-Q-Netzwerk (MMD-QN)-Algorithmus zu erstellen. Unter bestimmten Annahmen wird die Konvergenzrate von MMD-QN unter Verwendung von Funktionsapproximation analysiert. Empirische Ergebnisse auf anspruchsvollen Atari-Spielen zeigen, dass MMD-QN im Vergleich zu Benchmark-Algorithmen für tiefes Verstärkungslernen gut abschneidet und seine Effektivität beim Umgang mit großen Zustands-Aktions-Räumen hervorhebt.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések