Die Arbeit stellt den MMD-QL-Algorithmus vor, der die Unsicherheit der Wertfunktionen in der Verstärkungslernung durch Verwendung des MMD-Barycenter effizient propagiert.
Zunächst wird gezeigt, dass MMD-QL unter der durchschnittlichen Verlustmetrik wahrscheinlich näherungsweise korrekt (PAC-MDP) ist. In Experimenten auf tabellarischen Umgebungen übertrifft MMD-QL andere Algorithmen in Bezug auf die kumulierten Belohnungen.
Anschließend wird MMD-QL um tiefe Netzwerke erweitert, um den MMD-Q-Netzwerk (MMD-QN)-Algorithmus zu erstellen. Unter bestimmten Annahmen wird die Konvergenzrate von MMD-QN unter Verwendung von Funktionsapproximation analysiert. Empirische Ergebnisse auf anspruchsvollen Atari-Spielen zeigen, dass MMD-QN im Vergleich zu Benchmark-Algorithmen für tiefes Verstärkungslernen gut abschneidet und seine Effektivität beim Umgang mit großen Zustands-Aktions-Räumen hervorhebt.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Srinjoy Roy,... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00686.pdfYêu cầu sâu hơn