In dieser Arbeit wird ein neuer Formalismus für Markov-Entscheidungsprozesse mit stochastischer Ausführungsverzögerung (SED-MDPs) eingeführt. Im Gegensatz zu herkömmlichen MDPs, bei denen Aktionen sofort ausgeführt werden, können in SED-MDPs Aktionen mit zufälliger Verzögerung ausgeführt werden.
Die Autoren zeigen, dass es ausreicht, die Suche nach einer optimalen Politik auf die Klasse der Markov-Politiken zu beschränken, um die bestmögliche Leistung zu erreichen. Basierend auf dieser Erkenntnis wird DEZ, ein modellbasierter Algorithmus, entwickelt, der die Stärken von EfficientZero nutzt, um mit Verzögerungen umzugehen.
DEZ verwaltet zwei Warteschlangen: eine für frühere Aktionen und eine für die entsprechenden Verzögerungswerte. Mithilfe eines erlernten Vorwärtsmodells kann DEZ zukünftige Zustände vorhersagen und entsprechend Entscheidungen treffen. Außerdem verbessert DEZ die Art und Weise, wie Daten aus früheren Erfahrungen gespeichert und verwendet werden, um die Genauigkeit insgesamt zu erhöhen.
Die Autoren testen DEZ auf 15 Atari-Spielen unter sowohl deterministischen als auch stochastischen Verzögerungen. In beiden Fällen übertrifft DEZ signifikant die Leistung des ursprünglichen EfficientZero und des "Delayed-Q"-Algorithmus von Derman et al. (2021).
To Another Language
from source content
arxiv.org
Głębsze pytania