Optimierung der Handlungspolitik unter stochastischer Ausführungsverzögerung mithilfe von Baumsuche
In dieser Arbeit wird ein neues Formalismus für Markov-Entscheidungsprozesse mit stochastischer Ausführungsverzögerung eingeführt. Es wird gezeigt, dass es ausreicht, die Suche nach einer optimalen Politik auf die Klasse der Markov-Politiken zu beschränken, um die bestmögliche Leistung zu erreichen. Basierend auf dieser Erkenntnis wird DEZ, ein modellbasierter Algorithmus, entwickelt, der die Stärken von EfficientZero nutzt, um mit Verzögerungen umzugehen.