Effiziente Propagierung der Unsicherheit von Wertfunktionen in der Verstärkungslernung durch Verwendung des Maximum Mean Discrepancy Barycenter
Der Kern dieser Arbeit ist die Einführung von Maximum Mean Discrepancy Q-Learning (MMD-QL), einem neuen Algorithmus zur Verbesserung der Erkundung in der Verstärkungslernung durch effiziente Propagierung der Unsicherheit von Wertfunktionen unter Verwendung des MMD-Barycenter.