Conceitos Básicos
Wir untersuchen theoretisch, ob gängige Ansätze zum Lernen von Darstellungen aus Videos, wie Autoencoder, Vorwärtsmodellierung und zeitliches kontrastives Lernen, nützliche Darstellungen für effizientes Verstärkungslernen liefern können.
Resumo
In dieser Arbeit untersuchen wir theoretisch, ob gängige Ansätze zum Lernen von Darstellungen aus Videos, wie Autoencoder, Vorwärtsmodellierung und zeitliches kontrastives Lernen, nützliche Darstellungen für effizientes Verstärkungslernen liefern können.
Wir betrachten zwei Szenarien: Block-MDPs, bei denen nur unabhängiges Rauschen in den Beobachtungen vorhanden ist, und Ex-Block-MDPs, bei denen zusätzlich zeitlich korreliertes exogenes Rauschen auftritt.
Für Block-MDPs zeigen wir, dass Vorwärtsmodellierung und zeitliches kontrastives Lernen die latenten Zustände provabel lernen und damit effizientes Verstärkungslernen ermöglichen. Für Ex-Block-MDPs etablieren wir jedoch eine untere Schranke, die zeigt, dass das Lernen aus Videodaten exponentiell schwieriger sein kann als das Lernen aus Trajektorien mit Aktionsinformationen.
Unsere empirischen Ergebnisse in visuellen Domänen bestätigen diese theoretischen Erkenntnisse. Während Vorwärtsmodellierung und zeitliches kontrastives Lernen in Abwesenheit von exogenem Rauschen gut funktionieren, verschlechtert sich ihre Leistung deutlich, sobald exogenes Rauschen vorhanden ist. Im Gegensatz dazu zeigt ein Ansatz, der Trajektorien mit Aktionen verwendet, auch bei exogenem Rauschen gute Ergebnisse.
Estatísticas
Die Repräsentationslernung aus Videos kann exponentiell schwieriger sein als das Lernen aus Trajektorien mit Aktionen.
In Abwesenheit von exogenem Rauschen können Vorwärtsmodellierung und zeitliches kontrastives Lernen effizientes Verstärkungslernen ermöglichen.
In Gegenwart von exogenem Rauschen verschlechtert sich die Leistung dieser Ansätze deutlich.
Citações
"Wir initiieren die theoretische Untersuchung zu prinzipiellen Ansätzen für das Repräsentationslernen und konzentrieren uns auf das Lernen der latenten Zustandsrepräsentationen des zugrunde liegenden MDP unter Verwendung von Videodaten."
"Wenn exogenes Rauschen auch vorhanden ist, etablieren wir ein Ergebnis für eine untere Schranke, das zeigt, dass die Stichprobenkomplexität des Lernens aus Videodaten exponentiell schlechter sein kann als das Lernen aus Trajektorien mit Aktionsbeschriftung."