Die Studie untersucht das Lernen von Zustandsrepräsentationen aus potenziell hochdimensionalen Beobachtungen mit dem Ziel, ein unbekanntes, teilweise beobachtbares System zu steuern. Wir verfolgen einen direkten Ansatz des Lernens latenter Modelle, bei dem ein dynamisches Modell in einem latenten Zustandsraum durch direkte Vorhersage von Größen, die für die Planung relevant sind (z.B. Kosten), gelernt wird, ohne die Beobachtungen zu rekonstruieren.
Insbesondere konzentrieren wir uns auf eine intuitive, kostendirekte Methode des Lernens von Zustandsrepräsentationen zur Lösung der linearen quadratischen Gauß-Steuerung (LQG), einem der grundlegendsten teilweise beobachtbaren Steuerungsprobleme. Als Hauptergebnisse zeigen wir endliche Stichprobengarantien für das Finden einer nahezu optimalen Zustandsrepräsentationsfunktion und eines nahezu optimalen Reglers unter Verwendung des direkt gelernten latenten Modells.
Wir zeigen, dass kostendirekte latente Modellierung die lineare quadratische Gauß-Steuerung in endlichen Stichproben provabel lösen kann. Unsere Arbeit unterstreicht den Wert der Vorhersage von Mehrschrittkosten, eine Idee, die für unsere Theorie entscheidend ist und die sich auch empirisch als wertvoll für das Lernen von Zustandsrepräsentationen erwiesen hat.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문