Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen durch Dropout-basierte Optimierung von lernbasierten Richtlinien für zeitliche Aufgaben
Dieser Artikel stellt einen modellbasierten Ansatz für das Training von Feedback-Reglern für einen autonomen Agenten vor, der in einer hochgradig nichtlinearen (wenn auch deterministischen) Umgebung operiert. Das Ziel ist es, eine trainierte Richtlinie sicherzustellen, dass der Agent bestimmte Aufgabenziele und Sicherheitsanforderungen erfüllt, die in diskreter zeitlicher Signaltemporaler Logik (DT-STL) ausgedrückt sind. Um mit langen Zeithorizonten umzugehen, führen wir eine neuartige Gradientenapproximation auf der Grundlage der Idee von Dropout oder Gradientenprobenahme ein.