Der Einsatz von potenzialbasierter Belohnungsformung (PBRS) hat großes Potenzial, um die Stichprobeneffizienz in Reinforcement Learning (RL) zu verbessern. Allerdings ist die Wahl der Potenzialfunktion entscheidend für die Wirksamkeit dieser Technik. Darüber hinaus sind RL-Techniken in der Regel auf einen endlichen Horizont beschränkt, was zu einem Bias führt. In dieser Arbeit nutzen wir Abstraktionen, um automatisch eine "gute" Potenzialfunktion zu erzeugen. Wir analysieren den durch endliche Horizonte induzierten Bias im Kontext von PBRS und gewinnen neue Erkenntnisse. Schließlich evaluieren wir unseren Ansatz auf vier Umgebungen, einschließlich einer zielorientierten Navigationsaufgabe und drei Arcade Learning Environment (ALE) Spielen, und zeigen, dass wir mit einem einfachen vollvernetzten Netzwerk die gleiche Leistung wie CNN-basierte Lösungen erreichen können.
Wir präsentieren zwei Policy-Gradientenbasierte Methoden mit allgemeiner Parametrisierung im Kontext von Markov-Entscheidungsprozessen mit unendlichem Horizont und durchschnittlicher Belohnung. Der erste Ansatz verwendet Impliziten Gradiententransport zur Varianzreduktion und erreicht eine erwartete Regret-Schranke der Größenordnung ̃O(T^{3/5}). Der zweite Ansatz, der auf Hessian-basierten Techniken basiert, erreicht eine erwartete Regret-Schranke der Größenordnung ̃O(√T), was optimal in T ist.
Die Einführung eines Integralterms in die quadratische Belohnungsfunktion kann den stationären Fehler des Reinforcement Learning-Algorithmus verringern, ohne dass es zu signifikanten Spitzen in bestimmten Systemzuständen kommt.
Der Artikel zeigt, dass der zwei-zeitskalen Actor-Critic Algorithmus mit überparametrisierten neuronalen Netwerken global optimal konvergiert und die Repräsentation des Kritikers sich innerhalb einer Nachbarschaft der Initialrepräsentation entwickelt.
Die Studie entwirft neuartige nichtparametrische Bellman-Abbildungen in reproduzierenden Kernhilbert-Räumen (RKHS), um das Problem des Auftretens von Ausreißern beim adaptiven Filtern zu lösen. Die vorgeschlagenen Abbildungen ermöglichen es, die Statistiken der Ausreißer ohne Vorkenntnisse online zu bestimmen und so den optimalen Koeffizienten p für die Methode des kleinsten mittleren p-ten Fehlers (LMP) zu wählen.
Reinforcement Learning Agenten können sich in komplexen, mehrdimensionalen Räumen effizient navigieren und optimale Entscheidungsstrategien erlernen.