In dieser Arbeit wird das adversarische inverse Reinforcement-Lernen (AIRL) aus zwei verschiedenen Blickwinkeln betrachtet: Verhaltensimitation und übertragbare Belohnungsgewinnung.
Für die Verhaltensimitation zeigt sich, dass der Einsatz des Soft Actor-Critic-Algorithmus (SAC) als Optimierungsmethode innerhalb von AIRL (SAC-AIRL) zu einer deutlichen Verbesserung der Imitationsleistung führt. Dies liegt an der Off-Policy-Formulierung und den identifizierbaren Markov-Entscheidungsprozess-Modellen von SAC.
Für die Gewinnung übertragbarer Belohnungen wird jedoch deutlich, dass SAC-AIRL nicht in der Lage ist, die Belohnung vollständig von der Dynamik des Systems zu entkoppeln. Stattdessen kann der Proximal Policy Optimization (PPO)-Algorithmus, der auf dem Standard-RL-Ansatz basiert, diese Entkopplung besser leisten.
Daher schlagen die Autoren einen hybriden Ansatz vor, bei dem PPO-AIRL im Quellsystem eingesetzt wird, um eine entkoppelte Belohnung zu gewinnen, und anschließend SAC im Zielsystem verwendet wird, um die Politik basierend auf dieser Belohnung zu optimieren (PPO-AIRL + SAC). Dieser Ansatz zeigt empirisch eine deutlich überlegene Leistung bei der Belohnungsübertragung.
Darüber hinaus analysieren die Autoren aus algebraischer Sicht, unter welchen Bedingungen an die Umgebungsdynamik AIRL in der Lage ist, entkoppelte Belohnungen zu extrahieren.
翻譯成其他語言
從原文內容
arxiv.org
深入探究