Wie man durch adversarisches inverses Reinforcement-Lernen Verhaltensimitationen und übertragbare Belohnungen gewinnen kann
Durch den Einsatz des Soft Actor-Critic-Algorithmus (SAC) als Optimierungsmethode für die Imitationsleistung und des Proximal Policy Optimization (PPO)-Algorithmus für die Gewinnung übertragbarer Belohnungen kann ein hybrider Ansatz (PPO-AIRL + SAC) erreicht werden, der sowohl eine effiziente Verhaltensimitation als auch eine robuste Belohnungsübertragung ermöglicht.