Verstärktes Lernen durch Rückmeldung zu Interventionen: Eine effiziente Alternative zum interaktiven Imitationslernen
Das vorgeschlagene Verfahren RLIF (Reinforcement Learning via Intervention Feedback) nutzt Verstärktes Lernen, um aus Interventionen eines suboptimalen menschlichen Experten zu lernen, ohne dass eine explizite Belohnungsfunktion vorgegeben werden muss. RLIF kann die Leistung von interaktiven Imitationslernverfahren wie DAgger übertreffen, insbesondere wenn der Experte suboptimal ist.