本文提出了一種名為 UNIQ 的新型離線逆向強化學習方法,該方法利用不良示範和未標記數據來學習避免不良行為的策略,並在安全強化學習任務中展現出卓越的性能。
This paper introduces UNIQ, a novel algorithm that leverages inverse Q-learning to train agents that can effectively avoid undesirable behaviors by learning from both undesirable and unlabeled demonstrations.
Ein bi-level Optimierungsansatz zur Schätzung von Belohnungen und Umgebungsmodellen aus Demonstrationen.