The author proposes HIQL, a hierarchical algorithm for offline goal-conditioned RL that leverages a single value function to drive the learning of low-level and high-level policies. This approach simplifies the method while achieving strong performance in various challenging tasks.
オフライン目標条件付きRLの階層的アルゴリズムであるHIQLは、複雑なタスクにおいて強力なパフォーマンスを発揮し、行動フリーデータを活用し、画像ベースのタスクにおいて組み込み表現学習の利点を享受することができます。
비지도 사전 훈련을 기반으로 한 HIQL은 오프라인 목표 조건화 강화 학습에서 효과적인 계층적 방법론을 제안합니다.
HIQL ist eine effektive hierarchische Methode für Offline-Ziel-orientiertes Reinforcement Learning, die robust gegenüber Rauschen in der gelernten Wertefunktion ist.