Conceptos Básicos
HPO(Hierarchical Preference Optimization)는 복잡한 로봇 제어 작업에서 발생하는 비정상성 및 실행 불가능한 하위 목표 생성 문제를 해결하는 새로운 계층적 강화 학습(HRL) 방법입니다.
Resumen
HPO: 계층적 선호도 최적화 연구 논문 요약
Singh, U., Chakraborty, S., Suttle, W. A., Sadler, B. M., Sahu, A. K., Shah, M., ... & Bedi, A. S. (2024). Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction. arXiv preprint arXiv:2411.00361.
본 연구는 복잡한 로봇 제어 작업에서 비정상성 및 실행 불가능한 하위 목표 생성 문제를 해결하는 새로운 계층적 강화 학습(HRL) 접근 방식인 HPO(Hierarchical Preference Optimization)를 소개합니다.