핵심 개념
본 논문에서는 비전 언어 모델의 선호도 피드백을 사용하여 라벨링 되지 않은 오프라인 데이터셋에서 로봇 제어 정책을 학습하는 Offline RL-VLM-F 시스템을 제안합니다.
초록
비전 언어 모델 피드백을 활용한 실제 환경 오프라인 강화 학습 연구 논문 요약
Venkataraman, S., Wang, Y., Wang, Z., Erickson, Z., & Held, D. (2024). Real-World Offline Reinforcement Learning from Vision Language Model Feedback. arXiv preprint arXiv:2411.05273v1.
본 연구는 라벨링 되지 않은 실제 환경의 오프라인 데이터셋에서 효과적인 로봇 제어 정책을 학습하는 것을 목표로 합니다. 특히, 비전 언어 모델(VLM)의 선호도 피드백을 활용하여 오프라인 데이터셋에 대한 보상 라벨을 자동으로 생성하는 시스템을 제안합니다.