Khái niệm cốt lõi
본 논문에서는 비전 언어 모델의 선호도 피드백을 사용하여 라벨링 되지 않은 오프라인 데이터셋에서 로봇 제어 정책을 학습하는 Offline RL-VLM-F 시스템을 제안합니다.
Tóm tắt
비전 언어 모델 피드백을 활용한 실제 환경 오프라인 강화 학습 연구 논문 요약
Venkataraman, S., Wang, Y., Wang, Z., Erickson, Z., & Held, D. (2024). Real-World Offline Reinforcement Learning from Vision Language Model Feedback. arXiv preprint arXiv:2411.05273v1.
본 연구는 라벨링 되지 않은 실제 환경의 오프라인 데이터셋에서 효과적인 로봇 제어 정책을 학습하는 것을 목표로 합니다. 특히, 비전 언어 모델(VLM)의 선호도 피드백을 활용하여 오프라인 데이터셋에 대한 보상 라벨을 자동으로 생성하는 시스템을 제안합니다.