核心概念
ラベル付けされていないサブオプティマルなオフラインデータセットから、視覚言語モデルを用いて報酬ラベルを自動生成し、オフライン強化学習を用いて効果的なロボット制御ポリシーを学習できる新しいシステムが提案されている。
Venkataraman, S., Wang, Y., Wang, Z., Erickson, Z., & Held, D. (2024). Real-World Offline Reinforcement Learning from Vision Language Model Feedback. arXiv preprint arXiv:2411.05273.
本研究は、ラベル付けされていない、必ずしも最適ではないオフラインデータセットから、視覚言語モデルを用いて報酬関数を自動生成し、オフライン強化学習を用いて効果的なロボット制御ポリシーを学習することを目的とする。