Core Concepts
ビジョン言語モデルを使用して、強化学習タスクの報酬関数を指定する効果的な方法を提案しました。
Abstract
Juan RocamondeらがICLR 2024で発表した論文によると、事前訓練されたビジョン言語モデル(VLMs)を使用して、自然言語に基づいてタスクを指定するゼロショット報酬モデル(RMs)として使用する方法を提案しています。
VLM-RMsは、CLIPを基にしたVLM-RMsを使用して、MuJoCo humanoidロボットに膝立ちや分割などの複雑なタスクを学習させることができます。
VLM-RMsは、VLMのサイズとトレーニングコンピュート量が大きくなるほど良い報酬モデルとなります。
現在のVLMには制限がありますが、将来的にはより大きくて能力の高いVLMが利用可能になることで、これらの制限は克服される可能性があります。
INTRODUCTION
Juan RocamondeらはICLR 2024で発表した論文で、ビジョン言語モデル(VLMs)を使用した強化学習タスクの報酬関数指定方法について提案しました。この手法ではCLIPを基にしたVLM-RMsを使用してMuJoCo humanoidロボットに複雑なタスクを学習させることが可能です。また、VLM-RMsは将来的により大きくて能力の高いVLMsが利用可能になることでさらに有用な報酬モデルとなる可能性があります。
Stats
RCLIPエージェント100%成功率
ViT-bigG-14 CLIPモデル:人間評価成功率100%
Quotes
"Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive."
"Using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language."