Завантажити Linnk AI
•
Помічник з досліджень
>
Увійти
ідея
-
비전-언어 모델을 활용한 제로샷 보상 모델
비전-언어 모델은 강화 학습을 위한 제로샷 보상 모델이다
비전-언어 모델(VLM)을 활용하여 자연어 설명만으로 복잡한 과제를 학습할 수 있는 제로샷 보상 모델을 제안한다.
1