이 논문은 비전 언어 모델의 풍부한 세계 지식을 활용하여 물체 어포던스를 예측하는 새로운 접근법인 AffordanceLLM을 제안한다. 기존의 어포던스 예측 모델들은 훈련 데이터에 있는 물체와 행동에 대해서만 잘 작동하지만, 새로운 물체나 행동에 대해서는 일반화 성능이 떨어진다는 한계가 있다.
AffordanceLLM은 LLaVA라는 대규모 비전 언어 모델을 활용하여 이러한 한계를 극복한다. 비전 언어 모델은 방대한 텍스트 데이터로 사전 학습되어 풍부한 세계 지식을 가지고 있다. AffordanceLLM은 이 지식을 활용하여 훈련 데이터에 없는 새로운 물체와 행동에 대해서도 어포던스를 잘 예측할 수 있다.
또한 AffordanceLLM은 물체의 3D 기하학 정보를 추가 입력으로 활용하여 어포던스 예측 성능을 더욱 향상시킨다. 실험 결과, AffordanceLLM은 기존 최신 모델들을 크게 앞서는 성능을 보였으며, 훈련 데이터에 없는 물체와 행동에 대해서도 합리적인 어포던스 예측 결과를 보여주었다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Shengyi Qian... ที่ arxiv.org 04-19-2024
https://arxiv.org/pdf/2401.06341.pdfสอบถามเพิ่มเติม