본 연구는 CLIP 모델을 로봇 작업에 활용하기 위해 미세 조정하는 방법을 제안한다. 기존 CLIP 모델은 정적 이미지와 텍스트 프롬프트 데이터로 학습되어 동적 작업 이해에 한계가 있었다. 이를 해결하기 위해 연구진은 대규모 동작 데이터를 수집하고 레이블링하여 CLIP 모델을 미세 조정하였다. 이를 통해 Robotic-CLIP이라는 새로운 모델을 개발하였다.
Robotic-CLIP은 CLIP의 강력한 이미지 성능을 유지하면서도 로봇 작업 이해 능력을 향상시켰다. 다양한 실험을 통해 Robotic-CLIP이 기존 CLIP 기반 모델들에 비해 언어 구동 로봇 작업 수행에서 우수한 성능을 보였다. 또한 실제 로봇 실험에서도 Robotic-CLIP의 실용성을 입증하였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Nghia Nguyen... ב- arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17727.pdfשאלות מעמיקות