본 연구는 로봇의 정밀한 조작 능력 향상을 위해 제로샷 접근법을 제안한다. 기존 접근법은 많은 학습 데이터를 필요로 하거나 언어 기반 지시에 의존하는 한계가 있었다.
연구진은 웹 기반 텍스트-이미지 확산 모델을 활용하여 시각적 특징을 추출하고, 이를 통해 사용자가 지정한 부위를 정밀하게 조작할 수 있는 방법을 제안했다. 구체적으로:
실험 결과, 제안 방식은 기존 접근법보다 정밀한 조작 성능을 보였다. 특히 시각적/기하학적 모호성이 있는 물체에서 우수한 성능을 보였다. 이를 통해 제로샷 환경에서도 정밀한 조작이 가능함을 입증했다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Nikolaos Tsa... klokken arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14526.pdfDypere Spørsmål