본 연구는 로봇의 정밀한 조작 능력 향상을 위해 제로샷 접근법을 제안한다. 기존 접근법은 많은 학습 데이터를 필요로 하거나 언어 기반 지시에 의존하는 한계가 있었다.
연구진은 웹 기반 텍스트-이미지 확산 모델을 활용하여 시각적 특징을 추출하고, 이를 통해 사용자가 지정한 부위를 정밀하게 조작할 수 있는 방법을 제안했다. 구체적으로:
실험 결과, 제안 방식은 기존 접근법보다 정밀한 조작 성능을 보였다. 특히 시각적/기하학적 모호성이 있는 물체에서 우수한 성능을 보였다. 이를 통해 제로샷 환경에서도 정밀한 조작이 가능함을 입증했다.
To Another Language
from source content
arxiv.org
Djupare frågor