다양한 환경에서 임의의 대상을 탐지, 추적 및 추종하는 쿼드로터 시각 제어 프레임워크를 제안합니다.
다양한 과제를 효과적으로 수행하기 위해서는 의사결정 전략과 더불어 지각 모듈의 유연한 적응이 필요하다. 본 연구에서는 사전 학습된 대규모 비전 모델을 특정 하위 과제에 맞게 조건부로 적응시키는 방법을 제안한다. 이를 통해 단일 정책으로 다양한 과제를 해결할 수 있으며, 소수의 시연만으로도 새로운 과제에 적응할 수 있다.
본 논문은 2D 키포인트 검출과 2D 키포인트를 3D로 변환하는 두 가지 하위 작업으로 고차원 예측 작업을 분리하는 새로운 프레임워크를 제안한다. 이를 통해 성능 향상 없이 키포인트 기반 기술의 고유한 효율성을 유지할 수 있다.
확산 모델 기반의 ALDM 기술을 활용하여 시뮬레이션 환경에서 생성된 이미지를 실제 환경에 효과적으로 전이시킴으로써, 로봇 그래스핑 작업의 성능을 크게 향상시킬 수 있다.