이 연구는 로봇이 알 수 없는 환경에서 목표 물체를 찾는 문제를 해결하기 위한 방법을 제안한다. 이를 위해 다음과 같은 접근법을 사용한다:
주의, 인지, 저장 정보 처리 과정을 모방한 프레임워크: 대규모 언어 모델(LLM)과 대규모 비전 언어 모델(LVLM)의 추론 능력을 활용하여 환경에 대한 의미론적 이해를 바탕으로 효율적인 탐색 계획을 생성한다.
문맥 학습 기반 접근법: LLM을 사용하여 장면에서 가장 중요한 객체를 식별하고, 목표 지향적이고 간소화된 3D 장면 표현을 실시간으로 구축한다.
다중 뷰 기반 추론 전략: LVLM을 사용하여 탐색 중 감지된 객체가 목표 물체인지 여부를 확인한다.
이러한 접근법을 통해 로봇은 알 수 없는 환경에서 효율적으로 목표 물체를 찾을 수 있다. 실험 결과는 제안된 프레임워크가 인간 수준의 성능에 근접함을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Arjun P S,An... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00318.pdfDeeper Inquiries