Concetti Chiave
본 논문에서는 복잡한 3D 환경을 온라인으로 업데이트되는 계층적 3D 장면 그래프로 표현하고, 이를 활용하여 LLM에 계층적 프롬프트를 제공함으로써 정확하고 빠르며 설명 가능한 제로샷 객체 탐색 프레임워크인 SG-Nav를 제안합니다.
Sintesi
SG-Nav: LLM 기반 제로샷 객체 탐색을 위한 온라인 3D 장면 그래프 프롬프팅
본 연구는 사전 학습 없이 텍스트로 지정된 객체를 찾아 탐색하는 제로샷 객체 탐색 작업에서 LLM의 추론 능력을 활용하여 높은 정확도와 빠른 속도, 설명 가능성을 갖춘 새로운 프레임워크를 제안하는 것을 목표로 합니다.
본 논문에서 제안하는 SG-Nav는 온라인으로 업데이트되는 계층적 3D 장면 그래프를 구축하여 환경에 대한 풍부한 컨텍스트 정보를 유지하고 LLM과의 상호 작용에 적합하도록 설계되었습니다. 주요 특징은 다음과 같습니다.
1. 온라인 3D 장면 그래프 구축
객체, 그룹, 방의 세 가지 유형의 노드를 사용하여 다양한 세분화 수준에서 장면을 표현합니다.
프레임 간에 장면 그래프를 점진적으로 업데이트하여 실시간 온라인 구성을 가능하게 합니다.
새롭게 감지된 노드를 이전 노드에 조밀하게 연결하고, 덜 유익한 가장자리를 제거하기 위해 프루닝을 수행합니다.
효율적인 프롬프트 기반 방법을 사용하여 LLM의 계산 복잡성을 줄여 실시간 처리를 가능하게 합니다.
2. 3D 장면 그래프를 사용한 LLM 프롬프팅
각 단계에서 계층적 체인-오브-쏘트(CoT) 방법을 사용하여 LLM에 프롬프트를 제공합니다.
장면 그래프를 하위 그래프로 나누고 각 하위 그래프에 대해 목표가 나타날 가능성을 예측합니다.
각 프론티어에 대한 점수는 하위 그래프의 확률을 보간하여 얻습니다.
LLM의 의사 결정 프로세스를 요약하여 각 단계에서의 결정에 대한 이유를 설명할 수 있습니다.
3. 그래프 기반 재인식
감지된 목표 객체의 신뢰도 점수를 누적하여 인식 오류를 해결합니다.
여러 관점에서 관찰하여 객체의 신뢰도를 판단하고, 신뢰도가 낮은 경우 해당 객체를 포기하고 탐색을 계속합니다.