이 논문은 복잡한 장면을 다양한 수준의 추상화로 이해하는 새로운 접근법인 중첩 신경 특징 필드(N2F2)를 소개한다.
N2F2는 단일 고차원 특징 필드 내에서 서로 다른 차원이 장면 속성을 다양한 세부 수준으로 인코딩하는 계층적 감독 방법을 사용한다. 이를 통해 물리적 크기와 의미론적 세부 사항을 모두 포괄하는 포괄적이고 미묘한 장면 이해를 가능하게 한다.
N2F2는 2D 클래스 무관 분할 모델을 활용하여 이미지 공간에서 임의 스케일의 의미 있는 픽셀 그룹화를 제공하고, CLIP 비전 인코더를 사용하여 각 세그먼트에 대한 언어 정렬 임베딩을 얻는다. 제안된 계층적 감독 방법은 다양한 물리적 스케일에서 이러한 CLIP 임베딩을 증류하여 점진적인 표현을 만든다.
광범위한 실험을 통해 N2F2가 개방형 어휘 3D 분할 및 위치 추정 작업에서 최신 기술을 능가한다는 것을 보여준다. 특히 복합 쿼리에 대한 성능이 크게 향상되었다.
N2F2는 효율적인 복합 임베딩 전략을 통해 명시적인 스케일 선택 없이도 우수한 성능을 달성할 수 있다. 이를 통해 기존 방법보다 약 1.7배 더 빠른 추론 속도를 달성한다.
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas