본 연구는 신경 방사 필드(NeRF)를 기반으로 하는 OpenNeRF 접근법을 제안하여, 임의의 개념을 세그먼트할 수 있는 개방형 3D 장면 이해를 달성합니다. OpenNeRF는 픽셀 단위 CLIP 특징을 직접 NeRF에 증류하고, NeRF의 새로운 뷰 렌더링 기능을 활용하여 장면 세부 정보에서 추가 시각 언어 특징을 추출함으로써 전반적인 성능을 향상시킵니다.
본 연구는 2D 이미지와 3D 포인트 클라우드 간의 시각-언어 상호작용을 활용하여 3D 장면 그래프 생성을 위한 약한 감독 학습 방법을 제안한다.
이 논문은 다양한 모달리티(객체, 이미지, 속성, 관계 등)로 구성된 3D 장면 그래프를 활용하여 입력 이미지의 위치를 효율적으로 추정하는 방법을 제안한다.
본 연구는 3D 장면 그래프 정렬을 부분 그래프 매칭 문제로 정의하고, 의미 기하 융합을 통해 정확한 노드 매칭을 달성하며, 이를 활용하여 하위 작업의 성능을 향상시킨다.
본 연구는 시간에 따라 변화하는 3D 실내 환경을 "살아있는 장면"으로 정의하고, 이러한 장면에서 객체 인스턴스의 매칭, 등록 및 재구성을 통합적으로 해결하는 방법을 제안한다.
본 연구는 객체 중심 표현을 활용하여 다양한 객체와 다양한 하위 작업을 통합적으로 학습할 수 있는 새로운 분리된 객체 중심 트랜스포머(DOCTR) 모델을 제안한다. DOCTR는 의미 정보와 기하학적 정보를 별도로 학습할 수 있는 의미-기하 분리 쿼리(SGDQ) 설계를 통해 다양한 하위 작업을 효과적으로 수행할 수 있다.
옥트리 표현을 활용하여 다양한 크기와 복잡도의 객체를 효율적으로 모델링하고, 이미지 세그먼테이션 정보를 활용하여 초기 옥트리 구조를 생성하고 반복적으로 개선함으로써 정확도와 효율성을 향상시킨다.
주어진 자유 형식 텍스트 쿼리에 따라 3D 장면의 모든 객체 인스턴스를 분할하는 것이 목표입니다.
중첩 신경 특징 필드(N2F2)는 단일 고차원 특징 필드 내에서 서로 다른 차원이 장면 속성을 다양한 세부 수준으로 인코딩하는 계층적 감독 방법을 제안한다. 이를 통해 물리적 크기와 의미론적 세부 사항을 모두 포괄하는 포괄적이고 미묘한 장면 이해를 가능하게 한다.
본 연구는 단일 모달리티 표현 학습의 비효율성과 과적합 문제를 해결하기 위해 새로운 의미론적 장면 완성 프레임워크인 AMMNet을 제안한다. AMMNet은 모달리티 간 상호 의존적 gradient 업데이트를 통해 개별 모달리티의 잠재력을 더 잘 unleash하고, 맞춤형 적대적 훈련 기법을 통해 과적합을 완화한다.