본 연구는 오픈 어휘 3D 인스턴스 세그멘테이션 문제를 다룬다. 이 문제는 3D 장면에서 객체 인스턴스의 마스크와 해당 카테고리를 예측하는 것으로, 사전 정의된 카테고리 목록에 의존하지 않는다.
기존 접근법은 크게 두 가지로 나뉜다. 첫째, 3D-to-2D 투영 기반 방식은 3D 인스턴스 세그멘테이션 알고리즘을 활용하여 3D 마스크를 생성한다. 그러나 이 방식은 3D 재구성 품질과 현재 3D 인스턴스 세그멘테이션 도구의 능력에 의해 제한된다. 둘째, 2D-to-3D 리전 성장 기반 방식은 2D 세그멘테이션 모델을 활용하여 프레임을 순차적으로 처리하고 3D 인스턴스 목록을 동시에 업데이트한다. 그러나 이 방식은 모든 프레임에 걸친 전역 최적화가 부족하여 잘못된 병합이 발생할 수 있다.
이에 본 연구는 다중 뷰 검증을 통한 전역 일관성 향상을 위해 새로운 접근법을 제안한다. 기존 방식들이 인접 프레임 간 계산된 지역 지표에 의존하여 마스크 쌍의 병합 여부를 결정하는 것과 달리, 본 연구는 뷰 합의율이라는 새로운 전역 지표를 도입한다. 이 지표는 다른 프레임의 마스크가 해당 마스크 쌍을 포함하는 비율을 측정한다. 이를 통해 다중 뷰 관찰에 의해 지지되는 동일 인스턴스 관계를 활용할 수 있다.
뷰 합의율을 기반으로 마스크 그래프를 구축하고, 높은 뷰 합의율을 보이는 마스크 쌍을 우선적으로 병합하는 반복적 클러스터링 프로세스를 수행한다. 이 과정에서 뷰 합의율이 업데이트되며, 최종적으로 각 클러스터가 하나의 3D 인스턴스를 나타내게 된다. 각 3D 인스턴스에 대해 부분 포인트 클라우드와 오픈 어휘 특징을 통합한다.
본 연구는 ScanNet++, MatterPort3D, ScanNet200 벤치마크에서 평가되었으며, 기존 방식들을 크게 능가하는 성능을 보였다. 특히 세부 객체 세그멘테이션 측면에서 두드러진 성과를 달성했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mi Yan,Jiazh... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2401.07745.pdfDeeper Inquiries