본 논문에서는 개방형 3D 인스턴스 분할을 위해 2D 기반 모델, 특히 SAM (Segment Anything Model)을 활용하는 새로운 방법론인 SA3DIP (Segment Any 3D Instance with Potential 3D Priors)를 제안합니다.
최근 2D 이미지에서 뛰어난 성능을 보이는 SAM과 같은 2D 기반 모델을 3D 인스턴스 분할 작업에 적용하려는 연구가 활발히 진행되고 있습니다. 하지만 기존 방법론들은 3D 사전 지식을 충분히 활용하지 못하여 분할 성능에 제약이 있었습니다. 예를 들어, 기존 방법론들은 3D 슈퍼포인트를 계산할 때 공간 좌표에서 추정된 법선 정보에만 의존하여 기하학적으로 유사한 인스턴스를 제대로 분할하지 못하는 문제점을 보였습니다. 또한, SAM의 부분 단위 분할 경향으로 인해 3D 공간에서 과도하게 분할되는 문제점도 발생했습니다.
본 논문에서 제안하는 SA3DIP는 잠재적인 3D 사전 지식을 활용하여 기존 방법론들의 한계를 극복하고자 합니다.
SA3DIP는 기하학적 정보뿐만 아니라 질감 정보도 함께 고려하여 보다 세분화된 3D 기본 요소를 생성합니다. 이는 기존 방법론들이 슈퍼포인트 계산 시 유사한 법선을 가진 인스턴스를 구분하지 못하는 문제를 해결하는 데 도움을 줍니다.
SA3DIP는 3D 검출기를 사용하여 3D 공간에서 추가적인 제약 조건을 도입합니다. 이는 SAM의 부분 단위 분할 경향으로 인해 발생하는 과도한 분할 문제를 해결하고, 세분화된 객체를 유지하면서도 정확한 인스턴스 분할을 가능하게 합니다.
본 논문에서는 ScanNetV2 데이터셋의 문제점을 지적하고, 3D 클래스 불가지론적 인스턴스 분할을 위해 특별히 설계된 개선된 버전인 ScanNetV2-INS를 제안합니다. ScanNetV2-INS는 불완전한 주석을 수정하고 더 많은 인스턴스를 포함하여 실제 환경을 더 잘 반영합니다.
ScanNetV2, ScanNetV2-INS, ScanNet++ 데이터셋에 대한 실험 결과, SA3DIP는 기존 방법론들보다 우수한 성능을 보였습니다. 특히, SA3DIP는 ScanNetV2-INS 데이터셋에서 미세한 객체를 식별하는 데 있어 뛰어난 성능을 보였으며, 이는 SA3DIP가 3D 사전 지식을 효과적으로 활용하고 있음을 보여줍니다.
결론적으로, SA3DIP는 3D 사전 지식을 활용하여 2D 기반 모델의 한계를 극복하고 3D 인스턴스 분할 성능을 향상시키는 효과적인 방법론입니다. 본 논문에서 제안된 방법론은 향후 다양한 3D 컴퓨터 비전 작업에 활용될 수 있을 것으로 기대됩니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문