이 보고서는 ICCV 2023에서 개최된 OpenSUN3D 워크숍의 챌린지에 대한 개요를 제공합니다. 이 챌린지의 목표는 오픈 어휘 3D 장면 이해 작업에 대한 정량적 비교를 가능하게 하는 것입니다.
챌린지 데이터셋은 ARKitScenes 데이터셋을 기반으로 하며, 개발 단계와 테스트 단계로 구성됩니다. 개발 단계에서는 5개의 예제 장면과 관련 쿼리가 제공되며, 테스트 단계에서는 25개의 장면과 쿼리가 제공됩니다.
참가자들은 주어진 3D 장면과 텍스트 쿼리를 입력으로 받아 관련 객체 인스턴스를 분할해야 합니다. 평가 지표로는 3D 인스턴스 분할 평균 정밀도(mAP)가 사용됩니다.
상위 3개 팀의 제안 방법이 소개되었습니다. 첫 번째 팀은 Grounding SAM과 Bidirectional Merging을 활용하여 2D 마스크를 생성하고 3D로 투영하는 방식을 제안했습니다. 두 번째 팀은 2D 마스크 생성, 3D 투영, CLIP 기반 랭킹 등의 단계를 거쳐 최종 3D 인스턴스를 추출했습니다. 세 번째 팀은 2D 마스크 생성 후 CLIP 기반 랭킹과 다중 뷰 투영을 통해 3D 인스턴스를 찾는 방법을 제안했습니다.
이번 챌린지의 결과는 오픈 어휘 3D 장면 이해의 현재 수준을 보여주며, 향후 연구를 위한 기반을 마련했습니다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询