이 논문은 360도 방 레이아웃 추정 문제에서 발생하는 모호성 문제를 해결하기 위해 Bi-Layout 모델을 제안한다. 기존 데이터셋에서는 방 레이아웃 주석에 모호성이 존재하는데, 이는 단일 레이아웃 예측 모델의 성능을 저하시킨다.
제안된 Bi-Layout 모델은 두 가지 서로 다른 유형의 레이아웃(enclosed 및 extended)을 동시에 예측할 수 있다. 이를 위해 모델은 두 개의 학습 가능한 global context 임베딩을 사용하여 각 레이아웃 유형에 대한 문맥 정보를 인코딩한다. 또한 공유 특징 안내 모듈을 통해 이미지 특징과 global context 임베딩을 효과적으로 융합한다.
실험 결과, 제안된 Bi-Layout 모델은 기존 SoTA 방법보다 우수한 성능을 보였으며, 특히 모호성이 큰 데이터셋에서 큰 성능 향상을 보였다. 또한 모델 크기 면에서도 효율적이다. 추가로, 제안 모델은 두 레이아웃 예측 간 차이를 이용해 모호한 영역을 자동으로 감지할 수 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yu-Ju Tsai,J... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09993.pdfDeeper Inquiries