이 논문은 실내 장면 인식을 위해 의미론적 공간 관계와 객체 공동 발생을 동시에 모델링하는 SpaCoNet 프레임워크를 제안한다.
첫째, 의미론적 공간 관계 모듈(SSRM)은 의미론적 분할을 활용하여 장면 내 공간 정보를 분리하고, 모든 공간 관계를 종단 간 방식으로 탐색한다. 이를 통해 기존 연구의 한계인 인위적으로 정의된 공간 관계 모델링을 극복한다.
둘째, 객체 공동 발생 모델링을 위해 의미론적 노드 특징 집계 모듈을 설계하여 객체에 장면 관련 특징을 할당함으로써, 동일한 객체가 다른 장면에서 서로 다른 특징을 가지도록 한다. 이를 통해 기존 연구의 한계인 동일한 대표 객체가 다른 장면에 존재하는 문제를 해결한다.
셋째, 글로벌-로컬 의존성 모듈에서는 주의 메커니즘을 활용하여 객체 간 장기 의존성을 탐색하고, 이를 통해 의미론적 가이드 특징 표현을 생성한다.
실험 결과, 제안 방법은 MIT-67, SUN397, Places 데이터셋에서 우수한 성능을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies