核心概念
계층적 지식 그래프를 활용하여 이미지 내 객체와 관계를 정확하게 식별하고 예측하는 방법을 제안한다.
要約
이 논문은 계층적 지식 강화 강건 장면 그래프 생성(HiKER-SGG) 방법을 제안한다. HiKER-SGG는 계층적 지식 그래프를 활용하여 이미지 내 객체와 관계를 정확하게 식별하고 예측한다.
먼저, 논문은 기존 장면 그래프 생성 모델들이 실제 환경에서 발생할 수 있는 다양한 이미지 왜곡에 취약하다는 문제점을 지적한다. 이를 해결하기 위해 논문은 절차적으로 생성된 20가지 유형의 이미지 왜곡을 포함하는 Corrupted Visual Genome (VG-C) 벤치마크를 제안한다.
HiKER-SGG의 핵심 아이디어는 계층적 지식 그래프를 활용하여 객체와 관계를 단계적으로 예측하는 것이다. 먼저 객체의 상위 클래스를 식별한 후 하위 클래스로 점진적으로 예측을 진행한다. 이를 통해 이미지 왜곡에도 강건한 장면 그래프 생성이 가능하다.
논문은 VG 데이터셋과 VG-C 벤치마크에서 실험을 수행하였다. 그 결과 HiKER-SGG가 기존 최신 모델들을 능가하는 성능을 보였으며, 특히 다양한 이미지 왜곡에 대해 강건한 성능을 나타냈다.
統計
이 모델은 Faster-RCNN 객체 탐지기와 VGG-16 특징 추출기를 사용한다.
계층적 지식 그래프는 GloVe 단어 임베딩과 MotifNet 기반 유사도 측정을 통해 자동으로 구축된다.
제안된 HiKER-SGG 모델은 Visual Genome 데이터셋에서 기존 최신 모델들을 능가하는 성능을 보였다.
HiKER-SGG는 Corrupted Visual Genome (VG-C) 벤치마크에서도 강건한 성능을 나타냈다.
引用
"Being able to understand visual scenes is a precursor for many downstream tasks, including autonomous driving, robotics, and other vision-based approaches."
"However, most existing studies in this field assume access to "clean" images. This contrasts with real-world situations where images often have corruptions like sun glare, dust, water drops, and rain."
"Inspired by the human ability to recognize objects in corrupted images using prior domain knowledge, our work leverages similar knowledge for scene graph generators."