이 논문은 계층적 지식 강화 강건 장면 그래프 생성(HiKER-SGG) 방법을 제안한다. HiKER-SGG는 계층적 지식 그래프를 활용하여 이미지 내 객체와 관계를 정확하게 식별하고 예측한다.
먼저, 논문은 기존 장면 그래프 생성 모델들이 실제 환경에서 발생할 수 있는 다양한 이미지 왜곡에 취약하다는 문제점을 지적한다. 이를 해결하기 위해 논문은 절차적으로 생성된 20가지 유형의 이미지 왜곡을 포함하는 Corrupted Visual Genome (VG-C) 벤치마크를 제안한다.
HiKER-SGG의 핵심 아이디어는 계층적 지식 그래프를 활용하여 객체와 관계를 단계적으로 예측하는 것이다. 먼저 객체의 상위 클래스를 식별한 후 하위 클래스로 점진적으로 예측을 진행한다. 이를 통해 이미지 왜곡에도 강건한 장면 그래프 생성이 가능하다.
논문은 VG 데이터셋과 VG-C 벤치마크에서 실험을 수행하였다. 그 결과 HiKER-SGG가 기존 최신 모델들을 능가하는 성능을 보였으며, 특히 다양한 이미지 왜곡에 대해 강건한 성능을 나타냈다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Ce Zhang,Sim... : arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12033.pdfDaha Derin Sorular