이 논문은 계층적 지식 강화 강건 장면 그래프 생성(HiKER-SGG) 방법을 제안한다. HiKER-SGG는 계층적 지식 그래프를 활용하여 이미지 내 객체와 관계를 정확하게 식별하고 예측한다.
먼저, 논문은 기존 장면 그래프 생성 모델들이 실제 환경에서 발생할 수 있는 다양한 이미지 왜곡에 취약하다는 문제점을 지적한다. 이를 해결하기 위해 논문은 절차적으로 생성된 20가지 유형의 이미지 왜곡을 포함하는 Corrupted Visual Genome (VG-C) 벤치마크를 제안한다.
HiKER-SGG의 핵심 아이디어는 계층적 지식 그래프를 활용하여 객체와 관계를 단계적으로 예측하는 것이다. 먼저 객체의 상위 클래스를 식별한 후 하위 클래스로 점진적으로 예측을 진행한다. 이를 통해 이미지 왜곡에도 강건한 장면 그래프 생성이 가능하다.
논문은 VG 데이터셋과 VG-C 벤치마크에서 실험을 수행하였다. 그 결과 HiKER-SGG가 기존 최신 모델들을 능가하는 성능을 보였으며, 특히 다양한 이미지 왜곡에 대해 강건한 성능을 나타냈다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ce Zhang,Sim... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12033.pdfDeeper Inquiries