이 논문은 장면 그래프 생성(SGG) 작업에서 발생하는 데이터 부족 문제를 해결하기 위해 사전 학습된 시각-언어 모델(VLM)을 활용하는 방법을 제안한다.
데이터 부족 문제: SGG 작업은 객체 간 복잡한 관계를 파악해야 하므로 다양한 관계 유형이 필요하지만, 학습 데이터에 이러한 다양성이 충분히 반영되지 않아 일부 관계 유형이 과소 표현되는 문제가 발생한다.
VLM 활용: 사전 학습된 VLM의 방대한 지식을 활용하여 이 문제를 해결하고자 한다. VLM의 마스크 언어 모델링(MLM) 기능을 통해 관계 예측을 수행할 수 있다.
관계 단어 편향 해소: 그러나 VLM의 사전 학습 언어 세트와 SGG 작업 간 데이터 분포 차이로 인해 VLM에 관계 단어 편향이 존재한다. 이를 해결하기 위해 라그랑지 승수 추정(LM Estimation) 기법을 제안한다.
동적 앙상블: 각 모델이 서로 다른 샘플에서 더 나은 성능을 보이므로, 확실성 기반 지표를 사용하여 동적으로 앙상블 가중치를 조정한다.
이를 통해 관계 단어 편향을 해소하고 SGG 성능을 크게 향상시킬 수 있었다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yuxuan Wang,... klokken arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16184.pdfDypere Spørsmål