核心概念
시각-언어 모델의 사전 학습 언어 세트에 내재된 관계 단어 편향을 해소하여 장면 그래프 생성 성능을 향상시킨다.
要約
이 논문은 장면 그래프 생성(SGG) 작업에서 발생하는 데이터 부족 문제를 해결하기 위해 사전 학습된 시각-언어 모델(VLM)을 활용하는 방법을 제안한다.
-
데이터 부족 문제: SGG 작업은 객체 간 복잡한 관계를 파악해야 하므로 다양한 관계 유형이 필요하지만, 학습 데이터에 이러한 다양성이 충분히 반영되지 않아 일부 관계 유형이 과소 표현되는 문제가 발생한다.
-
VLM 활용: 사전 학습된 VLM의 방대한 지식을 활용하여 이 문제를 해결하고자 한다. VLM의 마스크 언어 모델링(MLM) 기능을 통해 관계 예측을 수행할 수 있다.
-
관계 단어 편향 해소: 그러나 VLM의 사전 학습 언어 세트와 SGG 작업 간 데이터 분포 차이로 인해 VLM에 관계 단어 편향이 존재한다. 이를 해결하기 위해 라그랑지 승수 추정(LM Estimation) 기법을 제안한다.
-
동적 앙상블: 각 모델이 서로 다른 샘플에서 더 나은 성능을 보이므로, 확실성 기반 지표를 사용하여 동적으로 앙상블 가중치를 조정한다.
이를 통해 관계 단어 편향을 해소하고 SGG 성능을 크게 향상시킬 수 있었다.
統計
학습 데이터 세트에서 "carrying" 관계 클래스의 다양한 샘플들의 예측 신뢰도 점수를 보여줌. 잘 표현된 샘플은 높은 점수를, 희소 샘플은 낮은 점수를 받음.
동일한 "carrying" 관계에서도 "woman carrying umbrella"의 경우 열린 우산과 닫힌 우산 샘플 간 점수 차이가 큼.
引用
"Scene Graph Generation (SGG) provides ba-sic language representation of visual scenes, re-quiring models to grasp complex and diverse se-mantics between various objects."
"Arising from the inherent complexities of SGG, there ex-ists exponential variability of triplets combined by the subject, object, and relation. It is extremely challenging for a training set to cover such pro-hibitive diversity."