מושגי ליבה
제한된 설명된 이미지와 다수의 설명되지 않은 이미지를 효과적으로 활용하여 이미지 캡셔닝 모델을 학습하는 방법을 제안한다.
תקציר
이 논문은 이미지 캡셔닝 문제에서 반감독 학습 방법을 제안한다. 기존 이미지 캡셔닝 모델은 대부분 감독 학습 기반으로, 각 이미지에 대응되는 설명문이 있는 경우에만 학습이 가능하다. 그러나 실제 응용에서는 설명된 이미지가 제한적이고 설명되지 않은 이미지가 많은 경우가 일반적이다.
이를 해결하기 위해 제안하는 SSIC-WGM 모델은 다음과 같은 두 가지 핵심 아이디어를 활용한다:
이미지와 생성된 문장 간 일관성 (inter-modal consistency): 이미지와 문장을 각각 장면 그래프로 표현하고, 와서스타인 거리를 이용해 두 그래프의 유사도를 측정한다. 이를 통해 이미지와 문장 간 의미적 유사성을 반영할 수 있다.
증강된 이미지와 생성된 문장 간 일관성 (intra-modal consistency): 이미지에 대한 데이터 증강 기법을 적용하고, 증강된 이미지로부터 생성된 문장들 간 일관성을 유지하도록 한다.
이를 통해 제한된 설명된 이미지와 다수의 설명되지 않은 이미지를 효과적으로 활용할 수 있다. 실험 결과, 제안 모델이 다양한 반감독 학습 시나리오에서 기존 최신 모델들을 뛰어넘는 성능을 보였다.
סטטיסטיקה
제한된 설명된 이미지와 다수의 설명되지 않은 이미지를 활용하여 이미지 캡셔닝 모델을 학습한다.
이미지와 생성된 문장 간 일관성을 와서스타인 거리를 이용해 측정한다.
증강된 이미지와 생성된 문장 간 일관성을 유지한다.
ציטוטים
"이미지 캡셔닝은 주어진 이미지에 대한 자동 설명문을 생성하는 것으로, 핵심 과제는 시각 특징과 언어 특징 간 매핑 함수를 학습하는 것이다."
"실제 응용에서는 설명된 이미지가 제한적이고 설명되지 않은 이미지가 많은 경우가 일반적이다."
"이미지와 문장 간 유사한 의미 및 구조 정보를 활용하여 생성된 문장을 제한하는 것이 핵심 과제이다."