Concepts de base
두 이미지 세트 DA와 DB 간의 가장 두드러진 차이를 자연어로 설명하는 것이 목표이다.
Résumé
이 논문은 두 이미지 세트 DA와 DB 간의 차이를 자동으로 설명하는 방법을 제안한다. 제안하는 방법인 VisDiff는 두 단계로 구성된다:
- 제안자(Proposer): 이미지 캡션을 생성하고 언어 모델을 사용하여 DA와 DB 간의 차이 후보를 제안한다.
- 평가자(Ranker): 제안된 차이 후보들을 DA와 DB 전체에 걸쳐 평가하여 가장 두드러진 차이를 선별한다.
VisDiff는 다양한 도메인에 적용되어 데이터셋, 모델, 생성 모델 간 차이, 그리고 인간의 기억력에 대한 통찰을 제공한다. 예를 들어, VisDiff는 ImageNetV2가 ImageNet에 비해 소셜미디어 스타일의 이미지를 더 많이 포함하고 있다는 점을 발견했다. 또한 CLIP이 ResNet에 비해 텍스트 정보와 사람이 포함된 이미지를 더 잘 인식한다는 점을 밝혀냈다.
Stats
ImageNetV2 이미지에는 ImageNet 이미지에 비해 "Instagram 스타일의 사진"이 더 많이 포함되어 있다.
CLIP은 ResNet에 비해 "브랜드 및 제품 라벨이 있는 물체", "사람이 등장하는 장면"을 더 잘 인식한다.
StableDiffusionV2는 StableDiffusionV1에 비해 "더 생동감 있고 대비가 강한 색상"의 이미지를 생성하며, "프레임이나 테두리가 있는 이미지"를 더 많이 생성한다.
기억에 남는 이미지는 "사람이 등장하는 장면", "클로즈업 뷰", "유머러스한 설정"을 더 많이 포함하는 반면, 기억하기 어려운 이미지는 "풍경"과 "도시 환경"을 더 많이 포함한다.
Citations
"사람이 등장하는 장면"
"브랜드 및 제품 라벨이 있는 물체"
"더 생동감 있고 대비가 강한 색상"
"프레임이나 테두리가 있는 이미지"