이 논문은 두 이미지 세트 DA와 DB 간의 차이를 자동으로 설명하는 방법을 제안한다. 제안하는 방법인 VisDiff는 두 단계로 구성된다:
VisDiff는 다양한 도메인에 적용되어 데이터셋, 모델, 생성 모델 간 차이, 그리고 인간의 기억력에 대한 통찰을 제공한다. 예를 들어, VisDiff는 ImageNetV2가 ImageNet에 비해 소셜미디어 스타일의 이미지를 더 많이 포함하고 있다는 점을 발견했다. 또한 CLIP이 ResNet에 비해 텍스트 정보와 사람이 포함된 이미지를 더 잘 인식한다는 점을 밝혀냈다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Lisa Dunlap,... lúc arxiv.org 04-30-2024
https://arxiv.org/pdf/2312.02974.pdfYêu cầu sâu hơn