核心概念
CLIP의 이미지-텍스트 정렬을 활용하여 참조 이미지 분할 성능을 향상시킬 수 있다.
摘要
이 논문은 CLIP의 이미지-텍스트 정렬을 참조 이미지 분할 작업에 효과적으로 활용하는 방법을 제안한다.
- CLIP의 이미지와 텍스트 인코더 사이에 Cross-modal Feature Extraction (CFE) 모듈을 도입하여 두 모달리티 간 상호작용을 통해 특징을 정렬한다.
- CLIP의 이미지-텍스트 공유 임베딩 공간에서의 풍부한 정렬 지식을 활용하기 위해 Shared-space Knowledge Exploitation (SKE) 모듈을 도입한다.
- CFE와 SKE 모듈을 통해 CLIP의 초기 이미지-텍스트 정렬을 정확한 분할 결과로 발전시킨다.
- 실험 결과, 제안 방법인 RISCLIP이 참조 이미지 분할 벤치마크에서 새로운 최고 성능을 달성했다.
统计
CLIP의 패치 수준 이미지 특징과 문장 수준 텍스트 특징 간 코사인 유사도 맵은 초기 참조 영역 추정에 도움이 된다.
RISCLIP의 CFE와 SKE 모듈을 도입하면 참조 이미지 분할 성능이 각각 12.29 mIoU, 2.06 mIoU 향상된다.
引用
"CLIP의 이미지-텍스트 정렬은 참조 이미지 분할을 위한 좋은 출발점이 된다."
"RISCLIP은 CLIP의 이미지-텍스트 정렬을 효과적으로 활용하여 참조 이미지 분할 성능을 크게 향상시킨다."