المفاهيم الأساسية
안정 확산 모델의 자기 주의 층에 내재된 객체 그룹화 정보를 활용하여 어떠한 이미지에서도 감독 없이 세그멘테이션 마스크를 생성할 수 있다.
الملخص
이 논문은 안정 확산 모델의 자기 주의 층에 내재된 객체 그룹화 정보를 활용하여 무감독 제로샷 이미지 세그멘테이션 방법인 DiffSeg를 제안한다.
DiffSeg는 다음 3단계로 구성된다:
- 주의 맵 집계: 다양한 해상도의 주의 맵을 비례적으로 집계하여 최종 주의 맵을 생성한다.
- 반복적 주의 맵 병합: 샘플링된 앵커 포인트를 기반으로 KL 발산을 이용해 주의 맵을 반복적으로 병합한다.
- 비최대 억제: 병합된 주의 맵에서 최대 활성화 값을 가진 픽셀을 선택하여 최종 세그멘테이션 마스크를 생성한다.
DiffSeg는 COCO-Stuff-27과 Cityscapes 벤치마크에서 기존 무감독 제로샷 SOTA 방법을 크게 능가하는 성능을 보였다. 또한 다양한 스타일의 이미지에 대해서도 일반화 능력이 뛰어났다.
الإحصائيات
안정 확산 모델의 자기 주의 층은 객체 그룹화 정보를 내재하고 있다.
자기 주의 맵 간 KL 발산을 이용하여 객체 그룹을 효과적으로 병합할 수 있다.
다양한 해상도의 자기 주의 맵을 비례적으로 집계하면 세그멘테이션 성능을 향상시킬 수 있다.
اقتباسات
"안정 확산 모델의 자기 주의 층에는 객체 그룹화 정보가 내재되어 있다."
"KL 발산을 이용한 반복적 주의 맵 병합 과정을 통해 효과적으로 객체 그룹을 찾아낼 수 있다."
"다양한 해상도의 주의 맵을 비례적으로 집계하면 세그멘테이션 성능을 향상시킬 수 있다."