Conceitos essenciais
다양한 기반 모델(CLIP, 확산 모델, Segment Anything Model)을 협력적으로 활용하여 도메인 일반화 의미 분할 문제를 해결하는 방법을 제안한다.
Resumo
이 논문은 도메인 일반화 의미 분할(DGSS) 문제를 해결하기 위해 다양한 기반 모델을 협력적으로 활용하는 방법을 제안한다.
먼저, CLIP 백본을 사용하여 강건한 특징 표현을 얻는다. 그 다음, 대규모 언어 모델(LLM)과 텍스트 기반 확산 모델을 활용하여 다양한 콘텐츠의 합성 이미지를 생성한다. 이렇게 생성된 이미지의 의사 레이블을 Segment Anything Model(SAM)을 통해 정제한다.
이러한 협력적인 전략을 통해 모델의 일반화 성능을 향상시킬 수 있다. 실험 결과, 제안 방법인 CLOUDS는 기존의 DGSS 방법과 기반 모델 기반 방법을 모두 능가하는 성능을 보였다.
Estatísticas
합성 데이터셋 크기가 5,000개일 때 가장 높은 성능을 보였다.
SAM 프롬프팅에 사용되는 포인트 수를 늘리면 성능이 감소하였다.
SAM 프롬프팅에 사용되는 연결 요소 분리 임계값을 높이면 성능이 향상되었다.
Citações
"CLOUDS는 다양한 기반 모델을 협력적으로 활용하여 도메인 일반화 의미 분할 문제를 해결한다."
"실험 결과, CLOUDS는 기존의 DGSS 방법과 기반 모델 기반 방법을 모두 능가하는 성능을 보였다."