מושגי ליבה
우리는 추상적인 자유형 장면 스케치에 대한 기계 이해 문제를 탐구합니다. 우리는 의미론적으로 인식하는 특징 공간을 보장하는 스케치 인코더를 소개하고, 의미 스케치 분할 작업으로 평가합니다. 우리는 픽셀 수준의 주석이 필요 없는 비트맵 스케치와 간단한 캡션만을 사용하여 모델을 학습합니다. 우리는 CLIP 모델로 사전 학습된 비전 변환기 인코더를 활용하여 광범위한 스케치와 범주에 일반화합니다. 우리는 두 단계의 계층적 학습을 도입하여 효율적인 의미 분리를 가능하게 합니다.
תקציר
이 논문은 기계가 추상적인 자유형 장면 스케치를 이해하는 문제를 다룹니다.
I. 전체적인 장면 스케치 이해
- 스케치 인코더를 설계하여 의미론적으로 인식하는 특징 공간을 보장합니다.
- 의미 스케치 분할 작업으로 인코더를 평가합니다.
- 픽셀 수준의 주석이 필요 없는 비트맵 스케치와 간단한 캡션만을 사용하여 모델을 학습합니다.
- CLIP 모델로 사전 학습된 비전 변환기 인코더를 활용하여 광범위한 스케치와 범주에 일반화합니다.
- 두 단계의 계층적 학습을 도입하여 효율적인 의미 분리를 가능하게 합니다.
II. 개별 범주 분리
- 스케치 캡션에서 개별 범주를 자동으로 식별하고 텍스트 프롬프트를 생성합니다.
- 텍스트 프롬프트와 스케치 패치 사이의 코사인 유사도를 계산하여 범주별 유사도 맵을 생성합니다.
- 학습 가능한 임계값을 사용하여 개별 범주를 효과적으로 분리합니다.
- 텍스트와 비전 간 교차 주의 메커니즘을 도입하여 개별 범주 이해를 향상시킵니다.
우리 방법은 기존 방법보다 크게 향상된 성능을 보여줍니다. 또한 사용자 연구를 통해 인간과 기계의 스케치 이해 간 차이를 분석하고 향후 개선 방향을 제시합니다.
סטטיסטיקה
우리 모델은 FS-COCO 데이터셋의 테스트 세트에서 픽셀 정확도 85.5%를 달성했습니다.
우리 모델은 Ge et al.의 자유형 스케치 데이터셋에서 mIoU 53.94%를 달성했습니다.
ציטוטים
"우리는 추상적인 자유형 장면 스케치에 대한 기계 이해 문제를 탐구합니다."
"우리는 의미론적으로 인식하는 특징 공간을 보장하는 스케치 인코더를 소개하고, 의미 스케치 분할 작업으로 평가합니다."
"우리는 두 단계의 계층적 학습을 도입하여 효율적인 의미 분리를 가능하게 합니다."