핵심 개념
인간과 같은 스케치 생성 능력을 갖춘 생성 모델을 개발하기 위해서는 올바르게 설계된 표현적 귀납적 편향이 중요하며, 특히 프로토타입 기반 및 Barlow 정규화 기법을 사용한 잠재 확산 모델이 인간의 원샷 드로잉 능력과의 차이를 크게 좁힐 수 있다.
초록
잠재 표현의 중요성: 원샷 드로잉 작업에서 인간과 같은 스케치 생성
본 연구는 인간이 한 번 본 이미지를 기반으로 새로운 이미지 변형을 생성하는 능력, 즉 원샷 드로잉 작업에서 인간과 유사한 성능을 달성하기 위해 생성 모델의 입력 공간에 포함된 표현적 귀납적 편향의 영향을 조사하는 것을 목표로 한다.
연구진은 잠재 확산 모델(LDM)을 사용하여 원샷 드로잉 작업에서 인간과 기계를 비교했다. LDM은 입력 데이터를 압축하는 정규화된 자동 인코더(RAE)와 RAE의 잠재 분포를 학습하는 확산 모델을 결합한 것이다.
다양한 정규화 기법의 비교 분석
연구진은 LDM의 잠재 공간을 형성하는 다양한 귀납적 편향을 연구하기 위해 KL 발산, 벡터 양자화, 분류, 프로토타입 기반, SimCLR, Barlow 손실 등 6가지 정규화 기법을 적용하여 LDM을 학습하고 그 성능을 비교 분석했다.
인간과 LDM의 생성 결과 비교 평가
연구진은 Omniglot 및 QuickDraw-FS 데이터 세트를 사용하여 인간과 LDM의 원샷 드로잉 작업 성능을 비교했다. 인간과 LDM이 생성한 스케치의 품질은 독창성 및 인식 가능성의 두 가지 지표를 사용하여 평가되었다. 독창성은 생성된 변형과 해당 예제 간의 평균 거리를 측정한 것이고, 인식 가능성은 원샷 분류기의 분류 정확도를 사용하여 정량화되었다.
인간과 LDM의 지각 전략 비교 분석
연구진은 인간과 LDM의 지각 전략을 비교하기 위해 특징 중요도 맵을 사용했다. LDM의 경우, 확산 점수의 절대값을 합산하여 범주 진단 특징을 강조하는 히트맵을 생성하고, 이를 RAE의 디코더를 사용하여 픽셀 공간으로 투사하여 특징 중요도 맵을 생성했다. 인간의 경우, ClickMe 실험과 유사한 온라인 심리 물리학 실험을 통해 수집된 인간 현저성 맵을 사용하여 특징 중요도 맵을 도출했다.