核心概念
HQ-Edit는 고품질의 지침 기반 이미지 편집 데이터셋으로, 기존 데이터셋의 한계를 극복하고 이미지 편집 모델의 성능을 크게 향상시킨다.
要約
이 연구는 HQ-Edit라는 고품질의 지침 기반 이미지 편집 데이터셋을 소개한다. 기존 데이터셋은 낮은 해상도, 부정확한 편집-이미지 정렬, 제한적인 편집 유형 등의 한계가 있었다.
HQ-Edit는 GPT-4와 DALL-E 3와 같은 최신 기반 모델을 활용하여 자동으로 생성된다. 데이터 수집 과정은 다음과 같다:
- 확장 단계: 온라인에서 다양한 편집 예시를 수집하고 GPT-4를 통해 100,000개 이상의 편집 지침으로 확장한다.
- 생성 단계: GPT-4V와 DALL-E 3를 사용하여 입력 이미지와 출력 이미지로 구성된 이미지 쌍(diptych)을 생성한다.
- 후처리 단계: 이미지 쌍의 정렬을 개선하고 편집 지침을 정제한다.
또한 HQ-Edit의 품질을 평가하기 위해 Alignment와 Coherence라는 두 가지 새로운 평가 지표를 도입했다. 실험 결과, HQ-Edit로 fine-tuning된 InstructPix2Pix 모델이 기존 모델 대비 Alignment 12.3, Coherence 5.64 향상을 보였다. 이는 HQ-Edit의 우수한 데이터 품질을 입증한다.
統計
편집 지침의 평균 길이가 기존 데이터셋보다 더 길고 다양하다.
HQ-Edit의 Alignment 점수는 92.80, Coherence 점수는 91.87로 기존 데이터셋을 크게 상회한다.
引用
"HQ-Edit는 고해상도 이미지, 상세한 편집 지침, 정확한 이미지-지침 정렬을 제공하여 기존 이미지 편집 모델의 성능을 크게 향상시킨다."
"HQ-Edit는 GPT-4와 DALL-E 3와 같은 최신 기반 모델을 활용하여 자동으로 생성되며, 기존 데이터셋의 한계를 극복한다."