核心概念
전문가 사진 데이터를 활용하여 주제 인식 기반 이미지 크롭핑 모델을 약한 감독 하에 학습하는 방법을 제안한다.
要約
이 논문은 전문가 사진 데이터를 활용하여 주제 인식 기반 이미지 크롭핑 모델을 약한 감독 하에 학습하는 방법을 제안한다.
- 전문가 사진 데이터를 활용하여 크롭핑에 대한 의사 레이블을 생성한다. 이를 위해 텍스트 기반 이미지 생성 모델을 사용하여 원본 이미지를 외부로 확장하고, 원본 이미지 영역을 의사 레이블로 사용한다.
- 생성된 데이터를 활용하여 주제 인식 기반 크롭핑 모델을 학습한다. 모델은 입력 이미지와 주제 마스크를 활용하여 크롭 영역을 예측한다.
- 정량적 평가에서 GenCrop은 기존 감독 학습 방법과 경쟁력 있는 성능을 보이며, 약한 감독 학습 기반 방법보다 우수한 성능을 보인다.
- 정성적 평가에서도 GenCrop은 기존 방법과 유사하거나 더 나은 성능을 보이며, 주제 영역을 잘 보존하고 불필요한 여백을 적절히 관리하는 것으로 나타났다.
- 추가 실험을 통해 GenCrop이 다양한 주제 영역에 대해 일반화될 수 있음을 확인하였다.
統計
전문가 사진 데이터셋에는 73K, 8K, 11K, 2.8K, 12K, 11K 장의 인물, 고양이, 강아지, 새, 말, 자동차 이미지가 포함되어 있다.
평가 데이터셋에는 1,905장의 이미지가 포함되어 있으며, 평균 2.3개의 좋은 크롭이 각 이미지에 대해 제공되었다.