이 논문은 구조 기반 이미지 완성 문제를 다룹니다. 구조 기반 이미지 완성은 사용자가 제공한 안내 맵(예: 의미 레이블 맵, 에지 맵, 색상 픽셀)을 활용하여 이미지의 누락 영역을 완성하는 작업입니다. 이를 통해 다양한 이미지 편집 작업(예: 대규모 누락 영역 완성, 객체 제거/삽입/교체, 레이아웃 조작)이 가능합니다.
기존 접근법은 구조 정보를 활용하여 누락 영역을 완성하지만, 생성된 객체와 의미 구조의 품질을 보장하는 메커니즘이 부족하여 복잡한 자연 장면에서 명확한 구조적 아티팩트(왜곡된 객체, 퇴화된 의미 레이아웃 등)가 발생하는 한계가 있습니다.
이 논문에서는 의미 수준 및 객체 수준 판별기를 활용하여 이러한 한계를 극복하고자 합니다. 의미 수준 판별기는 사전 학습된 시각 모델의 의미 이해 능력을 활용하여 생성된 의미 구조의 사실성을 높입니다. 객체 수준 판별기는 정렬된 객체 입력을 활용하여 개별 객체의 사실성을 판단함으로써 로컬 객체의 외관을 개선합니다.
제안 모델은 다양한 구조 기반 이미지 완성 작업(의미 레이블 맵 기반, 에지 맵 기반, 인스턴스 맵 기반)에서 우수한 성능을 보이며, 객체 삽입/교체/제거, 표준 이미지 완성 등 다양한 편집 사용 사례를 지원합니다. 또한 자동 이미지 완성 파이프라인을 통해 표준 이미지 완성 작업에서도 최신 성과를 달성합니다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Haitian Zhen... : arxiv.org 04-25-2024
https://arxiv.org/pdf/2212.06310.pdfDaha Derin Sorular