HawkI는 텍스트와 단일 입력 이미지를 활용하여 항공 뷰 이미지를 합성하는 방법을 제안합니다. 이 방법은 사전 학습된 텍스트-2D 이미지 안정 확산 모델을 활용하며, 3D 또는 다중 뷰 정보를 필요로 하지 않습니다.
HawkI의 주요 구성 요소는 다음과 같습니다:
테스트 시간 최적화: 입력 이미지의 특성을 모델에 반영하고 항공 뷰 합성을 위한 변화 가능성을 유지하기 위해 CLIP 텍스트-이미지 임베딩과 확산 UNet의 LoRA 레이어를 순차적으로 최적화합니다. 여기서 역 원근 매핑(IPM) 호모그래피 변환은 암시적인 변환 방향 안내 역할을 합니다.
상호 정보 기반 추론: 생성된 항공 뷰 이미지와 입력 이미지 간의 의미적 일관성을 보장하기 위해 상호 정보 최대화 기법을 사용합니다. 이는 픽셀 수준의 제약 대신 확률 분포 간 정보 일치성을 활용합니다.
실험 결과, HawkI는 기존 방법들에 비해 항공 뷰 일관성과 입력 이미지 충실도 간의 우수한 균형을 달성합니다. 또한 HawkI는 3D 기반 새로운 뷰 합성 방법들과 비교해서도 더 나은 성능을 보입니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문