핵심 개념
제안된 SuRGe는 다이버전스 측도를 활용하여 저해상도 입력 이미지로부터 고해상도 이미지를 생성하는 완전 합성곱 적대적 신경망 기반 모델이다. SuRGe는 다양한 수준의 특징을 효과적으로 결합하고, Jensen-Shannon 발산과 Gromov-Wasserstein 거리를 손실 함수로 활용하여 고품질의 초해상도 이미지를 생성한다.
초록
이 논문은 저해상도(LR) 이미지로부터 고해상도(HR) 이미지를 복원하는 초해상도 문제를 다룬다. 제안된 SuRGe 모델은 완전 합성곱 구조의 생성기와 판별기로 구성된 적대적 신경망 기반 접근법이다.
생성기 G는 다음과 같은 핵심 특징을 가진다:
- 서로 다른 깊이의 합성곱 특징을 적응적으로 결합하는 혼합 모듈을 도입하여 다양한 수준의 정보를 효과적으로 활용한다.
- Jensen-Shannon 발산과 Gromov-Wasserstein 거리를 손실 함수로 사용하여 SR과 HR 분포, 그리고 LR과 SR 분포 간의 유사성을 직접적으로 최소화한다.
- 2단계의 점진적 업샘플링을 수행하여 초기 업샘플링으로 인한 왜곡을 완화한다.
판별기 D는 Wasserstein 손실과 기울기 페널티를 사용하여 모드 붕괴를 방지한다.
실험 결과, SuRGe는 4개의 벤치마크 데이터셋에서 기존 최신 기법 대비 평균 3.51% PSNR, 5.45% SSIM 향상을 보였다. 또한 6개의 복잡한 데이터셋에서 15.19% PSNR 향상을 달성하며 우수한 성능을 입증했다.
통계
저해상도 입력 이미지 x와 고해상도 참조 이미지 y의 분포 px와 py는 서로 다른 메트릭 공간에 존재한다.
생성기 G가 생성한 초해상도 이미지 G(x)의 분포 pG(x)와 y의 분포 py 간 Jensen-Shannon 발산을 최소화한다.
또한 LR 입력 x와 SR 출력 G(x) 간 Gromov-Wasserstein 거리를 최소화한다.
인용구
"제안된 SuRGe는 GW, 즉 서로 다른 차원의 메트릭 공간 간 발산을 초해상도 문제에 처음으로 도입한 모델이다."
"SuRGe는 사전 학습된 모델 기반 지각적 유사도 대신 JS 발산을 추가 손실로 사용하며, 판별기 D는 기울기 페널티가 있는 Wasserstein 손실을 사용한다."