Core Concepts
제안된 IPT-V2 모델은 국부적 및 전역적 토큰 상호작용을 동시에 구축하여 열화된 이미지의 세부 사항과 누락된 내용을 효과적으로 복원할 수 있다.
Abstract
본 논문에서는 효율적이면서도 효과적인 이미지 복원 및 생성을 위한 계층적 주의 메커니즘 기반의 트랜스포머 모델인 IPT-V2를 제안한다.
IPT-V2의 핵심 구성 요소는 다음과 같다:
- 초점 문맥 자기 주의 (FCSA): 채널 자기 주의를 지역 영역에 적용하여 효율적으로 지역 문맥 정보를 얻는다.
- 전역 그리드 자기 주의 (GGSA): 특징 맵을 균일한 그리드로 분할하고 각 셀의 동일한 위치 픽셀들 간 자기 주의를 계산하여 장거리 의존성을 구축한다.
- 재매개화 국부 증강 피드포워드 네트워크 (Rep-LeFFN): 피드포워드 네트워크의 성능을 향상시키기 위해 구조적 재매개화 기법을 적용한다.
다양한 이미지 복원 및 생성 실험을 통해 IPT-V2가 기존 방법들보다 우수한 성능을 보이며, 계산 복잡도 대비 높은 정확도를 달성함을 확인하였다.
Stats
제안된 IPT-V2 모델은 Urban100 데이터셋에서 Gaussian 잡음 제거 실험 시 PSNR 30.53dB를 달성하여, Restormer 모델(30.02dB)보다 0.51dB 향상되었다.
SIDD 데이터셋에서 IPT-V2 Base 모델은 PSNR 40.05dB를 달성하여, Restormer(40.02dB)보다 0.03dB 향상되었다.
DND 데이터셋에서 IPT-V2 Base 모델은 PSNR 40.09dB를 달성하여, Restormer(40.03dB)보다 0.06dB 향상되었다.
Quotes
"제안된 IPT-V2 모델은 국부적 및 전역적 토큰 상호작용을 동시에 구축하여 열화된 이미지의 세부 사항과 누락된 내용을 효과적으로 복원할 수 있다."
"IPT-V2는 다양한 이미지 복원 및 생성 실험에서 기존 방법들보다 우수한 성능을 보이며, 계산 복잡도 대비 높은 정확도를 달성한다."