Główne pojęcia
본 논문은 다중 스케일 및 방향성 주파수 성분을 효과적으로 포착하는 주파수 인식 트랜스포머 블록을 제안하여, 기존 학습 기반 이미지 압축 모델의 성능을 크게 향상시킨다.
Streszczenie
본 논문은 학습 기반 이미지 압축(LIC) 모델의 성능 향상을 위해 주파수 인식 트랜스포머(FAT) 블록을 제안한다. FAT 블록은 다음과 같은 핵심 구성 요소를 포함한다:
- 주파수 분해 윈도우 어텐션(FDWA): 다양한 크기의 윈도우를 활용하여 저주파, 고주파, 수직, 수평 주파수 성분을 효과적으로 포착한다.
- 주파수 변조 피드포워드 네트워크(FMFFN): 주파수 성분을 적응적으로 조절하여 압축 효율을 높인다.
- 트랜스포머 기반 채널 자기회귀(T-CA) 엔트로피 모델: 채널 간 상관관계를 효과적으로 모델링하여 정밀한 분포 추정을 가능하게 한다.
실험 결과, 제안 모델은 기존 최신 LIC 모델 및 표준 코덱 대비 우수한 압축 성능을 보였다. Kodak, Tecnick, CLIC 데이터셋에서 각각 VTM-12.1 대비 14.5%, 15.1%, 13.0%의 BD-rate 향상을 달성했다.
Statystyki
제안 모델은 Kodak, Tecnick, CLIC 데이터셋에서 VTM-12.1 대비 각각 14.5%, 15.1%, 13.0%의 BD-rate 향상을 달성했다.
Cytaty
"본 논문은 다중 스케일 및 방향성 주파수 성분을 효과적으로 포착하는 주파수 인식 트랜스포머 블록을 제안하여, 기존 학습 기반 이미지 압축 모델의 성능을 크게 향상시킨다."
"실험 결과, 제안 모델은 기존 최신 LIC 모델 및 표준 코덱 대비 우수한 압축 성능을 보였다."