Core Concepts
MOWA는 지역 수준과 픽셀 수준의 모션 추정을 분리하여 다양한 이미지 워핑 작업을 단일 모델에서 효과적으로 처리할 수 있다. 또한 경량 포인트 기반 분류기와 프롬프트 학습 모듈을 통해 작업 인식 능력을 향상시켜 다양한 시나리오에서 우수한 성능을 보인다.
Abstract
MOWA는 다양한 실용적인 이미지 워핑 작업을 단일 프레임워크에서 해결하는 첫 번째 시도이다. 기존 방법들은 각각의 작업에 대해 별도의 모델을 학습해야 했지만, MOWA는 지역 수준과 픽셀 수준의 모션 추정을 분리하여 다중 작업 학습의 어려움을 완화한다. 또한 경량 포인트 기반 분류기와 프롬프트 학습 모듈을 통해 작업 인식 능력을 향상시켜 다양한 시나리오에서 우수한 성능을 보인다.
구체적으로 MOWA는 스티치된 이미지, 광각 이미지 교정, 롤링 셔터 이미지 펴기, 회전된 이미지, 어안 렌즈 이미지, 초상 사진 등 6가지 대표적인 이미지 워핑 작업을 다룬다. 이를 위해 점진적으로 제어점 수를 늘려가는 TPS 변환과 잔차 흐름 예측을 통해 다양한 모션 구조를 효과적으로 모델링한다. 또한 경량 포인트 기반 분류기를 통해 입력 이미지의 작업 유형을 예측하고, 프롬프트 학습 모듈로 이를 활용하여 작업 인식 능력을 높인다.
실험 결과, MOWA는 대부분의 작업에서 기존 단일 작업 모델들을 능가하는 성능을 보였다. 또한 새로운 도메인이나 작업에 대해서도 우수한 일반화 능력을 보였다.
Stats
스티치된 이미지의 PSNR은 20.42, SSIM은 0.6307이다.
광각 이미지 교정의 PSNR은 18.78, SSIM은 0.5479이다.
롤링 셔터 이미지 펴기의 PSNR은 21.83, SSIM은 0.7798이다.
회전된 이미지의 PSNR은 20.83, SSIM은 0.5874이다.
어안 렌즈 이미지의 PSNR은 23.92, SSIM은 0.8076이다.
초상 사진의 ShapeAcc는 97.475이다.
Quotes
"MOWA는 지역 수준과 픽셀 수준의 모션 추정을 분리하여 다양한 이미지 워핑 작업을 단일 모델에서 효과적으로 처리할 수 있다."
"MOWA는 경량 포인트 기반 분류기와 프롬프트 학습 모듈을 통해 작업 인식 능력을 향상시켜 다양한 시나리오에서 우수한 성능을 보인다."