Core Concepts
텍스트 기반 확산 모델을 활용하여 다중 분광 위성 영상의 결측 영역을 복원하고, 구조적 엣지 정보를 활용하여 복원 성능을 향상시킬 수 있다.
Abstract
이 연구는 텍스트 기반 확산 모델을 활용하여 다중 분광 위성 영상의 결측 영역을 복원하는 방법을 제안한다. 두 단계로 구성된 접근법을 사용하는데, 첫 번째 단계에서는 StableDiffusion 모델을 활용하여 RGB 채널의 결측 영역을 복원하고, 두 번째 단계에서는 Deep Image Prior 기법을 사용하여 복원된 RGB 채널 정보를 바탕으로 나머지 다중 분광 채널을 복원한다.
실험 결과, 텍스트 기반 확산 모델을 활용한 접근법은 결측 영역 복원에 있어 일부 한계가 있는 것으로 나타났다. 특히 큰 결측 영역에 대해서는 원하지 않는 인공물이 생성되는 문제가 있었다. 반면, 단일 이미지 기반의 Deep Image Prior 기법을 활용한 접근법이 더 나은 성능을 보였다.
하지만 텍스트 기반 모델은 복원 과정에 대한 제어 및 데이터 증강 등의 활용 가능성을 제시한다. 또한 제안된 RGB-to-MSI 변환 기법은 텍스트 기반 모델의 성능이 향상될 경우 다중 분광 채널 복원에 활용될 수 있다.
Stats
결측 영역을 역사적 데이터로 채우는 것이 복원 성능 향상에 도움이 된다.
텍스트 가이드 스케일은 복원 성능에 큰 영향을 미치지 않는다.
샘플링 단계 수를 늘리는 것은 복원 성능 향상에 도움이 되지 않는다.
엣지 가이드 스케일 0.5가 가장 좋은 성능을 보인다.