Core Concepts
트랜스포머 기반 비디오 인페인팅에서 발생하는 쿼리 저하 문제를 해결하기 위해 완성된 광학 흐름을 활용하여 특징 통합과 전파를 수행하고, 시간적 및 공간적 차원에서 트랜스포머를 분리하여 효과적이고 효율적인 비디오 인페인팅을 달성한다.
Abstract
이 논문은 트랜스포머 기반 비디오 인페인팅에서 발생하는 쿼리 저하 문제를 해결하기 위한 방법을 제안한다.
먼저, 저자들은 광학 흐름 완성 네트워크(LAFC)를 제안한다. LAFC는 지역 흐름 특징 집계와 엣지 손실을 사용하여 효율적이고 정확한 광학 흐름 완성을 달성한다.
다음으로, 저자들은 두 가지 직교 모듈을 제안하여 쿼리 저하 문제를 해결한다. 첫째, 흐름 가이드 특징 통합(FGFI) 모듈은 완성된 광학 흐름을 사용하여 특징 맵의 운동 차이를 강화한다. 둘째, 흐름 가이드 특징 전파(FGFP) 모듈은 완성된 흐름에 따라 특징을 시간적으로 전파한다.
또한 저자들은 트랜스포머 아키텍처를 재설계하여 FGFI와 FGFP 모듈을 통합한다. 시간 및 공간 차원에서 트랜스포머를 분리하고, 시간 트랜스포머에서 시간적 변형 MHSA를, 공간 트랜스포머에서 이중 관점 MHSA를 제안한다.
마지막으로, 저자들은 푸리에 스펙트럼 진폭 손실을 도입하여 인페인팅된 비디오의 저주파 콘텐츠를 개선한다.
제안된 FGT++는 정성적 및 정량적으로 기존 비디오 인페인팅 네트워크를 능가한다.
Stats
완성된 광학 흐름은 비디오 프레임의 공간-시간적 일관성을 나타내는 강력한 지표이다.
지역적으로 상관된 광학 흐름은 보완적 특성을 가지므로, 이를 활용하면 흐름 완성 정확도를 크게 향상시킬 수 있다.
쿼리 저하 문제는 트랜스포머 기반 비디오 인페인팅에서 가장 전형적인 문제이다.
푸리에 스펙트럼 진폭 손실은 인페인팅된 비디오의 저주파 콘텐츠를 개선하는 데 효과적이다.
Quotes
"트랜스포머는 다중 헤드 자기 주의(MHSA) 메커니즘 때문에 비디오 인페인팅에 본질적인 어려움을 겪는다. 왜냐하면 손상된 영역과 관련된 특징이 저하되어 부정확한 자기 주의를 초래하기 때문이다."
"완성된 광학 흐름은 공간-시간적 일관성의 강력한 지표이므로, 우리는 흐름 가이드를 활용하여 자기 주의에서 올바른 토큰을 검색할 수 있다."