แนวคิดหลัก
트랜스포머 기반 비디오 인페인팅에서 발생하는 쿼리 열화 문제를 해결하기 위해 완성된 광학 흐름을 활용하여 특징 통합과 전파를 수행하고, 시간적 및 공간적 차원에서 트랜스포머를 분리하여 효과적이고 효율적인 비디오 인페인팅을 달성한다.
บทคัดย่อ
이 논문은 트랜스포머 기반 비디오 인페인팅에서 발생하는 쿼리 열화 문제를 해결하기 위한 방법을 제안한다.
먼저, 논문은 광학 흐름 완성 네트워크(LAFC)를 제안한다. LAFC는 지역 흐름 특징 집계와 엣지 손실을 사용하여 효율적이고 정확한 광학 흐름 완성을 달성한다.
다음으로, 논문은 두 가지 모듈을 제안하여 쿼리 열화 문제를 해결한다. 첫째, 흐름 가이드 특징 통합(FGFI) 모듈은 완성된 광학 흐름을 사용하여 특징을 강화한다. 둘째, 흐름 가이드 특징 전파(FGFP) 모듈은 완성된 흐름을 기반으로 특징을 시간적으로 전파한다.
또한 논문은 트랜스포머 아키텍처를 개선한다. 시간적 및 공간적 차원에서 트랜스포머를 분리하고, 시간적 변형 MHSA와 이중 관점 MHSA를 도입하여 효과와 효율성의 균형을 달성한다.
실험 결과, 제안된 FGT++는 기존 비디오 인페인팅 네트워크보다 정성적 및 정량적으로 우수한 성능을 보인다.
สถิติ
완성된 광학 흐름을 사용하여 특징을 강화하면 더 나은 공간-시간적 일관성을 가진 비디오 인페인팅 결과를 얻을 수 있다.
시간적 및 공간적 차원에서 트랜스포머를 분리하고 변형 MHSA와 이중 관점 MHSA를 사용하면 효과와 효율성의 균형을 달성할 수 있다.
주파수 영역 손실을 도입하면 저주파 콘텐츠를 개선할 수 있다.
คำพูด
"트랜스포머는 비디오 처리에 널리 사용되고 있지만, MHSA 메커니즘에는 고유한 어려움이 있다. 왜냐하면 손상된 영역과 관련된 특징이 저하되어 부정확한 자기 주의를 유발하기 때문이다."
"완성된 광학 흐름은 공간-시간적 일관성을 나타내는 강력한 지표이므로, 우리는 흐름 가이드를 활용하여 열화된 쿼리에서 올바른 토큰을 검색할 수 있다."