본 연구는 비디오 생성의 어려움을 해결하기 위해 2D 삼면 및 3D 웨이블릿 표현을 결합한 하이브리드 비디오 자동 인코더를 제안한다.
2D 삼면 표현은 비디오의 전역적 문맥 정보를 캡처하고, 3D 볼륨 표현은 지역적 볼륨 정보를 캡처한다. 이 두 가지 표현은 공간-시간 교차 주의 메커니즘을 통해 상호 보완되어 정교한 비디오 표현을 생성한다.
또한 3D 이산 웨이블릿 변환을 활용하여 주파수 정보를 활용함으로써, 비디오 재구성 과정에서 시각적 품질을 향상시킨다.
실험 결과, 제안 방법은 UCF-101, SkyTimelapse, TaiChi 벤치마크 데이터셋에서 최신 기술 대비 우수한 성능을 보였다. 또한 장기 비디오 생성, 이미지-비디오 변환, 비디오 동역학 제어 등 다양한 응용 분야에서 활용 가능함을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kihong Kim,H... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2402.13729.pdfDeeper Inquiries