Основні поняття
LADDER는 효율성과 품질 사이의 균형을 잡기 위해 설계된 효율적인 비디오 프레임 보간 프레임워크이다. 이를 위해 대형 커널 깊이 방향 컨볼루션과 디코더 전용 리파인먼트 모듈을 도입하였다.
Анотація
이 논문은 비디오 프레임 보간(VFI) 작업을 위한 효율적인 프레임워크 LADDER를 소개한다. LADDER는 효율성과 품질 사이의 균형을 달성하기 위해 설계되었다.
주요 구성 요소:
- 특징 추출기: 저수준 컨볼루션 블록과 고수준 트랜스포머 블록으로 구성된다.
- 흐름 추정기: 저해상도 인코더와 고해상도 인코더로 구성된다. 고해상도 인코더는 대형 커널 깊이 방향 컨볼루션을 사용하여 넓은 수용 영역과 복잡한 모션을 효과적으로 처리한다.
- 리파인먼트 모듈: 인코더-디코더 구조 대신 디코더 전용 구조를 사용하여 효율적이고 효과적인 리파인먼트 프로세스를 제공한다.
- HD 인식 데이터 증강: HD 이미지에서 일관된 성능 향상을 위해 저해상도 흐름과 원본 흐름을 모두 활용하는 데이터 증강 전략을 도입했다.
실험 결과, LADDER는 기존 최첨단 모델보다 훨씬 적은 FLOPs와 매개변수로도 최고 성능을 달성했다.
Статистика
우리의 경량 모델은 EMA-S 모델보다 FLOPs가 33% 적고 매개변수가 79% 적다.
우리의 대형 모델은 AMT-G 모델보다 FLOPs가 70% 적고 매개변수가 35% 적다.
Цитати
"LADDER는 효율성과 품질 사이의 균형을 달성하기 위해 설계되었다."
"고해상도 인코더는 대형 커널 깊이 방향 컨볼루션을 사용하여 넓은 수용 영역과 복잡한 모션을 효과적으로 처리한다."
"디코더 전용 리파인먼트 모듈은 효율적이고 효과적인 리파인먼트 프로세스를 제공한다."