本論文は、ビデオフレーム補間(VFI)のための効率的なフレームワーク「LADDER」を提案している。
まず、特徴抽出部では、畳み込み層とアテンション層を組み合わせた構造を採用し、高品質な特徴を抽出する。
次に、流れ推定部では、低解像度特徴に対して通常の3x3畳み込みを、高解像度特徴に対して大カーネル深層畳み込みを適用することで、大きな受容野を確保しつつ計算コストを抑える。
さらに、リファインメント部では、エンコーダーを持たない効率的なデコーダー構造を採用し、入力画像と推定流れから直接補間結果を生成する。
また、高解像度画像への適応性を高めるため、低解像度の流れ情報も活用するデータ拡張手法を提案している。
これらの工夫により、従来手法と比べて大幅に少ないFLOPSとパラメータ数で、最先端の補間品質を実現している。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Tong Shen,Do... pada arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11108.pdfPertanyaan yang Lebih Dalam