Core Concepts
部分的大カーネルCNNを提案し、従来のCNNとTransformerの長所を組み合わせることで、高性能かつ高効率な超解像モデルを実現した。
Abstract
本研究では、超解像タスクにおいて、CNNとTransformerの長所を組み合わせた新しいモデル「部分的大カーネルCNN for Efficient Super-Resolution (PLKSR)」を提案した。
まず、CNNとTransformerの効率性を比較した結果、CNNの方がFLOPsやパラメータ数が多いにもかかわらず、レイテンシーやGPUメモリ使用量が低いことを示した。そこで、Transformerの長所であるlong-range dependencyの捕捉と、instance-dependent weightingの生成をCNNに取り入れることを目指した。
具体的には以下の3つの手法を提案した:
入力特徴量の一部のみに大カーネルを適用する「部分的大カーネル畳み込み (PLKC)」
3x3畳み込みを2回適用する「Double Convolutional Channel Mixer (DCCM)」
特徴量の各要素に個別の注意重みを割り当てる「Element-wise Attention (EA)」
これらの手法を組み合わせたPLKSRは、4つのデータセットにおいて最先端の性能を達成しつつ、従来手法と比べて68.1%のレイテンシー削減と80.2%のGPUメモリ使用量削減を実現した。
また、大カーネルの特徴が低周波成分を捉えやすいことを可視化実験で示し、PLKCがTransformerと同様の長距離依存性を効率的に捉えられることを確認した。
Stats
部分的大カーネルCNNを用いることで、従来手法と比べて68.1%のレイテンシー削減と80.2%のGPUメモリ使用量削減を実現した。
部分的大カーネルCNNは、4つのデータセットにおいて最先端の超解像性能を達成した。
Quotes
「CNNはFLOPsやパラメータ数が多いにもかかわらず、レイテンシーやGPUメモリ使用量が低い」
「部分的大カーネル畳み込み (PLKC)は、Transformerと同様の長距離依存性を効率的に捉えられる」