Core Concepts
人間の視覚からインスピレーションを受けた周辺畳み込みにより、パラメータ効率の良い大きなカーネルサイズを実現し、優れた性能を発揮する。
Abstract
近年、大きなカーネル畳み込みネットワークが注目されており、その性能と効率が向上している。
しかし、畳み込みの平方的複雑さにより、カーネルサイズを拡大すると膨大なパラメータ数が生じる。
この問題に対処するため、周辺畳み込みを提案し、パラメータ共有によってパラメータ数を90%以上削減し、極めて大きなカーネルサイズへのスケーリングを可能にした。
提案されたPeLKは、SwinやConvNeXtなどの最新のビジョントランスフォーマーとConvNetアーキテクチャを凌駕し、ImageNet分類やADE20Kでのセマンティックセグメンテーション、MS COCOでの物体検出などのさまざまなビジョンタスクで優れた性能を発揮した。
PeLKはCNNsのカーネルサイズを101×101に初めて拡張し、一貫した改善を示した。
Quotes
"Inspired by human vision, we propose a human-like peripheral convolution that efficiently reduces over 90% parameter count of dense grid convolution through parameter sharing."
"Our PeLK outperforms modern vision Transformers and ConvNet architectures like Swin, ConvNeXt, RepLKNet and SLaK on various vision tasks including ImageNet classification, semantic segmentation on ADE20K and object detection on MS COCO."