核心概念
提案手法HIT(High-frequency Injected Transformer)は、CNNベースの特徴抽出器を用いて高周波情報を抽出し、Transformerアーキテクチャに注入することで、局所的な詳細情報と大域的な文脈情報の両方を効果的にモデル化し、高品質な画像修復を実現する。
要約
本論文は、Transformer ベースのアプローチを用いた画像修復手法HIT(High-frequency Injected Transformer)を提案している。
まず、CNNベースの特徴抽出器を用いて高周波情報を抽出し、window-wise injection module (WIM)を通じてTransformerアーキテクチャに注入する。これにより、Transformerが局所的な詳細情報と大域的な文脈情報の両方を効果的にモデル化できるようになる。
次に、bidirectional interaction module (BIM)を開発し、異なるスケールの特徴を相互に強化し合うことで、空間的・意味的に改善された表現を得る。さらに、spatial enhancement unit (SEU)を導入し、BIMで失われがちな空間的関係性を保持する。
提案手法HIT は、9つの画像修復タスク(ノイズ除去、雨筋除去、低照度補正、脱霧、ぼかし除去など)で優れた性能を示し、計算コストも低い。
統計
提案手法HIT-Bは、DND[60]データセットでノイズ除去タスクにおいて0.97dBの性能向上を達成した。
HIT-Bは、SPAD[78]データセットの雨筋除去タスクで4.13dBの性能向上を示した。
HIT-Bは、SMID[7]データセットの低照度補正タスクで0.22dBの性能向上を示した。
HIT-Bは、Dense-Haze[2]データセットの脱霧タスクで1.11dBの性能向上を示した。
HIT-Bは、RealBlur[67]データセットのぼかし除去タスクで2.75dBの性能向上を示した。
引用
"Transformer-based approaches have achieved superior performance in image restoration, since they can model long-term dependencies well. However, the limitation in capturing local information restricts their capacity to remove degradations."
"The core component in Transformer, i.e., self-attention, which serves as a low-pass filter, could unintentionally dilute or even eliminate the acquired local patterns."