核心概念
事象カメラのセンサー設計上の欠陥により生じる欠損ピクセル値の問題に対し、Swin Transformerベースのバックボーンとピクセルフォーカスロス関数を提案し、高品質なRGB画像の再構築を実現する。
要約
本論文は、事象カメラのRAW画像処理における課題に取り組んでいる。事象カメラのセンサー設計上の欠陥により、RAW画像には一部のピクセル値が欠損している。従来のRAW画像処理手法は欠損ピクセルの存在を前提としていないため、この問題に対処することが困難であった。
本手法では、Swin Transformerベースのバックボーンと、ピクセルフォーカスロス関数を提案している。Swin Transformerは、RGB画像処理分野で優れた性能を発揮しており、RAW画像処理にも適用可能であることを示している。ピクセルフォーカスロス関数は、エッジ領域の差異を重視することで、欠損ピクセルの補完に効果的である。
具体的な手法は以下の通り:
空間圧縮と1x1畳み込みによる前処理
Swin Transformerブロックを用いた多スケールエンコーダ
エンコーダと対称的なデコーダ構造
空間復元による最終出力
二段階の学習アプローチを採用し、初期段階ではCharbonier損失、後期段階ではピクセルフォーカス損失を用いることで、高品質な画像再構築を実現している。
提案手法は、MIPI Demosaic Challenge 2024のデータセットを用いて評価され、従来手法を大きく上回る性能を示している。また、様々な分析実験を通じて、手法の有効性と汎用性が確認されている。
統計
RAW画像の欠損ピクセル値により、従来手法では画像品質が大幅に劣化する。
PSNR 13.25 / SSIM 0.359
引用
"事象カメラのセンサー設計上の欠陥により、RAW画像には一部のピクセル値が欠損している。この欠損ピクセルの存在は、従来のRAW画像処理手法にとって大きな課題となっている。"
"Swin Transformerは、RGB画像処理分野で優れた性能を発揮しており、RAW画像処理にも適用可能である。ピクセルフォーカスロス関数は、エッジ領域の差異を重視することで、欠損ピクセルの補完に効果的である。"