核心概念
本稿では、深層学習ベースの最新の単一画像反射除去(SIRR)手法の超高精細(UHD)画像における性能を評価し、新たに大規模UHD画像データセットを構築してベンチマークを実施、さらにTransformerベースの新たなSIRRアーキテクチャであるRRFormerを提案し、その有効性を検証した。
近年、スマートフォンやデジタルカメラの高性能化に伴い、4Kや8Kといった超高精細(UHD)解像度の画像が普及しつつある。それに伴い、UHD画像を対象とした画像処理技術の需要が高まっている。本稿では、UHD画像における単一画像反射除去(SIRR)技術に着目し、最新の深層学習ベースの手法の性能評価と、新たなUHD画像データセット、そしてTransformerベースの新たなSIRRアーキテクチャの提案を行う。
UHD SIRRデータセットの必要性
従来のSIRR手法の多くは、標準精細(SD)または高精細(HD)解像度の画像データセットを用いて学習・評価が行われてきた。UHD画像における性能は未知数であり、UHD画像に特化したデータセットの構築が急務となっている。
本稿では、2つの大規模UHD画像データセット、UHDRR4KとUHDRR8Kを構築した。
UHDRR4K: 4K解像度(3840x2160)の画像データセット。学習用画像2,999枚、テスト用画像168枚を含む。
UHDRR8K: 8K解像度(7680x4320)の画像データセット。学習用画像1,014枚、テスト用画像105枚を含む。
各データセットは、透過画像、反射画像、反射マスク画像、合成画像の4枚組で構成される。反射マスク画像は、ランダムなガウシアン平滑化カーネルを用いて処理することで、現実的な反射を模倣している。