מושגי ליבה
本稿では、マスク画像モデリング(MIM)を用いて、画像内のオブジェクトの誤った組み合わせや位置のずれなどの論理異常を効果的に検出する新しい手法を提案する。
תקציר
離散潜在空間におけるマスク画像モデリングを用いた論理異常検出(LADMIM)
本論文では、産業用異常検出において、従来手法では困難であった、オブジェクト間の関係性における異常(論理異常)を検出する新しい手法、LADMIMを提案する。
背景と課題
産業用異常検出は、製品の欠陥を検出し、安全性の問題を未然に防ぐために重要である。
従来の異常検出手法は、画像内の局所的な特徴(傷や汚れなど)に焦点を当てており、オブジェクト間の関係性における異常(論理異常)の検出は困難であった。
提案手法:LADMIM
マスク画像モデリング(MIM)を用いることで、画像内のオブジェクト間の関係性を学習する。
MIMは、画像の一部をマスクし、可視領域からマスク領域の特徴を予測するようにモデルを訓練する自己教師あり学習技術である。
マスクされた領域を復元するためには、画像がどのように構成されているかを理解する必要があり、画像内の特徴間の関係性を学習することができる。
再構成画像のぼやけに対処するため、ピクセル予測の代わりに、トークナイザを用いてマスク領域の離散潜在変数の確率分布を予測する。
離散潜在変数の確率分布は、マスク領域内の視覚的特徴の構成を表し、特徴の位置に対して不変であるため、位置の不確実性問題を軽減できる。
実験と結果
MVTecLOCOデータセットを用いて提案手法を評価した結果、平均AUCは0.867となり、従来の再構成ベースおよび蒸留ベースの手法を上回る結果となった。
結論
LADMIMは、MIMの特徴を活用することで、論理異常を効果的に検出できることを示した。
今後の課題として、MIMにおけるマスク戦略(訓練時および推論時に使用するマスク)の検討などが挙げられる。
סטטיסטיקה
MVTecLOCOデータセットを用いて評価した結果、平均AUCは0.867を達成。