核心概念
Dinomaly 是一個基於 Transformer 的非監督式異常檢測框架,它採用簡約的設計理念,僅使用注意力機制和 MLP,並透過引入噪聲瓶頸、線性注意力和鬆散重建等策略,有效解決了多類別異常檢測中的「恆等映射」問題,在多個基準測試中取得了超越以往方法的最佳性能。
論文資訊: Guo, J., Lu, S., Zhang, W., Chen, F., Liao, H., & Li, H. (2024). Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection. arXiv preprint arXiv:2405.14325v3.
研究目標: 本文旨在解決多類別非監督式異常檢測(MUAD)中,模型性能遠低於單類別模型的問題,並提出一個基於簡約設計的 Transformer 架構 Dinomaly,以提升 MUAD 的性能。
方法: Dinomaly 是一個基於重建的 UAD 框架,由編碼器、瓶頸層和重建解碼器組成。
基礎 Transformer: 使用預先訓練好的視覺 Transformer(ViT)作為編碼器,提取具有區分性的特徵表示。
噪聲瓶頸: 在 MLP 瓶頸層中使用 Dropout 技術,引入特徵噪聲,防止網路過度泛化,並模擬偽異常,以減輕「恆等映射」現象。
非聚焦線性注意力: 利用線性注意力無法聚焦於局部區域的特性,防止在重建過程中傳遞相同資訊,進一步減輕「恆等映射」問題。
鬆散重建: 放寬層與層之間的重建約束,將多個層級的特徵圖組合成一個整體進行重建,並在訓練過程中捨棄重建良好的區域,以防止解碼器過度模仿編碼器的行為。
主要發現:
Dinomaly 在 MVTec-AD、VisA 和 Real-IAD 三個基準測試中,均取得了超越以往 MUAD 方法的最佳性能,甚至超越了一些單類別模型。
Dinomaly 的性能受益於模型規模的擴展,使用更大的 ViT 架構可以進一步提升性能。
Dinomaly 可以靈活調整輸入圖像大小,並在較小圖像上也能保持良好的性能。
預先訓練的基礎模型對 Dinomaly 的性能至關重要,其中結合對比學習和遮罩圖像建模的預訓練方法表現最佳。
結論: Dinomaly 是一個簡約而有效的 MUAD 框架,透過引入四個關鍵元素,成功解決了 MUAD 中的「恆等映射」問題,並在多個基準測試中取得了最佳性能,證明了在複雜場景下使用統一模型進行異常檢測的可行性。
研究限制和未來方向:
本文主要關注圖像級別的異常檢測,未來可以進一步探索 Dinomaly 在其他數據類型上的應用,例如影片和時序數據。
未來可以研究如何將 Dinomaly 擴展到半監督和弱監督的異常檢測場景。
統計資料
Dinomaly 在 MVTec-AD 數據集上實現了 99.6% 的圖像級別 AUROC 和 98.4% 的像素級別 AUROC。
Dinomaly 在 VisA 數據集上實現了 98.7% 的圖像級別 AUROC 和 98.7% 的像素級別 AUROC。
Dinomaly 在 Real-IAD 數據集上實現了 89.3% 的圖像級別 AUROC 和 98.8% 的像素級別 AUROC。
使用 ViT-Large 架構可以將 Dinomaly 在 MVTec-AD 數據集上的圖像級別 AUROC 提升至 99.8%。