核心概念
提出了一個名為VMAD的新框架,能夠同時定位異常並生成解釋性文本。VMAD通過跨模態學習將視覺相似性線索作為工業異常檢測的專門知識引入到多模態語言模型中,並引入了一種新的視覺投射器,能夠挖掘局部上下文中的多層次特徵,增強對細粒度缺陷的感知。
摘要
本文提出了一個名為VMAD的新框架,用於工業異常檢測。VMAD結合了多模態大型語言模型(MLLM)和視覺分支,能夠同時定位異常並生成解釋性文本。
為了解決MLLM在工業異常檢測中的挑戰,作者提出了兩個創新模塊:
缺陷敏感結構學習(DSSL)方案:整合了視覺分支和MLLM之間的視覺相似性線索,增強了MLLM對異常結構的敏感性。
基於局部的令牌壓縮(LTC)機制:作為MLLM的視覺投射器,通過多層次特徵融合,在保持效率的同時,增強了對細粒度缺陷的感知。
此外,作者還收集了一個名為RIAD的工業異常檢測數據集,包含豐富的圖像-文本數據,為基於MLLM的工業異常檢測提供了有價值的資源。
實驗結果表明,VMAD在跨數據集和跨類別的零樣本異常檢測基準上均優於現有方法,同時還展示了出色的異常分析能力。
統計資料
"工業設備中存在缺陷,需要及時發現和修復。"
"異常通常表現為細微的視覺差異,很難被檢測到。"
"正常樣本之間的視覺相似性分佈與異常樣本存在明顯差異。"
引述
"異常通常表現為細微的視覺差異,很難被檢測到。"
"正常樣本之間的視覺相似性分佈與異常樣本存在明顯差異。"