本文提出了一個名為VMAD的新框架,用於工業異常檢測。VMAD結合了多模態大型語言模型(MLLM)和視覺分支,能夠同時定位異常並生成解釋性文本。
為了解決MLLM在工業異常檢測中的挑戰,作者提出了兩個創新模塊:
缺陷敏感結構學習(DSSL)方案:整合了視覺分支和MLLM之間的視覺相似性線索,增強了MLLM對異常結構的敏感性。
基於局部的令牌壓縮(LTC)機制:作為MLLM的視覺投射器,通過多層次特徵融合,在保持效率的同時,增強了對細粒度缺陷的感知。
此外,作者還收集了一個名為RIAD的工業異常檢測數據集,包含豐富的圖像-文本數據,為基於MLLM的工業異常檢測提供了有價值的資源。
實驗結果表明,VMAD在跨數據集和跨類別的零樣本異常檢測基準上均優於現有方法,同時還展示了出色的異常分析能力。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Huilin Deng,... a las arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20146.pdfConsultas más profundas