Grunnleggende konsepter
Durch den Einsatz von VLM-LLM-Funktionen und fortschrittlichen Methoden zur Ausrichtung und Fusion von Merkmalen kann die Leistung bei der Defektklassifizierung für den ASE-Datensatz deutlich verbessert werden.
Sammendrag
Der Artikel befasst sich mit der Verbesserung der Defektklassifizierung für den ASE-Datensatz, der Herausforderungen wie unzureichende Trainingsdaten und eine monotone Textur/Musterung aufweist. Die Autoren schlagen einen Ansatz vor, der die Leistungsfähigkeit von Vision-Language-Modellen (VLM) und Large Language Models (LLM) nutzt, um zusätzliche modalitätsübergreifende Merkmale zu extrahieren und zu kombinieren.
Kernelemente des Ansatzes sind:
Prompting-Techniken, um die Zero-Shot-Fähigkeiten von VLM und LLM für die Defektklassifizierung zu nutzen
Ein neuartiger "Progressive Feature Alignment (PFA)"-Block, der die Ausrichtung von Bild- und Textmerkmalen bei begrenzter Datenmenge verbessert
Ein "Cross-Modality Attention Fusion (CMAF)"-Modul, das die Fusion der Merkmale aus verschiedenen Modalitäten ermöglicht
Eine aufgabenspezifische Datenerweiterung (TDA), um die Vielfalt der Trainingsdaten für den ASE-Datensatz zu erhöhen
Die Experimente zeigen, dass der vorgeschlagene Ansatz deutlich bessere Ergebnisse erzielt als herkömmliche Methoden für die Defektklassifizierung auf dem ASE-Datensatz.
Statistikk
Die Statistiken des ASE-Datensatzes sind wie folgt:
Typ-0 (normal): N=225, µx=0.04, µy=-0.05, σ2
x=3.71, σ2
y=3.52
Typ-1 (defekt): N=92, µx=2.73, µy=0.59, σ2
x=7.38, σ2
y=5.52
Typ-2 (defekt): N=44, µx=6.43, µy=-3.21, σ2
x=8.27, σ2
y=8.63
Typ-3 (defekt): N=50, µx=-1.10, µy=0.65, σ2
x=8.14, σ2
y=6.44
Typ-4 (defekt): N=44, µx=-0.21, µy=-0.01, σ2
x=9.44, σ2
y=8.77
Sitater
Keine relevanten Zitate identifiziert.