Core Concepts
단일 모달리티 기반 결함 분류 모델의 한계를 극복하기 위해 VLM-LLM의 특징을 활용하고 점진적 정렬 기법을 통해 성능을 향상시킨다.
Abstract
이 논문은 ASE 데이터셋의 결함 분류 문제를 다룹니다. ASE 데이터셋은 단일 모달리티 기반 모델의 성능이 제한적인 두 가지 문제를 가지고 있습니다: (1) 데이터 부족 및 불안정한 데이터 품질, (2) 단일 시각 모달리티에 과도하게 의존.
이를 해결하기 위해 저자들은 다음과 같은 접근법을 제안합니다:
VLM-LLM의 제로샷 학습 능력을 활용하여 추가적인 모달리티 특징을 추출하고 이를 통해 결함 분류 성능을 향상시킨다.
점진적 특징 정렬(PFA) 블록을 설계하여 적은 수의 샘플에서도 효과적으로 이미지-텍스트 특징을 정렬할 수 있도록 한다.
크로스-모달리티 주의 집중 융합(CMAF) 모듈을 통해 다양한 모달리티의 특징을 효과적으로 융합한다.
데이터셋 특화 데이터 증강(TDA) 기법을 적용하여 데이터 다양성을 높인다.
실험 결과, 제안 방법은 다양한 기존 결함 분류 모델들에 비해 우수한 성능을 보였다.
Stats
정상 샘플의 평균 x, y 좌표는 각각 0.04, -0.05이고 분산은 3.71, 3.52이다.
결함 유형 1의 평균 x, y 좌표는 각각 2.73, 0.59이고 분산은 7.38, 5.52이다.
결함 유형 2의 평균 x, y 좌표는 각각 6.43, -3.21이고 분산은 8.27, 8.63이다.
결함 유형 3의 평균 x, y 좌표는 각각 -1.10, 0.65이고 분산은 8.14, 6.44이다.
결함 유형 4의 평균 x, y 좌표는 각각 -0.21, -0.01이고 분산은 9.44, 8.77이다.
Quotes
"전통적인 결함 분류 접근법은 두 가지 장벽에 직면하고 있다. (1) 훈련 데이터 부족 및 불안정한 데이터 품질, (2) 시각 모달리티에 과도하게 의존."
"어떻게 이 두 가지 문제가 동시에 발생할 때 해결할 것인가? 가능한 전략은 데이터셋 내에서 다른 특징을 탐색하고 탁월한 제로샷 기능을 가진 비전-언어 모델(VLM)과 대규모 언어 모델(LLM)을 결합하는 것이다."