핵심 개념
해석 가능한 이미지 분류를 위한 효율적이고 견고한 트랜스포머 디코더의 중요성
초록
해석 가능한 컴퓨터 비전 모델의 중요성과 새로운 ComFe 접근 방식 소개
ComFe는 해석 가능한 이미지 분류를 위한 새로운 접근 방식으로, 트랜스포머 디코더와 계층적 혼합 모델링을 활용하여 이미지 구성 요소를 식별하고 예측을 설명
ComFe는 이전 해석 가능한 모델보다 높은 정확도를 달성하며, ImageNet과 같은 다양한 벤치마크에서 우수한 성능을 보임
ComFe는 비해석 가능한 선형 헤드보다 우수한 성능을 보이며, 일반화 및 견고성 벤치마크에서도 우수한 성과를 보임
실험 결과를 통해 ComFe가 해석 가능한 이미지 특징을 효과적으로 지역화하고 다양한 데이터셋에서 성공적으로 작동하는 것을 확인
통계
ComFe는 이전 모델보다 높은 정확도를 달성
ComFe는 ImageNet, CIFAR-10, CIFAR-100, Food-101, StanfordCars 및 FGVC Aircraft에서 선형 헤드보다 우수한 성능을 보임
ComFe는 ImageNet-V2 테스트 세트에서 성능 향상을 보임
인용구
"Interpretable computer vision models can produce transparent predictions, where the features of an image are compared with prototypes from a training dataset."
"ComFe introduces a novel explainable-by-design image classification approach using a transformer-decoder head and hierarchical mixture-modelling."
"ComFe obtains higher accuracy compared to previous interpretable models across a range of fine-grained vision benchmarks."