핵심 개념
그래프 컨볼루션 프로젝션과 토크-헤드 기술을 활용하여 작은 데이터셋에서도 우수한 성능을 달성하는 비전 트랜스포머 모델을 제안한다.
초록
이 논문은 그래프 기반 비전 트랜스포머(GvT) 모델을 제안한다. GvT는 그래프 컨볼루션 프로젝션과 토크-헤드 기술을 활용하여 작은 데이터셋에서도 우수한 성능을 달성한다.
- 그래프 컨볼루션 프로젝션: 이미지를 그래프 데이터로 간주하고, 토큰 간 관계를 학습하여 지역 특징에 주목할 수 있도록 한다.
- 토크-헤드 기술: 낮은 랭크 병목 현상을 해결하기 위해 주의 집중 텐서에서 선형 종속적인 열과 행을 제거하는 방식으로 구현한다.
- 그래프 풀링: 의미 있는 영역을 더 효과적으로 통합하기 위해 사용된다.
실험 결과, GvT는 작은 데이터셋에서 기존 CNN 및 비전 트랜스포머 모델을 능가하는 성능을 보였다. 또한 계산 복잡도 분석을 통해 GvT가 효율적임을 입증하였다.
통계
이미지 분류 데이터셋에서 GvT는 기존 모델들에 비해 우수한 성능을 보였다.
ClipArt 데이터셋에서 GvT의 정확도는 35.12%로 가장 높았다.
CIFAR-100 데이터셋에서 GvT의 정확도는 58.16%로 가장 높았다.
Oxford-IIIT Pet 데이터셋에서 GvT의 정확도는 30.66%로 가장 높았다.
Sketch-Subset 데이터셋에서 GvT의 정확도는 63.39%로 가장 높았다.
Chest X-ray 데이터셋에서 GvT의 정확도는 87.00%로 가장 높았다.
COVID-CT 데이터셋에서 GvT의 정확도는 83.33%로 가장 높았다.