이 논문은 시각 변환기 모델의 내부 메커니즘을 설명하기 위한 새로운 방법인 TokenTM을 제안한다. 시각 변환기 모델은 이미지 영역을 토큰으로 표현하고 주의 가중치를 통해 통합하는데, 기존 사후 설명 방법들은 주의 가중치만을 고려하여 토큰 변환 효과를 간과하였다. 이로 인해 모델의 예측 근거를 정확히 설명하지 못하는 문제가 있었다.
TokenTM은 토큰 변환 효과를 측정하는 새로운 방법을 제안한다. 토큰의 길이와 방향 변화를 정량화하여 토큰 변환의 영향을 평가한다. 또한 다층 구조의 시각 변환기 모델에서 토큰 변환과 문맥화 효과를 누적적으로 반영하는 집계 프레임워크를 설계하였다. 실험 결과, TokenTM은 기존 방법들에 비해 우수한 성능을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問