toplogo
サインイン
インサイト - Computer Vision - # 테스트 시간 적응

온디맨드 토큰: 훈련 없는 테스트 시간 적응으로서의 토큰 집중화


核心概念
본 논문에서는 비전-언어 모델(VLM)의 테스트 시간 추론 중 발생하는 분포 변화를 완화하기 위해 고안된 훈련 없는 접근 방식인 적응형 토큰 집중화(TCA)를 소개합니다. TCA는 이미지 토큰을 집중화하여 패치 수준에서 분포 차이를 해소합니다.
要約

훈련 없는 테스트 시간 적응으로서의 토큰 집중화

edit_icon

要約をカスタマイズ

edit_icon

AI でリライト

edit_icon

引用を生成

translate_icon

原文を翻訳

visual_icon

マインドマップを作成

visit_icon

原文を表示

본 논문에서는 비전-언어 모델(VLM)의 테스트 시간 추론 중 발생하는 분포 변화를 완화하기 위해 고안된 훈련 없는 접근 방식인 적응형 토큰 집중화(TCA)를 소개합니다. TCA는 토큰에 대한 주의력이 낮은 이미지 토큰을 집중화하여 패치 수준에서 분포 차이를 해소합니다. 토큰이 보편적인 개념에 해당할 수 있음을 인식한 TCA는 이전 데이터 스트림에서 대상 클래스와 특히 일치하는 가장 신뢰할 수 있는 토큰을 식별하고 추적합니다. 이를 위해 불확실성이 가장 낮은 토큰을 "앵커"로 유지하여 추론 중 클래스 관련 토큰을 보존하도록 안내하는 컨텍스트 토큰 저장소(CTR)를 제안합니다. 그런 다음 이러한 앵커는 토큰 수준 분류기 역할을 하여 VLM 예측을 수정하고 시각-텍스트 정렬을 개선합니다. CTR에서 샘플링된 앵커를 활용하는 TCA는 다음 두 가지 작업을 통해 토큰을 집중화합니다. (1) 모든 주의 헤드에서 일관되게 낮은 순위를 차지하는 클래스 관련 없는 토큰을 삭제하여 관련성에 대한 헤드 간 합의에 도달하고, (2) 선형 계산 복잡성을 유지하면서 코어셋 선택을 사용하여 나머지 클래스 모호한 토큰을 대표적인 중심으로 병합합니다. 테스트 시간 적응에서 토큰 효율성을 탐구하는 최초의 방법인 TCA는 추가 매개변수를 도입하지 않고 가장 강력한 기준선에 비해 최대 21.4%의 정확도 향상을 달성하면서 GFLOP를 12.2%에서 48.9%까지 줄이면서 교차 데이터 세트 및 분포 외 적응 작업에서 일관되게 뛰어난 성능을 보여줍니다.
온라인 테스트 시간 적응(TTA)은 추론 중에 발생하는 분포 변화를 처리하기 위한 유망한 전략으로 부상했습니다. TTA는 레이블이 지정되지 않은 데이터 배치에서 사전 훈련된 모델을 동적으로 미세 조정하여 중간 계층 배치 통계를 정렬하고, 손실 환경에서 1차 평탄성을 최적화하고, 증강에서 자체 지도 일관성을 촉진하거나 모델 기록 가중치를 추적하여 일반화를 향상시킵니다. 그러나 기존 TTA 방법은 종종 백본의 매개변수를 계산적으로 비싼 조정이 필요합니다. 이러한 문제는 방대한 매개변수 세트로 구성되어 있고 적응을 안정화하기 위해 큰 배치 크기(예: 256)가 필요한 비전-언어 모델(VLM)에서 더욱 증폭됩니다. 테스트 시간 프롬프팅(TPT)은 시각적 백본을 고정한 상태에서 다운스트림 작업을 위해 작은 작업별 컨텍스트 프롬프트 세트를 학습하여 적응 초점을 VLM의 언어 측면으로 이동함으로써 TTA에 대한 보다 효율적인 대안을 제공합니다. 그럼에도 불구하고 TPT는 시각적 분포 변화의 영향을 크게 간과합니다. 프롬프트를 통해 분산이 큰 대상 이미지에 적응하려면 종종 외부 소스 데이터 또는 광범위한 데이터 증강(예: 60배 더 많은 AugMix 또는 확산 기반 합성 샘플)에 의존해야 합니다. 배치 크기가 1로 제한되는 엄격한 온라인 TTA 설정에서 이러한 증강 의존성은 계산 비용을 크게 증가시켜 단일 샘플 처리(즉, 1108.61 대 17.59GFLOP)에 비해 GFLOP가 60배 증가합니다. 추론 중에 역전파가 필요하기 때문에 계산 부담이 더욱 커지므로 리소스가 제한된 많은 애플리케이션에서 기존 TPT를 차선으로 만듭니다.

抽出されたキーインサイト

by Zixin Wang, ... 場所 arxiv.org 10-22-2024

https://arxiv.org/pdf/2410.14729.pdf
Tokens on Demand: Token Condensation as Training-free Test-time Adaptation

深掘り質問

VLM 아키텍처의 다른 구성 요소를 조정하여 TCA의 성능을 더욱 향상시킬 수 있을까요?

네, TCA의 성능을 더욱 향상시키기 위해 VLM 아키텍처의 다른 구성 요소들을 조정할 수 있습니다. 몇 가지 가능성은 다음과 같습니다. 텍스트 인코더 적응: 현재 TCA는 이미지 토큰에 집중하여 텍스트 임베딩을 고정된 상태로 사용합니다. 하지만 텍스트 인코더 또한 도메인 특정적인 정보를 더 잘 캡처할 수 있도록 fine-tuning 하거나, 입력 텍스트 프롬프트를 더 풍부하게 설계하여 성능을 향상시킬 수 있습니다. 예를 들어, 프롬프트 엔지니어링 기법을 사용하여 작업 특성을 더 잘 반영하는 프롬프트를 생성할 수 있습니다. 멀티모달 어텐션 메커니즘 개선: TCA는 현재 각 모달리티를 독립적으로 처리합니다. 이미지 및 텍스트 토큰 간의 상호 작용을 명시적으로 모델링하는 멀티모달 어텐션 메커니즘을 도입하면 두 모달리티 간의 정렬을 개선하여 성능을 향상시킬 수 있습니다. 예를 들어, cross-attention을 사용하여 이미지 토큰이 텍스트 정보를 더 잘 활용하도록 할 수 있습니다. 지식 증류 활용: 훈련된 VLM에서 얻은 지식을 TCA에 증류하여 성능을 향상시킬 수 있습니다. 예를 들어, 훈련된 VLM의 예측 확률 분포를 활용하여 TCA의 토큰 선택 과정을 안내할 수 있습니다. 다른 토큰 집중화 기법 탐색: 본 논문에서는 코어셋 선택 알고리즘을 사용하여 토큰을 병합했지만, 다른 토큰 집중화 기법, 예를 들어 동적 토큰 가지치기 또는 토큰 재구성 기법을 탐색하여 성능을 더욱 향상시킬 수 있습니다.

훈련 데이터와 테스트 데이터 간의 분포 변화가 매우 큰 경우 TCA의 성능은 어떻게 될까요?

훈련 데이터와 테스트 데이터 간의 분포 변화가 매우 큰 경우, TCA의 성능은 저하될 수 있습니다. TCA는 훈련 데이터에서 학습된 사전 지식과 텍스트 임베딩을 기반으로 동작하기 때문에, 분포 변화가 큰 경우 훈련 데이터에서 얻은 정보가 테스트 데이터에 적합하지 않을 수 있습니다. 특히, 다음과 같은 경우 TCA의 성능 저하가 두드러질 수 있습니다. 새로운 클래스 등장: 훈련 데이터에 없는 새로운 클래스가 테스트 데이터에 등장하는 경우, TCA는 해당 클래스를 올바르게 분류하기 어려울 수 있습니다. 도메인 특성의 큰 차이: 훈련 데이터와 테스트 데이터의 도메인 특성이 매우 다른 경우, 예를 들어 훈련 데이터는 자연 이미지이고 테스트 데이터는 스케치 이미지인 경우, TCA의 성능이 저하될 수 있습니다. 이러한 문제를 완화하기 위해 몇 가지 방법을 고려할 수 있습니다. 도메인 적응 기법 적용: 도메인 적응 기법을 활용하여 훈련 데이터와 테스트 데이터 간의 분포 차이를 줄일 수 있습니다. 예를 들어, adversarial domain adaptation 기법을 사용하여 도메인 불변적인 특징을 추출하도록 모델을 학습시킬 수 있습니다. 메타 학습 활용: 메타 학습 기법을 활용하여 모델이 적은 양의 데이터만으로도 새로운 분포에 빠르게 적응할 수 있도록 학습시킬 수 있습니다. 테스트 데이터 활용: 제한적인 경우, 테스트 데이터의 일부를 활용하여 TCA를 fine-tuning 하거나, 테스트 데이터의 특성을 반영하도록 토큰 집중화 과정을 조정할 수 있습니다.

토큰 집중화 기술을 다른 컴퓨터 비전 작업에 적용할 수 있을까요?

네, 토큰 집중화 기술은 이미지 분류 이외의 다른 컴퓨터 비전 작업에도 적용하여 효율성을 높이고 성능을 향상시킬 수 있습니다. 몇 가지 예시는 다음과 같습니다. 객체 감지: 객체 감지 모델에서도 배경 또는 관련 없는 객체에 해당하는 토큰을 가지치기하여 계산량을 줄이고 감지 성능을 향상시킬 수 있습니다. 특히, 복잡한 이미지에서 작은 객체를 감지하거나 실시간 객체 감지가 필요한 경우 유용할 수 있습니다. 영상 분할: 영상 분할 작업에서도 각 토큰이 이미지의 특정 영역을 나타내도록 하여, 중요하지 않은 영역에 해당하는 토큰을 가지치기하거나 병합하여 계산 효율성을 높일 수 있습니다. 이미지 캡셔닝: 이미지 캡셔닝 모델에서도 이미지의 특정 영역을 나타내는 토큰에 집중하여 더 정확하고 간결한 캡션을 생성할 수 있습니다. 비디오 분석: 비디오 분석 작업에서도 시간적, 공간적 토큰 집중화를 통해 중요한 프레임이나 영역에 집중하여 계산 효율성을 높이고 성능을 향상시킬 수 있습니다. 핵심은 토큰 집중화 기술을 각 작업의 특성에 맞게 수정하고 적용하는 것입니다. 예를 들어, 객체 감지에서는 객체의 크기와 위치 정보를 토큰 집중화 과정에 반영해야 하며, 비디오 분석에서는 시간적인 정보를 고려해야 합니다.
0
star