Główne pojęcia
DINO-Tracker는 사전 학습된 DINO-ViT 모델의 강력한 지역화된 의미 특징을 활용하여, 단일 동영상에서 장기적인 밀집 추적을 수행합니다. 이를 위해 테스트 시간 학습과 특징 최적화를 결합하여, 추적기를 직접적으로 개선된 특징에 맞춰 학습합니다.
Streszczenie
DINO-Tracker는 단일 동영상에서의 장기적인 밀집 포인트 추적을 위한 새로운 프레임워크입니다. 이 접근법의 핵심은 사전 학습된 DINO-ViT 모델의 강력한 지역화된 의미 특징을 활용하는 것입니다. 구체적으로, 우리의 프레임워크는 동시에 DINO의 특징을 동영상의 움직임 관찰에 맞추어 최적화하고, 이렇게 개선된 특징을 직접 활용하는 추적기를 학습합니다. 이 전체 프레임워크는 자기 지도 손실과 정규화를 통해 엔드-투-엔드로 학습됩니다. 광범위한 평가를 통해 우리의 방법이 기존 기술 대비 최첨단 성능을 달성함을 보여줍니다. 특히 장기 가림 상황에서 두드러진 성능 향상을 보입니다.
Statystyki
동영상 내 모든 픽셀의 움직임을 한 번에 최적화하는 접근법은 계산 및 메모리 요구사항이 크다는 한계가 있습니다.
기존 감독 학습 기반 추적기는 합성 데이터셋의 다양성과 규모의 제한으로 인해 자연 동영상의 광범위한 움직임과 객체를 포괄하기 어려웠습니다.
Cytaty
"DINO-Tracker는 사전 학습된 DINO-ViT 모델의 강력한 지역화된 의미 특징을 활용하여, 단일 동영상에서 장기적인 밀집 추적을 수행합니다."
"우리의 프레임워크는 동시에 DINO의 특징을 동영상의 움직임 관찰에 맞추어 최적화하고, 이렇게 개선된 특징을 직접 활용하는 추적기를 학습합니다."