DINO-Tracker는 단일 동영상에서의 장기적인 밀집 포인트 추적을 위한 새로운 프레임워크입니다. 이 접근법의 핵심은 사전 학습된 DINO-ViT 모델의 강력한 지역화된 의미 특징을 활용하는 것입니다. 구체적으로, 우리의 프레임워크는 동시에 DINO의 특징을 동영상의 움직임 관찰에 맞추어 최적화하고, 이렇게 개선된 특징을 직접 활용하는 추적기를 학습합니다. 이 전체 프레임워크는 자기 지도 손실과 정규화를 통해 엔드-투-엔드로 학습됩니다. 광범위한 평가를 통해 우리의 방법이 기존 기술 대비 최첨단 성능을 달성함을 보여줍니다. 특히 장기 가림 상황에서 두드러진 성능 향상을 보입니다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Narek Tumany... lúc arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14548.pdfYêu cầu sâu hơn