핵심 개념
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 다양한 세부 수준의 텍스트 주석을 생성하여 기존 VLT 벤치마크의 한계를 해결하고 보다 심층적인 비디오 콘텐츠 이해를 가능하게 하는 새로운 멀티 모달 VLT 벤치마크인 DTVLT를 제안합니다.
초록
DTVLT: LLM 기반 시각적 언어 추적을 위한 다양한 텍스트 기반 멀티 모달 벤치마크
본 논문에서는 시각적 언어 추적(VLT) 작업을 위한 새로운 멀티 모달 벤치마크인 DTVLT(Diverse Text for Visual Language Tracking)를 소개합니다. VLT는 기존의 단일 객체 추적(SOT)에서 벗어나 언어 데이터를 활용하여 멀티 모달 입력을 통해 알고리즘을 향상시키고 비디오 이해 애플리케이션의 범위를 넓히는 첨단 연구 분야입니다.
기존 VLT 벤치마크의 한계
기존의 대부분의 VLT 벤치마크는 각 비디오에 대해 간결하고 사람이 주석을 단 텍스트 설명에 의존합니다. 이러한 설명은 종종 비디오 콘텐츠 역학의 뉘앙스를 포착하지 못하고, 세부 수준과 주석 빈도가 균일하여 언어 스타일의 다양성이 부족합니다. 결과적으로 알고리즘은 비디오 콘텐츠를 더 깊이 이해한다는 핵심 목표에서 벗어나 "답변 암기" 전략에 의존하는 경향이 있습니다.
DTVLT의 주요 특징
DTVLT는 LLM을 활용하여 다양한 의미 주석(텍스트 길이 및 세분성 측면에서)을 생성하여 기존 VLT 벤치마크의 한계를 해결합니다.
1. 다양한 텍스트 기반 벤치마크
DTVLT는 세 가지 하위 작업(단기 추적, 장기 추적, 글로벌 인스턴스 추적)을 포함하여 5개의 주요 VLT 및 SOT 벤치마크를 기반으로 합니다.
2. 다중 세분성 텍스트 제공
DTVLT는 의미 정보의 범위와 밀도를 고려하여 4가지 세분성의 텍스트를 제공합니다. 이는 LLM의 광범위한 지식 기반을 활용하여 풍부한 정보를 제공하는 고품질의 다양한 텍스트를 생성하는 DTLLM-VLT를 통해 달성됩니다.
3. 포괄적인 실험 분석 수행
DTVLT에 대한 포괄적인 실험 분석을 통해 다양한 텍스트가 추적 성능에 미치는 영향을 평가하고 기존 알고리즘의 성능 병목 현상을 파악하여 VLT 및 비디오 이해 연구를 지원합니다.
DTVLT는 LLM을 사용하여 다양한 세분성의 텍스트 정보를 제공하는 최초의 포괄적인 VLT 벤치마크입니다. 이 벤치마크는 VLT 및 비디오 이해 연구를 위한 보다 유연하고 포괄적인 환경을 제공하여 알고리즘의 다중 모달 학습 기능을 향상시키는 데 기여할 것으로 기대됩니다.