Core Concepts
VimTS는 다양한 작업 간의 시너지를 활용하여 텍스트 스포팅 모델의 일반화 능력을 향상시킨다.
Abstract
이 논문에서는 VimTS라는 새로운 방법을 소개한다. VimTS는 이미지와 비디오 시나리오 모두에서 효과적으로 작동할 수 있는 다중 작업 모델로 변환할 수 있다. 구체적으로 VimTS는 Prompt Queries Generation Module과 Tasks-aware Adapter를 제안한다. PQGM은 다양한 작업 간의 명시적인 상호작용을 촉진하고, Task-aware Adapter는 각 작업에 적합한 특징을 동적으로 학습할 수 있게 한다. 또한 VimTS는 CoDeF 알고리즘을 활용하여 VTD-368k라는 합성 비디오 텍스트 데이터셋을 구축하였다. 이를 통해 VimTS는 이미지 수준 데이터를 활용하여 비디오 수준 크로스 도메인 적응을 달성할 수 있다. 실험 결과, VimTS는 6개의 크로스 도메인 벤치마크에서 평균 2.6% 향상된 성능을 보였다. 또한 비디오 수준 크로스 도메인 적응에서도 이전 최신 방법보다 MOTA 지표에서 평균 5.5% 향상된 성능을 달성했다.
Stats
6개의 크로스 도메인 벤치마크에서 평균 2.6% 향상된 성능을 보였다.
비디오 수준 크로스 도메인 적응에서 이전 최신 방법보다 MOTA 지표에서 평균 5.5% 향상된 성능을 달성했다.
Quotes
"VimTS는 다양한 작업 간의 시너지를 활용하여 텍스트 스포팅 모델의 일반화 능력을 향상시킨다."
"VimTS는 PQGM과 Task-aware Adapter를 통해 이미지와 비디오 시나리오 모두에서 효과적으로 작동할 수 있는 다중 작업 모델로 변환할 수 있다."
"VimTS는 CoDeF 알고리즘을 활용하여 VTD-368k라는 합성 비디오 텍스트 데이터셋을 구축하였다."