Core Concepts
본 연구는 다양한 비디오 인스턴스 분할 데이터셋을 효과적으로 활용하여 분류 정확도를 향상시키는 기법을 제안한다. 제안 모델은 데이터셋 간 분류 공간의 이질성을 해결하기 위해 분류 정보를 쿼리에 주입하는 방식을 사용한다.
Abstract
본 연구는 비디오 인스턴스 분할 문제에서 다중 데이터셋 활용의 한계를 분석하고, 이를 해결하기 위한 새로운 접근법을 제안한다. 기존 방식은 단일 데이터셋으로 학습하거나 단순히 여러 데이터셋을 결합하여 학습하는 방식이었다. 그러나 이는 데이터셋 간 분류 공간의 이질성으로 인해 모델의 주의력이 분산되는 문제가 있었다.
제안하는 TMT-VIS 모델은 이를 해결하기 위해 두 단계의 모듈을 도입한다. 첫째, Taxonomy Compilation Module (TCM)에서는 CLIP 텍스트 인코더를 활용하여 입력 비디오의 분류 정보를 추출한다. 둘째, Taxonomy Injection Module (TIM)에서는 TCM에서 추출한 분류 정보를 쿼리에 주입하여 모델이 원하는 분류에 집중할 수 있도록 한다. 또한 분류 정보 주입을 감독하는 추가 손실 함수를 도입한다.
실험 결과, 제안 모델은 기존 방식 대비 YouTube-VIS 2019, YouTube-VIS 2021, OVIS, UVO 벤치마크에서 각각 3.3%, 4.3%, 5.8%, 3.5%의 AP 성능 향상을 보였다. 이는 제안 기법이 다중 데이터셋 기반 비디오 인스턴스 분할 문제를 효과적으로 해결할 수 있음을 보여준다.
Stats
제안 모델은 기존 Mask2Former-VIS 대비 YouTube-VIS 2019 데이터셋에서 3.3%p, YouTube-VIS 2021 데이터셋에서 4.3%p, OVIS 데이터셋에서 5.8%p, UVO 데이터셋에서 3.5%p의 AP 성능 향상을 보였다.
제안 모델은 VITA 대비 YouTube-VIS 2019 데이터셋에서 2.8%p, YouTube-VIS 2021 데이터셋에서 2.6%p, OVIS 데이터셋에서 5.5%p, UVO 데이터셋에서 3.1%p의 AP 성능 향상을 보였다.
Quotes
"본 연구는 다양한 비디오 인스턴스 분할 데이터셋을 효과적으로 활용하여 분류 정확도를 향상시키는 기법을 제안한다."
"제안 모델은 데이터셋 간 분류 공간의 이질성을 해결하기 위해 분류 정보를 쿼리에 주입하는 방식을 사용한다."