본 논문은 다중 레이블 원자 활동 인식 문제를 다룬다. 원자 활동은 도로 구조에 기반한 도로 사용자의 운동 패턴을 나타내는 높은 수준의 의미론적 모션 패턴이다.
기존 비디오 수준 모델과 객체 인식 기반 모델은 복잡한 교통 장면에서 개별 원자 활동을 구분하는 데 어려움이 있다.
이에 저자들은 Action-slot이라는 슬롯 어텐션 기반 프레임워크를 제안한다. Action-slot은 각 슬롯을 특정 원자 활동 클래스에 할당하고, 병렬 업데이트 방식과 배경 슬롯, 부정적 클래스 정규화 등의 설계 요소를 통해 비디오에서 다중 원자 활동을 효과적으로 분해하고 표현한다.
또한 저자들은 TACO라는 새로운 데이터셋을 구축하여, 기존 OATS 데이터셋의 불균형한 클래스 분포 문제를 해결하고 다양한 원자 활동 클래스를 포함한다.
실험 결과, Action-slot은 OATS와 TACO 데이터셋에서 기존 방법들을 크게 능가하는 성능을 보인다. 또한 TACO 데이터셋을 통한 사전 학습이 실제 데이터셋의 성능 향상에 도움이 된다는 것을 확인하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chi-Hsi Kung... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2311.17948.pdfDeeper Inquiries