Core Concepts
Mamba 모델은 비디오 이해 분야에서 기존 Transformer 모델을 대체할 수 있는 유망한 대안으로 나타났다. 본 연구에서는 Mamba 모델의 4가지 역할을 정의하고, 12개의 비디오 이해 과제에 걸쳐 14개의 Mamba 기반 모델/모듈을 평가하였다. 실험 결과, Mamba는 뛰어난 성능과 효율성-성능 트레이드오프를 보여주며, 비디오 분석 작업에 적합한 것으로 나타났다.
Abstract
본 연구는 Mamba 모델을 비디오 이해 분야에 적용하여 그 가능성을 종합적으로 평가하였다.
-
Mamba 모델의 4가지 역할 정의:
- 시간 모델
- 시간 모듈
- 멀티모달 상호작용 모델
- 시공간 시퀀스 모델
-
12개의 비디오 이해 과제에 걸쳐 14개의 Mamba 기반 모델/모듈 평가
- 시간적 동작 위치 추정, 시간적 동작 분할, 밀집 비디오 캡셔닝, 비디오 문단 캡셔닝, 동작 예측 등
-
Mamba 모델이 Transformer 모델 대비 뛰어난 성능과 효율성-성능 트레이드오프 달성
- 시간적 동작 위치 추정, 시간적 동작 분할 등의 과제에서 Mamba 모델이 우수한 성능 발휘
- 긴 비디오 처리 시 Mamba 모델의 효율성 우위 확인
-
Mamba 모델의 비디오 이해 적용 가능성 입증
- 다양한 비디오 이해 과제에서 Mamba 모델의 강점 확인
- 향후 복잡한 멀티모달 비디오 이해 과제에 Mamba 모델 적용 가능성 시사
Stats
시간적 동작 위치 추정 HACS Segment 데이터셋에서 Mamba 기반 모델의 평균 mAP가 44.56으로 Transformer 모델 대비 1.22 향상되었다.
시간적 동작 분할 GTEA 데이터셋에서 Mamba 기반 모델의 F1@50 점수가 79.7로 Transformer 모델 대비 2.7 향상되었다.
비디오 문단 캡셔닝 ActivityNet 데이터셋에서 Mamba 기반 모델의 CIDEr 점수가 14.43으로 Transformer 모델 대비 1.31 향상되었다.
Quotes
"Mamba 모델은 비디오 이해 분야에서 Transformer 모델을 대체할 수 있는 유망한 대안으로 나타났다."
"Mamba 모델은 뛰어난 성능과 효율성-성능 트레이드오프를 보여주며, 비디오 분석 작업에 적합한 것으로 확인되었다."