核心概念
본 논문에서는 퓨샷 액션 인식을 위해 비디오 레벨에서 태스크 레벨까지 시공간적 관계를 학습하는 새로운 듀얼 모션 기반 어텐션 학습(DMGAL) 방법을 제안합니다.
要約
퓨샷 액션 인식을 위한 모션 기반 어텐션을 통한 비디오-투-태스크 학습
본 논문에서는 적은 수의 라벨링된 샘플만으로 새로운 액션 클래스를 인식하는 퓨샷 액션 인식 문제를 다룹니다. 특히, 비디오 레벨에서 태스크 레벨까지 시공간적 관계를 효과적으로 학습하여 퓨샷 액션 인식 성능을 향상시키는 데 중점을 둡니다.
저자들은 듀얼 모션 기반 어텐션 학습(DMGAL)이라는 새로운 방법을 제안합니다. DMGAL은 비디오 레벨에서 시공간적 관계 모델링을 수행하는 Self Motion-Guided Attention (S-MGA) 모듈과 태스크 레벨에서 시공간적 관계 모델링을 수행하는 Cross Motion-Guided Attention (C-MGA) 모듈로 구성됩니다.
S-MGA (Self Motion-Guided Attention)
S-MGA는 비디오 내에서 모션과 관련된 영역 특징을 식별하고 연관시켜 비디오 레벨에서 시공간적 관계를 학습합니다. 양방향 및 다중 스케일 모션 특징을 활용하여 모션 관련 자기 연관 점수 행렬을 학습하고, 이를 통해 비디오 내에서 가장 모션과 관련된 영역 특징의 관련성을 명시적으로 나타냅니다.
C-MGA (Cross Motion-Guided Attention)
C-MGA는 태스크 내의 여러 비디오에서 모션 관련 영역 특징을 식별하고 연관시켜 태스크 레벨에서 시공간적 관계를 학습합니다. S-MGA와 마찬가지로 양방향 및 다중 스케일 모션 특징을 사용하지만, C-MGA는 전체 태스크의 모션 특징을 추출하여 여러 개의 모션 관련 교차 연관 점수 행렬을 학습합니다. 이러한 행렬은 태스크 내에서 가장 모션과 관련된 영역 특징의 관련성을 나타내며, 프레임 단위로 계산되어 계산 부하를 줄이고 퓨샷 시나리오에서 지나치게 sparse한 시공간적 correspondence를 학습하는 어려움을 완화합니다.
저자들은 DMGAL의 효율성과 효과를 검증하기 위해 완전 미세 조정(fully fine-tuning) 및 어댑터 조정(adapter-tuning) 패러다임을 사용하여 두 가지 모델인 DMGAL-FT 및 DMGAL-Adapter를 개발했습니다.
DMGAL-FT
DMGAL-FT는 기존의 퓨샷 액션 인식 방법을 따르는 완전 미세 조정 패러다임을 위해 특별히 설계되었습니다. ImageNet에서 사전 훈련된 ResNet-50을 특징 추출기로 사용하고, S-MGA 및 C-MGA를 통해 비디오 레벨에서 태스크 레벨까지 시공간적 관계를 통합하는 클래스 프로토타입을 구성합니다.
DMGAL-Adapter
DMGAL-Adapter는 어댑터 조정 패러다임을 위해 설계되었습니다. 사전 훈련된 CLIP-VIT 모델에 S-MGA 및 C-MGA를 어댑터로 연결하고 모델을 고정하여 매개변수 효율적인 방식으로 시공간적 특징을 학습합니다.