Conceitos Básicos
본 연구는 비디오 프레임과 오디오 세그먼트의 특징을 추출하고, 시공간적 상관관계와 장기 의존성을 학습하는 다중 모달 융합 모델을 제안한다. 이를 통해 실시간 정서 상태 추정의 정확도와 일반화 성능을 향상시킨다.
Resumo
본 연구는 ABAW6 대회의 정서 상태 추정 과제를 해결하기 위한 접근법을 제시한다. 주요 내용은 다음과 같다:
- 비디오 프레임과 오디오 세그먼트에서 시각 및 청각 특징을 추출하기 위해 사전 학습된 백본 모델을 활용한다.
- 시간 합성곱 신경망(TCN)을 사용하여 시공간적 상관관계를 학습하고, 변환기 인코더 구조를 통해 장기 의존성을 포착한다.
- 다중 모달 데이터 융합 접근법을 통해 시각 및 청각 특징을 통합하고, 이를 활용하여 정서 상태(정서가, 각성도)를 추정한다.
- 대규모 교차 검증을 통해 모델의 일반화 성능을 향상시키고, 실험 결과를 통해 제안 방법의 효과를 입증한다.
Estatísticas
비디오 프레임과 오디오 세그먼트에서 추출한 특징의 차원은 각각 512, 128, 39이다.
제안 모델은 AffWild2 데이터셋을 활용하여 6-fold 교차 검증을 수행하였다.
Citações
"본 연구는 비디오 프레임과 오디오 세그먼트의 특징을 추출하고, 시공간적 상관관계와 장기 의존성을 학습하는 다중 모달 융합 모델을 제안한다."
"다중 모달 데이터 융합 접근법을 통해 시각 및 청각 특징을 통합하고, 이를 활용하여 정서 상태(정서가, 각성도)를 추정한다."