SUN 팀은 ABAW 2024 대회에 참여하여 오디오-비주얼 감정 인식 문제를 해결하기 위한 딥러닝 기반 접근법을 제안했다.
오디오 모달리티의 경우, 공개 차원 감정 모델(PDEM)을 기반으로 한 3가지 모델을 개발했다. 이 모델들은 데이터 증강, 배경 소음 제거 등의 기법을 활용하여 성능을 향상시켰다.
비주얼 모달리티의 경우, 정적 모델(EfficientNet, ViT)과 동적 모델(Transformer 기반)을 개발했다. 정적 모델은 사전 학습 데이터셋과 AffWild2 데이터셋에서 fine-tuning되었고, 동적 모델은 정적 모델의 특징을 활용하여 시간적 맥락을 모델링했다.
오디오와 비주얼 모달리티의 결과를 결합하기 위해 의사결정 기반 융합 기법(Dirichlet 기반 가중치 융합, 랜덤 포레스트 기반 융합)을 시도했다. 이를 통해 개별 모달리티 모델들의 성능을 향상시킬 수 있었다.
실험 결과, 제안된 접근법은 AffWild2 데이터셋에서 경쟁력 있는 성능을 보였다. 특히 동적 비주얼 모델이 우수한 성능을 달성했다. 하지만 오디오-비주얼 융합 모델의 성능이 개별 모달리티 모델을 완전히 능가하지는 못했다.
향후 연구에서는 배경 소리, 참여자의 자세 및 제스처, 언어학적 정보 등 추가적인 컨텍스트 정보를 활용하는 새로운 융합 전략을 탐구할 계획이다. 이를 통해 인간-컴퓨터 상호작용 향상 및 자연스러운 환경에서의 컴퓨터 시스템 및 로봇 활용 등에 기여할 수 있을 것으로 기대된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Denis Dresvy... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12609.pdfDeeper Inquiries