Core Concepts
약한 상호보완성이 있는 경우에도 효과적으로 감정을 인식하기 위해 교차 주의 메커니즘을 동적으로 선택하는 모델을 제안한다.
Abstract
이 논문은 오디오와 비주얼 모달리티 간의 상호보완성이 약한 경우에도 효과적으로 감정을 인식할 수 있는 동적 교차 주의(Dynamic Cross-Attention, DCA) 모델을 제안한다.
오디오와 비주얼 모달리티 간의 상호보완성이 강한 경우, 교차 주의 메커니즘을 사용하여 두 모달리티 간의 상호작용을 효과적으로 활용할 수 있다.
그러나 상호보완성이 약한 경우, 교차 주의 메커니즘을 사용하면 오히려 성능이 저하될 수 있다.
이를 해결하기 위해 DCA 모델은 게이팅 레이어를 사용하여 상호보완성의 강도를 평가하고, 이에 따라 교차 주의 특징 또는 비주의 특징을 동적으로 선택한다.
실험 결과, DCA 모델은 RECOLA와 Aff-Wild2 데이터셋에서 기존 교차 주의 기반 모델들보다 우수한 성능을 보였다.
Stats
오디오와 비주얼 모달리티 간의 상호보완성이 강한 경우, 교차 주의 메커니즘은 강한 표정과 음성 표현에 높은 주의 점수를 할당한다.
오디오와 비주얼 모달리티 간의 상호보완성이 약한 경우, 교차 주의 메커니즘은 음성 표현에 낮은 주의 점수를 할당한다.
Quotes
"약한 상호보완성으로 인해 오디오 모달리티의 풍부한 감정 표현이 저하되어 융합된 오디오-비주얼 특징 표현이 저하된다."
"제안된 DCA 모델은 강한 상호보완성과 약한 상호보완성을 모두 처리할 수 있도록 동적으로 교차 주의 특징 또는 비주의 특징을 선택한다."