핵심 개념
LoCoNet은 장기 화자 내부 모델링(LIM)과 단기 화자 간 모델링(SIM)을 상호 보완적으로 활용하여 효과적으로 능동적 화자를 탐지한다.
초록
이 논문은 능동적 화자 탐지(ASD) 문제를 해결하기 위해 LoCoNet이라는 새로운 모델을 제안한다. ASD는 비디오 내에서 누가 말하고 있는지 식별하는 작업이다.
LoCoNet은 다음과 같은 두 가지 핵심 구성 요소로 이루어져 있다:
- 장기 화자 내부 모델링(LIM):
- 동일한 화자의 장기적인 시간적 의존성을 모델링하기 위해 자기 주의 메커니즘을 사용한다.
- 오디오-비주얼 상호작용을 모델링하기 위해 교차 주의 메커니즘을 사용한다.
- 단기 화자 간 모델링(SIM):
- 짧은 시간 창 내에서 화자들 간의 상호작용 패턴을 캡처하기 위해 합성곱 블록을 사용한다.
또한 LoCoNet은 오디오 인코더 VGGFrame을 제안하여 오디오 특징을 효과적으로 추출한다. 병렬 추론 전략을 사용하여 빠른 비디오 처리 속도를 달성한다.
실험 결과, LoCoNet은 AVA-ActiveSpeaker 데이터셋에서 95.2% mAP로 최신 기술을 능가하며, Talkies와 Ego4D 데이터셋에서도 우수한 성능을 보였다. 특히 다수의 화자가 등장하는 어려운 시나리오에서 큰 성능 향상을 보였다.
통계
95.2%의 mAP로 AVA-ActiveSpeaker 데이터셋에서 최신 기술을 능가한다.
Talkies 데이터셋에서 97.2%의 mAP를 달성하여 기존 최고 성능 대비 2.7% 향상되었다.
Ego4D 데이터셋에서 68.4%의 mAP를 달성하여 기존 최고 성능 대비 7.7% 향상되었다.
인용구
"LoCoNet은 장기 화자 내부 모델링(LIM)과 단기 화자 간 모델링(SIM)을 상호 보완적으로 활용하여 효과적으로 능동적 화자를 탐지한다."
"LoCoNet은 AVA-ActiveSpeaker 데이터셋에서 95.2% mAP로 최신 기술을 능가하며, Talkies와 Ego4D 데이터셋에서도 우수한 성능을 보였다."