이 논문은 능동적 화자 탐지(ASD) 문제를 해결하기 위해 LoCoNet이라는 새로운 모델을 제안한다. ASD는 비디오 내에서 누가 말하고 있는지 식별하는 작업이다.
LoCoNet은 다음과 같은 두 가지 핵심 구성 요소로 이루어져 있다:
또한 LoCoNet은 오디오 인코더 VGGFrame을 제안하여 오디오 특징을 효과적으로 추출한다. 병렬 추론 전략을 사용하여 빠른 비디오 처리 속도를 달성한다.
실험 결과, LoCoNet은 AVA-ActiveSpeaker 데이터셋에서 95.2% mAP로 최신 기술을 능가하며, Talkies와 Ego4D 데이터셋에서도 우수한 성능을 보였다. 특히 다수의 화자가 등장하는 어려운 시나리오에서 큰 성능 향상을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xizi Wang,Fe... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2301.08237.pdfDeeper Inquiries