LoCoNet은 장기 화자 내부 모델링(LIM)과 단기 화자 간 모델링(SIM)을 상호 보완적으로 활용하여 효과적으로 능동적 화자를 탐지한다.
사전 학습된 AV-HuBERT 모델을 활용하고 마스크-복구 전략을 제안하여 오디오-비주얼 목표 화자 음성 추출 성능을 향상시킴