이 논문은 비주얼 모달리티를 사용하지 않고 오디오에서 텍스트를 생성하여 노이즈를 제거하는 방법을 제안합니다. AudioSet 태그로 가이드된 오디오 캡션 모델을 사용하여 대규모 오디오-텍스트 데이터를 부트스트랩합니다. 이를 기반으로 대조적 학습을 통해 오디오-텍스트 바이-인코더를 사전 훈련하고, 이를 후속 작업에 전이시킵니다. 실험 결과는 BLAT의 효과를 입증하며, 제로샷 조건에서 SOTA 성능을 보여줍니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Xuenan Xu,Zh... kl. arxiv.org 03-06-2024
https://arxiv.org/pdf/2303.07902.pdfDybere Forespørgsler