핵심 개념
비주얼 모달리티를 사용하지 않고 오디오에서 텍스트 생성하여 노이즈 제거
초록
이 논문은 비주얼 모달리티를 사용하지 않고 오디오에서 텍스트를 생성하여 노이즈를 제거하는 방법을 제안합니다. AudioSet 태그로 가이드된 오디오 캡션 모델을 사용하여 대규모 오디오-텍스트 데이터를 부트스트랩합니다. 이를 기반으로 대조적 학습을 통해 오디오-텍스트 바이-인코더를 사전 훈련하고, 이를 후속 작업에 전이시킵니다. 실험 결과는 BLAT의 효과를 입증하며, 제로샷 조건에서 SOTA 성능을 보여줍니다.
INTRODUCTION
- Multi-modal machine learning의 중요성
- 비주얼-언어 사전 훈련의 성공
- 오디오-언어 사전 훈련의 부족
BOOTSTRAPPING LANGUAGE-AUDIO DATA WITH AUDIOSET TAGS
- 현재 오디오-텍스트 데이터셋
- AudioSet에서 오디오-텍스트 데이터 생성
AUDIO-TEXT PRE-TRAINING
- 대조적 사전 훈련 접근 방식
- 오디오 인코더와 텍스트 인코더 아키텍처 소개
EXPERIMENTAL SETUP
- 합성 오디오-텍스트 데이터 생성
- 사전 훈련
- 후속 평가
RESULTS
- 부트스트랩된 오디오-텍스트 데이터의 품질 평가
- 교차 모달리티 오디오-언어 작업 결과
- 단일 모달리티 오디오 분류 결과
통계
대규모 오디오-텍스트 데이터 생성
1.22M 쌍의 부트스트랩된 데이터
BLAT의 성능평가 결과
인용구
"비주얼 모달리티를 사용하지 않고 오디오에서 텍스트 생성하여 노이즈 제거"
"대조적 학습을 통해 오디오-텍스트 바이-인코더를 사전 훈련"
"제로샷 조건에서 SOTA 성능을 보여줍니다"