Kernekoncepter
최근 오디오-텍스트 모델링 발전에도 불구하고, 오디오-텍스트 대조 모델은 이미지-텍스트 모델에 비해 규모와 성능이 뒤처지고 있다. 우리는 오디오-텍스트 대조 모델의 규모와 학습을 개선하는 방법을 제안한다.
Resumé
이 논문에서는 오디오-텍스트 대조 모델의 규모와 성능을 향상시키기 위한 방법을 제안한다.
대규모 오디오-텍스트 데이터셋 구축:
사전 훈련된 언어 모델을 사용하여 노이즈가 있는 텍스트 설명을 처리하고, 자동 캡셔닝을 통해 레이블이 없는 오디오 샘플에 대한 텍스트 설명을 얻음.
총 13,000시간의 텍스트 레이블 오디오로 구성된 대규모 데이터셋 구축.
두 단계 학습 접근:
첫 번째 단계에서는 마스크 자동 인코더(MAE) 목적으로 오디오 전용 데이터를 사용하여 오디오 인코더를 사전 학습.
두 번째 단계에서는 첫 번째 단계의 오디오 인코더를 초기화하고, 대조 및 캡셔닝 목적으로 합성 텍스트-오디오 쌍을 사용하여 모델을 학습.
다양한 평가 작업을 통한 모델 성능 검증:
오디오-텍스트 검색, 오디오 질문 답변, 제로샷 분류, HEAR 벤치마크, 오디오 캡셔닝 등의 작업에서 평가.
제안한 모델인 카코포니가 오디오-텍스트 검색 작업에서 최신 성능을 달성하고, 다른 작업에서도 경쟁력 있는 결과를 보임.
Statistik
제안된 데이터셋에는 총 13,000시간의 텍스트 레이블 오디오가 포함되어 있다.
데이터셋은 깨끗한 레이블 데이터, 노이즈가 있는 레이블 데이터, 약한 레이블/무레이블 데이터로 구성된다.
Citater
"최근 오디오-텍스트 모델링 발전에도 불구하고, 오디오-텍스트 대조 모델은 이미지-텍스트 모델에 비해 규모와 성능이 뒤처지고 있다."
"우리는 오디오-텍스트 대조 모델의 규모와 학습을 개선하는 방법을 제안한다."