Core Concepts
대규모 오디오-텍스트 데이터를 활용한 대조 학습을 통해 오디오 표현을 학습하고, 특징 융합 및 키워드-캡션 증강 기법을 적용하여 모델 성능을 향상시킨다.
Abstract
이 논문은 대규모 오디오-텍스트 데이터를 활용한 대조 학습 기반 오디오 표현 학습 모델을 제안한다. 주요 내용은 다음과 같다:
LAION-Audio-630K 데이터셋 공개: 633,526개의 오디오-텍스트 쌍으로 구성된 대규모 데이터셋을 공개했다.
대조 언어-오디오 사전 학습 모델 구축: 다양한 오디오 인코더와 텍스트 인코더를 활용하여 대조 학습 기반 모델을 구축했다. 특징 융합 메커니즘과 키워드-캡션 증강 기법을 적용하여 모델 성능을 향상시켰다.
다양한 실험 수행: 텍스트-오디오 검색, 제로샷 오디오 분류, 지도 오디오 분류 등 다양한 실험을 수행했다. 실험 결과, 제안한 모델이 텍스트-오디오 검색 및 오디오 분류 태스크에서 최신 기술 수준을 달성했다.
Stats
오디오 데이터의 총 길이는 4,325.39시간이다.
LAION-Audio-630K 데이터셋은 기존 데이터셋보다 약 10배 이상 크다.
Quotes
"대규모 오디오-텍스트 데이터를 활용한 대조 학습을 통해 오디오 표현을 학습할 수 있다."
"특징 융합 메커니즘과 키워드-캡션 증강 기법을 적용하여 모델 성능을 향상시킬 수 있다."