Core Concepts
기존 언어-오디오 사전 학습 모델의 시간 정보 포착 능력 한계를 극복하기 위해 시간 정보 강화 기법을 제안하고, 이를 통해 다양한 하위 작업에서 성능 향상을 달성하였다.
Abstract
이 논문은 기존 언어-오디오 사전 학습 모델(CLAP)의 시간 정보 포착 능력 한계를 해결하기 위한 T-CLAP 모델을 제안한다.
먼저, 시간 정보를 포함하는 부정적 캡션을 생성하는 두 가지 접근법을 소개한다. 하나는 오디오 클립과 레이블을 혼합하여 시간 순서가 바뀐 캡션을 만드는 것이고, 다른 하나는 대규모 오디오-캡션 데이터셋에 대해 언어 모델을 활용하여 시간 순서가 바뀐 캡션을 생성하는 것이다.
이렇게 생성된 데이터를 활용하여 새로운 시간 정보 중심의 손실 함수를 제안하고, 이를 통해 CLAP 모델을 fine-tuning한다.
실험 결과, T-CLAP 모델은 기존 CLAP 모델 대비 오디오-텍스트 검색, 제로샷 분류, 텍스트-오디오 생성 등 다양한 작업에서 성능 향상을 보였다. 특히 새로 제안한 T-Classify 작업을 통해 T-CLAP이 시간 정보를 효과적으로 포착하고 있음을 확인하였다.
Stats
오디오 클립과 레이블을 혼합하여 시간 순서가 바뀐 캡션을 생성하는 방법을 사용하였다.
대규모 오디오-캡션 데이터셋에 대해 언어 모델을 활용하여 시간 순서가 바뀐 캡션을 생성하였다.
총 2.04M개의 오디오-캡션 쌍을 학습 데이터로 사용하였다.
Quotes
"기존 CLAP 모델은 오디오 내 시간 정보를 효과적으로 포착하지 못하는 한계가 있다."
"T-CLAP은 시간 정보 중심의 손실 함수를 통해 CLAP 모델을 fine-tuning하여 이 문제를 해결하였다."