Core Concepts
기존 오디오 이해 데이터셋은 단일 대화 형식에 국한되어 있어 대화형 상호작용을 통한 오디오 이해에 한계가 있었다. 이를 해결하기 위해 다양한 오디오와 음악에 대한 163.8k 개의 다중 대화 데이터셋인 "오디오 대화"를 제안한다.
Abstract
이 논문에서는 오디오와 음악 이해를 위한 다중 대화 데이터셋인 "오디오 대화"를 소개한다. 기존 오디오 이해 데이터셋은 단일 대화 형식에 국한되어 있어 대화형 상호작용을 통한 오디오 이해에 한계가 있었다.
"오디오 대화"는 다음과 같은 특징을 가진다:
163.8k개의 다중 대화 데이터셋으로, 일반 오디오 사운드와 음악을 포함한다.
단일 오디오에 대한 대화뿐만 아니라 여러 오디오를 비교하는 질문-답변 쌍도 포함한다.
기존 데이터셋의 캡션 주석을 활용하고 대화 생성을 위한 프롬프트 기반 접근법을 사용하여 데이터를 생성했다.
생성된 데이터에 대한 필터링 전략을 적용하여 데이터 품질을 향상시켰다.
이 데이터셋을 통해 오디오 기반 대화형 모델의 성능을 평가하고 향상시킬 수 있을 것으로 기대된다.
Stats
오디오 대화 데이터셋의 평균 대화 길이는 2.21라운드이다.
AudioSet 대화 부분은 훈련 데이터 76,642개, 테스트 데이터 1,442개로 구성된다.
음악 대화 부분은 훈련 데이터 3,358개, 테스트 데이터 1,641개로 구성된다.
AudioSet 비교 부분은 훈련 데이터 64,085개, 테스트 데이터 16,249개로 구성되며, 평균 3개의 오디오 샘플을 입력으로 사용한다.