Core Concepts
단일 모델을 통해 다양한 음성 언어 이해 과제를 수행할 수 있으며, 자연어 지침을 활용하여 새로운 과제에 대한 제로샷 일반화 능력을 보인다.
Abstract
이 연구는 단일 다중 과제 학습 모델 "UniverSLU"를 제안한다. UniverSLU는 12가지 음성 분류 및 시퀀스 생성 과제 유형을 다룰 수 있으며, 17개의 데이터셋과 9개 언어를 다룬다.
단일 토큰 과제 지정자를 사용하여 모델을 학습시킨 결과, 대부분의 과제에서 기존 최신 모델을 능가하거나 동등한 성능을 보였다.
자연어 지침을 활용하여 모델을 학습시킨 결과, 기존 최신 모델을 능가하거나 동등한 성능을 보였으며, 새로운 과제 설명에 대한 일반화 능력도 확인되었다.
제로샷 실험에서 모델은 새로운 데이터셋과 언어에 대해 무작위 및 다수 기준선을 능가하는 성능을 보였지만, 완전히 새로운 과제 유형에는 아직 어려움을 겪었다.
Stats
이 모델은 12가지 음성 분류 및 시퀀스 생성 과제 유형을 다룰 수 있다.
17개의 공개 데이터셋과 9개 언어를 다룬다.
Quotes
"단일 모델을 통해 다양한 음성 언어 이해 과제를 수행할 수 있다."
"자연어 지침을 활용하여 새로운 과제에 대한 제로샷 일반화 능력을 보인다."