대규모 언어 모델을 활용한 자유형 음성 질문 답변 데이터셋 및 프레임워크 소개
대규모 언어 모델은 다양한 도메인과 과제에서 뛰어난 성능을 보이지만, 음성과 텍스트의 정확한 정렬과 깊은 상호작용이 필요한 음성 질문 답변 과제에서는 여전히 어려움을 겪고 있다. 이 연구에서는 자유형 음성 질문 답변 데이터셋 LibriSQA를 구축하고, 대규모 언어 모델과 음성 특징 추출기를 결합한 경량 엔드-투-엔드 프레임워크를 제안하여 이 과제에서 유의미한 성과를 달성했다.