이 연구는 대규모 언어 모델(LLM)의 멀티모달 과제, 특히 음성과 텍스트의 정확한 정렬과 깊은 상호작용이 필요한 음성 질문 답변(SQA) 과제에 대한 한계를 해결하고자 한다.
연구진은 다음과 같은 기여를 했다:
자유형 및 개방형 질문-답변 쌍으로 구성된 LibriSQA 데이터셋을 소개했다. 이는 기존 SQA 데이터셋과 달리 LLM에 최적화된 것이다.
음성 특징 추출기와 LLM을 결합한 경량 엔드-투-엔드 프레임워크를 제안했다. 이를 통해 외부 자동 음성 인식(ASR) 모듈에 의존하지 않고도 음성 정보를 독립적으로 해석하고 처리할 수 있다.
실험 결과, 제안한 프레임워크는 ASR 및 SQA 과제에서 우수한 성능을 보였다. 이는 LLM의 음성-텍스트 정렬 및 이해 능력 향상을 시사하며, 범용 멀티모달 LLM 발전에 기여할 것으로 기대된다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zihan Zhao,Y... lúc arxiv.org 04-19-2024
https://arxiv.org/pdf/2308.10390.pdfYêu cầu sâu hơn