본 연구 논문에서는 대량의 텍스트 코퍼스로 사전 훈련된 디코더 전용 대형 언어 모델(LLM)이 음성 인식 기능을 위해 음성 입력을 처리하도록 미세 조정될 수 있음을 보여줍니다. 그러나 기존 SpeechLLM은 특히 긴 형식의 스트리밍 오디오 입력을 처리할 때 효율성이 떨어진다는 제한 사항이 있습니다. 훈련 중에 본 오디오 길이를 넘어서는 외삽 성능이 좋지 않을 뿐만 아니라 attention의 2차 비용으로 인해 계산적으로도 비효율적입니다.
이러한 문제를 해결하기 위해 본 논문에서는 스트리밍 음성 인식을 위한 선형 스케일링 디코더 전용 모델인 SpeechLLM-XL(extra long)을 소개합니다. SpeechLLM-XL은 오디오 청킹 메커니즘, 제한된 LLM attention 윈도우 및 CTC 강제 정렬을 활용하여 효율성을 개선합니다.
SpeechLLM-XL은 오디오 인코더와 LLM 디코더의 두 가지 주요 구성 요소로 구성됩니다. 입력 오디오는 고정 길이 청크로 분할되고 각 청크는 개별적으로 처리됩니다. k번째 오디오 청크의 인코딩은 LLM 디코더를 프롬프트하는 데 사용되며, 이 디코더는 EOS(End-Of-Sentence) 토큰이 예측될 때까지 텍스트 토큰을 자동 회귀적으로 생성합니다. 후속 청크(k+1)가 처리될 때 이전 오디오 청크와 디코딩된 토큰은 LLM 컨텍스트 역할을 하여 일관성을 보장합니다.
계산 복잡성을 줄이기 위해 SpeechLLM-XL은 LLM 디코더 내에서 제한된 attention 윈도우를 사용합니다. 즉, 각 청크의 오디오/텍스트 인코딩은 현재 청크 외에 이전 b개 청크만 참조합니다. 이러한 제한된 컨텍스트는 정확성을 크게 저하시키지 않으면서도 특히 긴 오디오 시퀀스에서 attention 연산과 관련된 계산 비용을 효과적으로 줄입니다.
SpeechLLM-XL은 오디오 인코딩과 텍스트 토큰 간의 정렬을 설정하기 위해 CTC 강제 정렬을 사용합니다. 이 정렬은 각 토큰의 종료 시간을 결정하는 데 중요하며 모델이 오디오 및 해당 텍스트 표현 간의 시간적 동기화를 학습할 수 있도록 합니다.
LibriSpeech 데이터 세트에 대한 실험 결과는 SpeechLLM-XL이 긴 형식의 음성 인식 작업에서 기존 SpeechLLM보다 우수한 성능을 발휘한다는 것을 보여줍니다. 특히 SpeechLLM-XL은 다음과 같은 주목할 만한 이점을 보여줍니다.
SpeechLLM-XL은 긴 형식의 스트리밍 음성 인식을 위한 효율적이고 효과적인 접근 방식을 제공합니다. 제한된 attention 윈도우와 CTC 강제 정렬을 활용함으로써 이 모델은 선형 계산 복잡성을 달성하여 긴 오디오 시퀀스를 효율적으로 처리할 수 있습니다. LibriSpeech 데이터 세트에 대한 실험 결과는 SpeechLLM-XL의 효율성과 정확성을 모두 보여주어 실시간 음성 인식 애플리케이션의 유망한 후보가 됩니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Junteng Jia,... lúc arxiv.org 10-08-2024
https://arxiv.org/pdf/2410.03752.pdfYêu cầu sâu hơn