본 연구 논문에서는 대량의 텍스트 코퍼스로 사전 훈련된 디코더 전용 대형 언어 모델(LLM)이 음성 인식 기능을 위해 음성 입력을 처리하도록 미세 조정될 수 있음을 보여줍니다. 그러나 기존 SpeechLLM은 특히 긴 형식의 스트리밍 오디오 입력을 처리할 때 효율성이 떨어진다는 제한 사항이 있습니다. 훈련 중에 본 오디오 길이를 넘어서는 외삽 성능이 좋지 않을 뿐만 아니라 attention의 2차 비용으로 인해 계산적으로도 비효율적입니다.
이러한 문제를 해결하기 위해 본 논문에서는 스트리밍 음성 인식을 위한 선형 스케일링 디코더 전용 모델인 SpeechLLM-XL(extra long)을 소개합니다. SpeechLLM-XL은 오디오 청킹 메커니즘, 제한된 LLM attention 윈도우 및 CTC 강제 정렬을 활용하여 효율성을 개선합니다.
SpeechLLM-XL은 오디오 인코더와 LLM 디코더의 두 가지 주요 구성 요소로 구성됩니다. 입력 오디오는 고정 길이 청크로 분할되고 각 청크는 개별적으로 처리됩니다. k번째 오디오 청크의 인코딩은 LLM 디코더를 프롬프트하는 데 사용되며, 이 디코더는 EOS(End-Of-Sentence) 토큰이 예측될 때까지 텍스트 토큰을 자동 회귀적으로 생성합니다. 후속 청크(k+1)가 처리될 때 이전 오디오 청크와 디코딩된 토큰은 LLM 컨텍스트 역할을 하여 일관성을 보장합니다.
계산 복잡성을 줄이기 위해 SpeechLLM-XL은 LLM 디코더 내에서 제한된 attention 윈도우를 사용합니다. 즉, 각 청크의 오디오/텍스트 인코딩은 현재 청크 외에 이전 b개 청크만 참조합니다. 이러한 제한된 컨텍스트는 정확성을 크게 저하시키지 않으면서도 특히 긴 오디오 시퀀스에서 attention 연산과 관련된 계산 비용을 효과적으로 줄입니다.
SpeechLLM-XL은 오디오 인코딩과 텍스트 토큰 간의 정렬을 설정하기 위해 CTC 강제 정렬을 사용합니다. 이 정렬은 각 토큰의 종료 시간을 결정하는 데 중요하며 모델이 오디오 및 해당 텍스트 표현 간의 시간적 동기화를 학습할 수 있도록 합니다.
LibriSpeech 데이터 세트에 대한 실험 결과는 SpeechLLM-XL이 긴 형식의 음성 인식 작업에서 기존 SpeechLLM보다 우수한 성능을 발휘한다는 것을 보여줍니다. 특히 SpeechLLM-XL은 다음과 같은 주목할 만한 이점을 보여줍니다.
SpeechLLM-XL은 긴 형식의 스트리밍 음성 인식을 위한 효율적이고 효과적인 접근 방식을 제공합니다. 제한된 attention 윈도우와 CTC 강제 정렬을 활용함으로써 이 모델은 선형 계산 복잡성을 달성하여 긴 오디오 시퀀스를 효율적으로 처리할 수 있습니다. LibriSpeech 데이터 세트에 대한 실험 결과는 SpeechLLM-XL의 효율성과 정확성을 모두 보여주어 실시간 음성 인식 애플리케이션의 유망한 후보가 됩니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Junteng Jia,... في arxiv.org 10-08-2024
https://arxiv.org/pdf/2410.03752.pdfاستفسارات أعمق