Core Concepts
LLM과 음성 인코더를 결합한 음성 인식 모델의 성능을 중국어 대규모 데이터셋에서 평가하고, 다양한 구성 요소 간 상호작용을 분석하여 최적의 모델 구조를 제시한다.
Abstract
이 연구는 LLM(Large Language Model)과 음성 인코더를 결합한 음성 인식 모델의 성능을 중국어 공개 데이터셋에서 평가하고 분석한다. 주요 내용은 다음과 같다:
음성 인코더로 Whisper와 HuBERT를 비교했으며, Whisper가 더 강건하지만 적응성이 낮은 반면 HuBERT가 더 우수한 성능을 보였다.
프로젝터로 Qformer와 Transformer를 비교했는데, Transformer가 음성 인식 작업에서 더 나은 학습 능력을 보였다.
LLM으로 Atom-7B와 Baichuan2-7B-Chat을 비교했으며, 해당 언어에 대한 LLM의 성능이 높을수록 LLM 통합 음성 인식 시스템의 성능도 향상되었다.
3단계 학습 접근법을 사용하여 음향 모델링 능력과 언어 모델링 능력을 효과적으로 정렬할 수 있었고, AISHELL-1, Test Net, Test Meeting 데이터셋에서 최신 기술 수준을 달성했다.
이 연구는 LLM 기반 음성 인식 연구를 위한 실험적 기반을 제공하고, 중국어 데이터셋을 활용한 성능 최적화에 대한 통찰을 제공한다. 또한 전체 파이프라인의 재현 가능한 레시피와 사전 학습된 모델을 공개할 예정이다.
Stats
11,000시간 이상의 중국어 데이터(WenetSpeech, AISHELL-1, AISHELL-2, AISHELL-4)를 사용하여 학습했다.
9개의 공개 테스트 세트와 2개의 내부 테스트 세트를 사용하여 평가했다.
Quotes
"LLMs have emerged as a formidable force in artificial intelligence, showcasing unparalleled proficiency in understanding and generating human language."
"The advent of LLMs offers a compelling alternative to the language component of ASR, drawing from their superior ability to understand and predict linguistic patterns by scaling up data and parameters."