텍스트 없는 음성 언어 모델(SLM)의 의미론적 이해도를 향상시키기 위해 AI 피드백 기반 강화 학습을 활용한 Align-SLM 프레임워크를 소개합니다.
본 논문에서는 대규모 언어 모델(LLM)에 음성 기능을 효과적으로 통합하는 새로운 음성 언어 모델(SpeechLM)인 VoiceTextBlender를 소개하며, 단일 단계 음성-텍스트 공동 지도 미세 조정 방식을 통해 기존 텍스트 성능을 유지하면서 뛰어난 음성 이해 능력을 달성했습니다.
Ichigo는 음성과 텍스트를 모두 이해하고 처리할 수 있는 새로운 음성 언어 모델로, 빠른 응답 속도와 높은 정확도를 자랑하며, 기존 모델 대비 성능 저하 문제를 개선한 학습 방법을 제시합니다.
fMRI 데이터를 활용한 뇌 조율(brain-tuning)을 통해 음성 언어 모델의 의미 이해 능력을 향상시키고, 이는 다양한 다운스트림 작업 성능 향상으로 이어진다.
대규모 언어 모델 (LLM) 에서 음성 인식 (ASR) 데이터만을 사용하여 지시형 학습 데이터 없이도 텍스트 기반 LLM의 기능을 음성 모달리티로 효과적으로 전이할 수 있는 새로운 훈련 패러다임을 제시한다.