SALMONN은 사전 훈련된 텍스트 기반 대규모 언어 모델과 음성 및 오디오 인코더를 통합하여 단일 다중 모달 모델을 구축함으로써 대규모 언어 모델이 일반적인 오디오 입력을 직접 처리하고 이해할 수 있도록 한다.