핵심 개념
본 논문에서는 음성 질문에 대한 응답으로 텍스트와 음성을 동시에 생성하여 지연 시간을 줄이는 LLM 기반 음성 대화 시스템 PSLM을 제안합니다.
초록
PSLM: 저지연 음성 대화 시스템을 위한 텍스트 및 음성의 병렬 생성
본 연구에서는 음성 대화 시스템에서 응답 생성 지연 시간을 줄이기 위해 텍스트와 음성을 병렬로 생성할 수 있는 LLM(Large Language Model) 기반 시스템인 PSLM(Parallel Speech Language Model)을 제안합니다.
PSLM은 사전 훈련된 디코더 전용 트랜스포머를 기반으로 하며, 텍스트 및 음성 토큰을 처리하기 위해 새로운 입력 임베딩 및 출력 투사 레이어를 추가합니다. 텍스트와 음성 토큰의 임베딩은 트랜스포머 레이어에 입력되기 전에 합산되며, 최종 트랜스포머 레이어의 숨겨진 특징은 두 개의 출력 투사 레이어로 전달되어 다음 텍스트 및 음성 토큰의 로짓을 계산합니다.
본 연구에서는 음성 토큰의 효율적인 생성을 위해 여러 개의 음성 스트림을 도입하고, 스트리밍 추론을 위해 HiFi-GAN을 사용합니다.