VoiceTextBlender 透過單階段聯合語音-文字監督式微調,在保留大型語言模型原有文字處理能力的同時,賦予其理解及處理語音的能力。
本研究提出了一種名為 SyllableLM 的新型語音語言模型,它利用音節級別的粗粒度語義單元來提高模型效率和語義理解能力。
語音語言模型 (SpeechLM) 作為一種新興的技術,克服了傳統「自動語音識別 (ASR) + 大型語言模型 (LLM) + 文本轉語音 (TTS)」框架的局限性,例如信息丢失和錯誤累積,有望實現更自然、更直觀的人機交互。