本文提出了一種名為DeSTA2的方法,用於開發指令跟隨式語音語言模型(SLM)。該方法包括以下兩個創新點:
利用文本語言模型生成包含豐富語音元信息的語音-文本對數據,最小化了文本與原有語言模型之間的差異。這使模型能夠專注於學習語音信息,而不需要應對特定任務格式或標注偏差。
採用單一提示"你能從音頻中聽到什麼?"進行數據構建和模型訓練,大幅減少了對特定任務標注的需求。
通過這種方法,DeSTA2在Dynamic-SUPERB和AIR-Bench-Chat基準測試中取得了優秀的性能,超越了之前依賴大量指令調整數據的模型。此外,DeSTA2還保留了原始文本語言模型的高級推理能力,如遵循複雜指令和進行連鎖思維推理。這突出了本方法相比以往方法的重大優勢。
翻譯成其他語言
從原文內容
arxiv.org
深入探究