參考資訊: Peng, Y., Puvvada, K. C., Chen, Z., Zelasko, P., Huang, H., Dhawan, K., ... & Ginsburg, B. (2024). VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning. arXiv preprint arXiv:2410.17485.
研究目標: 本研究旨在開發一種名為 VoiceTextBlender 的語音語言模型,該模型能夠在保留大型語言模型 (LLM) 原有文字處理能力的同時,賦予其理解及處理語音的能力。
研究方法: 研究團隊採用單階段聯合語音-文字監督式微調 (SFT) 方法,並結合低秩適配 (LoRA) 技術,對預先訓練好的 LLM 進行微調。具體來說,他們將多輪文字 SFT 數據與三種類型的單輪語音相關 SFT 數據混合使用:多語言語音辨識和翻譯數據、基於語音的問答數據,以及混合模態 SFT 數據。
主要發現: 實驗結果顯示,VoiceTextBlender 在多項語音基準測試中均取得了優異的成績,同時在文字處理基準測試中也保持了與原始 LLM 相當的效能。值得注意的是,VoiceTextBlender 3B 模型在多數評估指標上甚至超越了先前 7B 或 13B 參數的語音語言模型。
主要結論: 本研究證實了單階段聯合語音-文字 SFT 方法的有效性,該方法能夠在簡化訓練流程的同時,有效提升 LLM 的語音理解能力,並保留其原有的文字處理能力。
研究意義: VoiceTextBlender 的開發為構建更强大、更通用的多模態語言模型提供了新的思路,並為語音助手、對話系統等應用領域帶來了新的可能性。
研究限制與未來方向:
未來研究可以朝以下方向發展:
翻譯成其他語言
從原文內容
arxiv.org
深入探究