核心概念
本文介紹了一個針對台灣華語建構的口語大型語言模型的初始嘗試,該模型旨在實現多輪對話中的即時語音互動,並探討了訓練過程、技術貢獻和評估方法。
摘要
文獻資訊
- 標題:建構台灣華語口語大型語言模型:首次嘗試
- 作者:楊志凱*、傅昱寬*、李承安*、林奕成*、林育翔*、陳韋志*、鍾浩嵐*、官俊伊*、黃偉平*、呂科翰*、林子權*、王旭軒*、胡恩沛*、許展榮†、曾亮軒†、邱奕翔、烏凌桑嘎、陳玄駿、許博淳、楊舒雯、李宏毅
-
- † 表示同等貢獻的第二作者。
研究目標
本研究旨在建構一個能夠進行即時語音對話的台灣華語口語大型語言模型,並探討如何克服訓練和評估此類模型的技術挑戰。
方法
- 模型架構:採用解碼器- only Transformer 架構,並以文字大型語言模型進行初始化。
- 資料準備:使用合成對話資料,並透過語音合成技術將文字對話轉換為語音對話。
- 訓練過程:分為預訓練和監督式微調兩個階段,以訓練模型理解和生成台灣華語語音。
- 評估方法:開發一個平台,用於評估模型在多輪對話中的流暢度和回應一致性。
主要發現
- 研究發現,僅使用真實對話資料訓練口語大型語言模型會導致模型遺忘先前學習到的技能。
- 使用合成對話資料可以有效解決上述問題,並提升模型的對話能力。
- 透過串流技術和模型加速,可以實現接近即時的語音互動。
主要結論
本研究展示了建構台灣華語口語大型語言模型的可行性,並提出了一套有效的訓練和評估方法。
研究意義
- 本研究為台灣華語口語大型語言模型的發展奠定了基礎。
- 研究成果有助於開發更自然、流暢的語音互動系統。
局限與未來研究方向
- 模型的延遲仍然較高,需要進一步優化。
- 目前尚未有標準的評估方法,需要開發更全面的評估指標。
- 未來將探索更先進的語音合成技術,以提升模型的語音品質。
統計資料
40,000 小時的真實語音資料。
24,000 小時的語音資料用於預訓練。
約 100,000 小時的資料用於監督式微調。
模型在單個 Nvidia GeForce RTX 3090 GPU 上每秒可生成約 100 個詞元。
系統最大延遲為 1900 毫秒。
引述
"我們發現,僅使用真實對話資料訓練口語大型語言模型會導致模型遺忘先前學習到的技能。"
"透過串流技術和模型加速,可以實現接近即時的語音互動。"