核心概念
本文提出了一個基於提示的框架,利用先進的大型語言模型(LLM)生成腳本扮演對話資料集,並評估這些模型的腳本扮演效能。
摘要
基於提示的腳本扮演框架:資料生成與效能評估
這篇研究論文探討如何利用大型語言模型 (LLM) 來增強腳本扮演的效能。作者提出了一個基於提示的框架,利用先進的 LLM(如 GPT-4)來生成腳本扮演對話資料集,並評估這些模型的腳本扮演效能。
研究目標:
- 解決現有開源 LLM 在腳本扮演任務中表現不如預期,以及手動收集和構建腳本資料成本高昂的問題。
- 提出一個基於提示的框架,利用 GPT-4 生成腳本扮演對話資料集,並評估模型的腳本扮演效能。
方法:
- 資料生成:
- 利用 GPT-4o 生成腳本扮演對話資料集,分為三個步驟:
- **情節建構:**設計提示,引導 GPT-4o 從原始故事中提取與目標角色相關的情節。
- **問題生成:**根據生成的情節,設計提示,引導 GPT-4o 提出與目標角色和故事背景高度相關的問題。
- **答案生成:**利用 GPT-4o 的腳本扮演能力,設計提示,引導 GPT-4o 以目標角色的身份回答問題,並模仿角色的說話風格和語氣。
- 模型微調:
- 使用 LoRA 微調技術,將生成的資料集用於微調兩個開源 LLM:Baichuan2 和 ChatGLM2。
- 效能評估:
- 使用兩種評估方法:
- **Rouge-L 評估:**使用 Rouge-L 指標測量模型生成文本與 GPT-4o 生成文本之間的重疊程度,評估微調後模型的效能提升。
- **GPT-4o 評估:**設計提示,引導 GPT-4o 從三個維度(角色特徵、任務回應和生成品質)評估模型的腳本扮演效能,並對模型進行排名。
主要發現:
- 使用不同提示生成的資料集都能提升 LLM 在腳本扮演任務中的效能,微調後的模型在 Rouge-L 指標上都取得了更高的分數。
- 引導模型解釋其輸出可以提升其腳本扮演對話能力,而僅僅依靠上下文學習則效果有限。
- Baichuan2 相比 ChatGLM3 具有更強的腳本扮演能力,但微調仍然是必要的,可以引導模型生成更符合角色特徵的輸出。
研究意義:
- 本文提出的基於提示的框架為提升 LLM 的腳本扮演能力提供了一種簡單而靈活的方法。
- 研究結果表明,通過設計有效的提示,可以引導 LLM 生成更高品質的腳本扮演對話資料集,從而提升模型的腳本扮演效能。
研究限制和未來方向:
- 本文僅使用了兩個開源 LLM 進行實驗,未來可以使用更多不同規模和架構的 LLM 進行更全面的評估。
- 未來可以探索更先進的提示工程技術,以進一步提升 LLM 的腳本扮演能力。
統計資料
使用四個不同的人物,每個人物生成約 75 個問題,總共 300 個對話。
訓練和驗證資料集的比例約為 5:1。
使用 LoRA 方法對模型進行 10 個 epoch 的微調。
微調的超參數設定:學習率 = 2e-4,批次大小 = 4,梯度累積步數 = 1。
引述
“現有開源 LLM 在腳本扮演任務中表現不如最先進的封閉源 LLM,例如 GPT。”
“手動收集和構建每個角色的腳本可能成本高昂。”
“通過提供提示中所需輸出的一些示例,LLM 可以從示例中學習並生成與所提供模式一致的輸出。”
“SOTA LLM 已證明在執行多維度和個性化評估文本生成任務方面具有顯著能力,而無需額外訓練。”