Grunnleggende konsepter
大型語言模型 (LLM) 雖然在流暢度和多樣性方面表現出色,但在個人化和連貫性方面,尤其是在考慮對話上下文和指定人物設定時,仍有很大進步空間。
本文介紹了一個名為 PersoBench 的自動化評測流程,旨在評估大型語言模型 (LLM) 在人物設定對話生成方面的能力。研究人員採用了零樣本學習設定,並使用標準提示和思維鏈 (COT) 提示兩種方式,在三個人物設定對話數據集上對知名的開源和閉源 LLM 進行了評測。評估採用了八種成熟的評估指標,涵蓋流暢度、多樣性、連貫性和個人化四個維度。
研究發現:
現有 LLM 在生成流暢且多樣的回應方面表現出色。
LLM 在生成個人化和連貫的回應方面,尤其是在考慮對話上下文和指定人物設定時,仍有很大進步空間。
開源 LLM 在流暢度和多樣性方面通常無法與閉源模型競爭,但使用 COT 可以顯著提高其個人化和連貫性表現。
Llama3.1 等開源模型在這些領域甚至可以超越經過微調的閉源 LLM。
COT 增加了回應時間,但直接提高了開源和閉源 LLM 的可指示性,這意味著模型能夠更好地遵循指示,特別是在回應生成過程中考慮最大詞元限制時。
研究結論:
LLM 在個人化回應生成方面仍面臨挑戰,需要進一步研究以提高其性能。
未來研究方向可以探索文本以外的人物設定表示形式,例如表格形式的人口統計數據或包含不同媒體類型的多模態設定。
Statistikk
PersoBench 包含來自三個人物設定對話數據集的約 3,600 個樣本。
Llama3.1 比其他開源 LLM 多十億個參數。