本文提出了一個新的基準測試框架,用於評估語言模型的角色扮演能力。該框架包括三個主要組件:扮演特定角色的玩家模型、模擬用戶行為的審問者模型,以及評估對話質量的裁判模型。
作者進行了實驗,將自動評估與人工註釋進行了對比,證明了該方法的有效性。這項工作為在互動場景中對模型能力進行健壯和動態的評估奠定了基礎。
作者首先介紹了角色定義,包括玩家、審問者和裁判三種角色。然後描述了兩個版本的基準測試框架。第一個版本將審問者和裁判合併為一個實體,第二個版本將其分開,並採用多模型評估的方法。
實驗部分包括:1) 與人工註釋的相關性分析,證明自動評估與人工評估高度相關;2) 在一組語言模型上進行自動評估,生成排行榜。
作者討論了該框架的局限性,包括樣本量小、單一註釋者等,並指出未來可以通過增加樣本量、多註釋者等方式來提高可靠性。
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות