本文提出了一個名為CRITICEVAL的基準,用於全面和可靠地評估大型語言模型(LLM)的批評能力。
為確保全面性,CRITICEVAL從四個維度(反饋、比較、修正和元反饋)評估了9個不同任務場景中的批評能力。它同時評估了定量和文本批評,針對不同質量的回應。
為確保可靠性,大量批評被人工註釋作為參考,使GPT-4能夠可靠地評估文本批評。
對35個開源和封閉源LLM的廣泛評估首先驗證了CRITICEVAL評估的可靠性。然後,實驗結果展示了開源LLM的有希望的潛力,批評數據集的有效性,以及批評能力與一些關鍵因素(任務類型、回應質量和批評維度)之間的一些有趣關係。
這些發現促進了對LLM批評能力的深入理解,並為未來的研究提供了啟發。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询