本文介紹了一個新的基準評估數據集「Emphasized-Talk」,其包含真實對話樣本,並由人工註解強調句子的含義。研究評估了各種開源和商業大型語言模型在理解強調句子含義方面的能力。
結果顯示,商業大型語言模型的表現普遍優於開源模型,但仍有很大的改進空間。此外,本文提出了一種使用GPT-4進行自動評估的方法,與人工評分具有較高的相關性,可以有效地減少人工評估的需求。
總的來說,本研究突出了大型語言模型在理解對話中強調句子含義方面的局限性,並為未來的研究提供了重要的基準和啟示。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések