本文对大型语言模型在效用判断方面的能力进行了全面研究。主要包括以下几个方面:
实验发现,经过适当指导,大型语言模型能够区分相关性和效用,并且对生成的对抗性文本更加敏感。
不同的大型语言模型在效用判断方面表现存在差异,ChatGPT表现最为出色。模型规模的扩大也能带来效用判断能力的提升。采用listwise的输入形式可以获得更好的效用判断性能。但大型语言模型对输入文本顺序也存在一定敏感性。
将大型语言模型作为零样本效用判断器或相关性判断器,在生成答案方面优于直接使用密集检索结果。当使用大型语言模型判断的效用证据时,问答性能最佳。为了减少大型语言模型对输入文本顺序的依赖,提出了一种k-sampling的listwise方法,可以更好地支持后续的答案生成。但与仅使用ground-truth证据相比,仍存在一定差距。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問