本文探讨了一种新的无监督大规模语言模型(LLM)评估方法,利用同行评审机制自动测量LLM,无需任何人工反馈。在这种设置中,开源和封闭源LLM都位于同一环境中,能够回答无标签问题并相互评估,每个LLM的响应得分由其他匿名LLM共同决定。
为了获得这些模型之间的能力层次,我们为每个LLM分配一个可学习的能力参数来调整最终排名。我们将其形式化为一个约束优化问题,旨在最大化每个LLM的能力和得分的一致性。背后的关键假设是,高级LLM可以比低级LLM更准确地评估其他人的答案,而高级LLM也可以获得更高的响应得分。
此外,我们提出了三个指标PEN、CIN和LIS来评估与人类排名的对齐程度。在多个数据集上进行实验,验证了所提方法的有效性。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Kun-Peng Nin... : arxiv.org 04-23-2024
https://arxiv.org/pdf/2402.01830.pdfDaha Derin Sorular