本研究は、言語モデルの役割演技能力を評価するための新しいベンチマークを提案している。従来のベンチマークは単一のターンの対話しか評価できず、また、ベンチマークデータの事前学習モデルへの漏洩が問題となっていた。
提案するベンチマークでは、3つの主要な要素から構成される:
この設定により、動的で多ターンの対話を自動的に生成・評価することができる。また、複数のjudgeモデルを平均することで、個別モデルの偏りを軽減している。
実験では、提案手法とヒト評価の相関が高いことを示し、ベンチマークの有効性を検証した。さらに、複数の言語モデルファミリーを評価し、ランキングを提示している。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen