核心概念
ファインチューニングされたジャッジモデルは、特定のタスクに特化した分類器であり、GPT4を上回る精度を持つものの、汎用性と公平性が不足している。
要約
最近、多くの研究がプロプライエタリなクローズソースモデル(特にGPT4)を使用してLLM(Large Language Model)の品質を評価しています。一方、他の研究では、オープンソースLLMを基にしたファインチューニングされたジャッジモデルを使用しています。本研究では、異なるジャッジモデルによる評価能力について実証的な研究を行っています。結果は、ファインチューニングされたジャッジモデルがドメイン内テストセットで高い精度を達成しているものの、GPT4を大きく下回る汎用性と公平性があることを示唆しています。
統計
GPT 3.5: 正解率73.83%、F1スコア52.85%
GPT 4-0613: 正解率85.28%、F1スコア76.87%
Released Models†: 正解率79.02%、F1スコア71.87%
Vicuna-7B classification‡: 正解率82.16%、F1スコア70.07%
DeBERTa classification‡: 正解率81.30%、F1スコア68.34%
引用
"ファインチューニングされたジャッジモデルは汎用性や公平性が不足しており、GPT4ほど信頼性が高くありません。"
"LLM評価は本質的に分類(または回帰)タスクであります。"
"ファインチューニングされたジャッジモデルは特定の評価方式に過剰適合しています。"