LLMを評価者として使用する際の課題を解決するため、10言語にわたる1000件の要約サンプルからなる高品質なデータセットを作成し、GPT-3.5-Turbo、GPT-4、PaLM2の評価能力を比較・分析した。