本研究では、LLMを評価者として使用する際の課題に取り組むため、以下の取り組みを行った:
10言語にわたる1000件の要約サンプルからなる高品質なデータセット(METAL)を作成した。これらのサンプルは、GPT-4を用いて生成され、5つの指標(言語的適切性、出力品質、タスク品質、問題のある内容、ホーリュシネーション)に基づいて、母語話者によって評価された。
GPT-3.5-Turbo、GPT-4、PaLM2の3つのLLMを用いて、METALデータセットの要約に対する評価を行い、人間の評価と比較した。
単純な指示と詳細な指示の2つの prompting 戦略を用いて、LLMの評価能力を比較した。
人間の評価と LLMの評価の一致度を分析した結果、GPT-4の詳細な指示が人間の評価に最も近いことが分かった。一方、GPT-3.5-Turboは多言語環境では適切な評価者とは言えない。
LLMの評価理由と人間の評価理由の比較分析から、LLMの評価理由は人間の評価理由と必ずしも一致しないことが明らかになった。
本研究の成果は、LLMを評価者として使用する際の課題を解決し、多言語環境での信頼性の高い自動評価を実現するための重要な知見を提供するものである。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Rishav Hada,... um arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01667.pdfTiefere Fragen