Core Concepts
GPT-4の文章簡略化能力を徹底的に評価し、信頼性を確保するための人間評価フレームワークを提供します。
Abstract
最近の大規模言語モデル(LLMs)の台頭に伴い、文章簡略化におけるGPT-4のパフォーマンスを評価する重要性が高まっています。本研究では、GPT-4が一般的なエラーを少なく生成し、原意を保持しつつも比較的高いフルエンシーとシンプリシティレベルを維持していることが示されています。しかし、GPT-4は語彙の言い換えに苦労しており、自動メトリクスはその全体的な高品質な文章簡略化出力を適切に評価するために十分な感度を持っていません。
Stats
GPT-4はControl-T5よりもエラーが少ない:Turk(300サンプル)で45対114、ASSET(300サンプル)で64対100、Newsela(300サンプル)で73対115。
LENSメトリックはエラー識別に限定的。
BERTScoreは高品質と低品質の区別能力が強い。
Quotes
"結果は、GPT-4が一般的なエラーを少なく生成し、原意を保持しつつも比較的高いフルエンシーとシンプリシティレベルを維持していることが示されています。"
"GPT-4 excels in maintaining the original meaning, whereas Control-T5 often falls short in this dimension."