核心概念
長文生成タスクにおいて、現在のLLMは指示に従って一貫性のある長文を生成することが困難である。
要約
本研究では、長文生成能力を評価するための新しいベンチマーク「金糸を紡ぐ」(Spinning the Golden Thread)を提案している。このベンチマークでは、LLMに対して特定のイベントや制約を含む長文の生成を求め、その指示への準拠度を評価する。
4つのシナリオ(日記、メニュー設計、摩天楼設計、都市計画)を設定し、各シナリオに単一指示、範囲指示、周期指示の3つのタスク設定を組み合わせている。これにより、長文生成タスクの複雑さを反映し、LLMの指示への準拠能力を包括的に評価することができる。
実験の結果、多くのLLMが「金糸を紡ぐ」ベンチマークの課題に満足な成績を収めることができず、長文生成における課題が明らかになった。特に、出力長が増加するにつれ、LLMの指示への準拠度が大幅に低下することが示された。これは、現在のLLMが長文生成において重要な課題を抱えていることを示唆している。
統計
出力長が増加するにつれ、LLMの指示への準拠度が大幅に低下する
単一指示や範囲指示への準拠度は比較的高いが、周期指示への準拠度は低い
引用
"長文生成タスクは重要であるが、その評価には大きな課題がある。従来の評価手法では長文への対応が不十分であり、LLMを用いた評価にも限界がある。"
"本研究で提案する「金糸を紡ぐ」ベンチマークは、長文生成タスクにおけるLLMの指示への準拠度を包括的に評価することができる。"