本研究では、長文生成能力を評価するための新しいベンチマーク「金糸を紡ぐ」(Spinning the Golden Thread)を提案している。このベンチマークでは、LLMに対して特定のイベントや制約を含む長文の生成を求め、その指示への準拠度を評価する。
4つのシナリオ(日記、メニュー設計、摩天楼設計、都市計画)を設定し、各シナリオに単一指示、範囲指示、周期指示の3つのタスク設定を組み合わせている。これにより、長文生成タスクの複雑さを反映し、LLMの指示への準拠能力を包括的に評価することができる。
実験の結果、多くのLLMが「金糸を紡ぐ」ベンチマークの課題に満足な成績を収めることができず、長文生成における課題が明らかになった。特に、出力長が増加するにつれ、LLMの指示への準拠度が大幅に低下することが示された。これは、現在のLLMが長文生成において重要な課題を抱えていることを示唆している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuhao Wu, Mi... lúc arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.02076.pdfYêu cầu sâu hơn