Conceptos Básicos
LLMの位置情報を含む詳細な引用生成を自動的に評価する新しい手法ALiiCEを提案する。
Resumen
本論文では、LLMの位置情報を含む詳細な引用生成を自動的に評価する新しい手法ALiiCEを提案している。
- 従来の引用生成研究は主に文レベルの引用に限定されていたが、文中のどの位置に引用が現れるかも重要である。
- ALiiCEでは、依存構造解析に基づいて文中の原子的な主張を抽出し、位置情報を含む詳細な引用の再現率、精度、位置のばらつきを評価する。
- 実験では、ASQA、ELI5データセットを用いてGPT-3.5、GPT-4、LLaMA-3-8Bの引用生成性能を評価した。
- 既存のLLMは位置情報を含む詳細な引用生成に限界があることが分かった。ALiiCEは従来の文レベル評価手法よりも厳しい基準で評価することを示した。
- 人間評価の結果、ALiiCEと人間評価の間に強い相関があることが確認された。
- 今後の課題として、引用の論理的関係性の活用、教師あり学習データの構築などが挙げられる。
Estadísticas
文中の引用位置のばらつきを示す指標CVCP(Coefficient of Variation of Citation Positions)は、LLaMA-3-8Bが最も高い値を示した。
引用の再現率と精度について、GPT-3.5 (10-psg)がASQAデータセットで最も高い性能を示した。
ELI5データセットでは、GPT-3.5 (5-psg)が最も高い引用の再現率と精度を示した。
Citas
"既存の研究は主に文レベルの引用に限定されていたが、文中のどの位置に引用が現れるかも重要である。"
"ALiiCEでは、依存構造解析に基づいて文中の原子的な主張を抽出し、位置情報を含む詳細な引用の再現率、精度、位置のばらつきを評価する。"
"実験では、既存のLLMは位置情報を含む詳細な引用生成に限界があることが分かった。"