Core Concepts
LLM(Large Language Models)のパフォーマンスを評価し、計算論議タスクでの能力を明らかにする。
Abstract
計算論議はAI、法律、公共政策など多くの分野で重要なツールとなっている。
LLMは文脈理解や自然言語生成に強い能力を示しており、計算論議タスクでのパフォーマンスを評価する価値がある。
既存タスクを6つの主要カテゴリに整理し、14つのオープンソースデータセットの形式を標準化。
新たな対話生成ベンチマークデータセットを提案し、LLMのエンドツーエンドパフォーマンスを総合的に評価。
Introduction
言葉選びやフレーズが異なっても、GPT-3.5-Turboは参照テキストと意味的に類似したテキストを生成することが示されている。
Tasks and Datasets
議論マイニングや議論生成など多くのタスクが含まれている。
500例ずつランダムサンプリングしてバランスを保って評価。
Experiments
GPT-3.5-Turboは議論生成タスクで既存SOTA手法よりも優れた結果を示す。
ROUGE得点が低くてもBERTScoreが高いことから、GPT-3.5-Turboは意味的な内容を効果的に捉えていることが示唆されている。
Results and Discussion
LLMは少数ショットでも高いパフォーマンスを発揮する傾向がある。
エキストラクティブサマリゼーションではGPT-3.5-Turboが他モデルよりも優れた結果を示す。
Counter Speech Generation
Automatic Evaluation
エンドツーエンドアプローチはサマリゼーションパイプラインアプローチよりも全メトリックで上回っている。
Human Evaluation
人間評価ではエンドツーエンドアプローチが全体的に優れた結果を示しており、情報損失や歪みが影響しない可能性がある。
Stats
LLM(Large Language Models)は文脈理解や自然言語生成に強力な能力を持つことが示されています。