Core Concepts
Large language models struggle to perform human-like planning tasks, revealing the need for further research and improvement.
Abstract
最近、大規模言語モデルが計画や実行を行う能力を持っているかどうかに関心が高まっています。しかし、これまでの多くの研究は、LLMsを使用して高レベルな計画を生成することに焦点を当てており、言語的複雑さやドメインの多様性が欠けている単純化されたシナリオに制限されています。PARADISEは、wikiHowからの実用的な手順テキストを使用した推論タスクであるabductive reasoning taskを提案しました。このタスクでは、目標と直接関連する警告/ヒントに焦点を当て、中間ステップ(指示)を除外します。我々の実験は、ファインチューニングされた言語モデルとゼロショットプロンプトを利用して行われ、ほとんどのシナリオでタスク固有の小さなモデルが大きな言語モデルよりも効果的であることを明らかにしました。
Stats
PARADISE dataset contains +104K warnings and tips in total.
Fine-tuned DeBERTa model performs best in both tasks.
Human performance surpasses all models tested.
Mistral 7B outperforms Vicuna 33B and LLaMA-2 70B in both tasks.
GPT-4 is the best-performing large language model.
Quotes
"Despite advancements, all models fall short of human performance."
"Our experiments reveal that PLMs do not possess inherent reasoning skills."
"GPT-4 is the best-performing LLM, while PALM-2 is a close runner-up."