Core Concepts
大規模言語モデルは、原則的な推論を行うことができないが、近似検索に優れており、計画や推論に支援的役割を果たす可能性がある。
Abstract
大規模言語モデル(LLMs)は、ウェブスケールの言語コーパスで訓練されたn-gramモデルであり、近似検索を行うことが得意。しかし、厳密な推論や計画には適していない。LLMsはアイデア生成に優れており、その能力は「LLM-Modulo」フレームワークで利用可能。一方で、自己検証では性能が低下し、正確な解決策を生成することが困難。人間の介入によるプロンプトも影響を受ける。
LLMsは計画知識の抽出に優れており、外部検証者や専門家の協力を得て問題解決に活用可能。ただし、外部検証者による確認が必要。これらの特性から、「LLM-Modulo」フレームワークは重要な方法論として浮上している。
Stats
GPT3.5は約3001グラムの言語モデルである。
GPT4はBlocks Worldで30%の経験的精度を達成した。
Quotes
"大規模言語モデル(LLMs)はゼロショットタスクへの対応能力を持つ" - 著者
"自己検証パフォーマンスが悪化する" - 研究所からの報告
"LLMsは近似タスク関連知識を提供する際に現代AIと見なされる" - 著者