Core Concepts
大規模言語モデル(LLMs)の創造的問題解決能力を探る。
Abstract
MACGYVERデータセットを使用して、LLMsと人間の問題解決能力を比較し、LLMsの失敗モードを明らかにする。さらに、新しいプロンプティング戦略がLLMsの問題解決能力を向上させることを提案。
創造的問題解決に焦点を当てた新しいベンチマークであるMACGYVERデータセットが紹介される。
LLMsは物理的な行動や道具の適応性に関する理解不足から生じる一般的なエラーモードが示される。
新しいプロンプティング戦略がLLMsの問題解決能力を改善することが示唆される。
Stats
MACGYVERは1,600以上の現実世界の問題から成るデータセットである。
82%以上の問題は道具を非伝統的に使用してバイアスを排除する必要がある。
GPT-4は物理的に実現不可能な行動や不要な行動を提案する傾向がある。
Quotes
"Take the cotton towel and roll it up tightly to form a cylindrical shape!"
"Strengthen the pipe with duct tape. Use the reinforced pipe as a lever."
"Use the bottle of wine as a makeshift rolling pin!"