Core Concepts
LLMsは暗号クロスワードの解決において、人間と比べてまだ限界がある。
Abstract
暗号クロスワードは一般的な知識だけでなく、言語を操り、さまざまな種類の言葉遊びに対処する能力が必要。
現在のNLPモデルは人間のパフォーマンスから遠く、LLMsもこのタスクで苦戦している。
LLaMA2、Mistral、ChatGPTの3つの人気LLMのパフォーマンスが示されており、人間と比べてまだ遠いことが明らかになっている。
暗号クロスワードは非常に複雑なタスクであり、LLMsがこれをうまく行えるかどうかは未解決の問題である。
モデルはゼロショット学習やフューショット学習を通じて少しずつタスクを学んでおり、性能向上が見られる。
ただし、現在のLLMsは依然として人間レベルに到達していない。
Quotes
"Language model beheads little confused Alma (5)" - LLaMa