Conceitos Básicos
現代の大規模言語モデルは、複雑な条件下での推論と組み合わせ的な問題解決において重大な課題を抱えている。
Resumo
本論文は、複合的な推論能力と条件的推論能力を評価するための新しいベンチマーク「GroundCocoa」を提案している。GroundCocoa は、航空券予約の文脈で複雑な利用者の要求を表現し、言語モデルがそれらの要求を満たす適切な航空券オプションを選択する能力を測定する。
主な知見は以下の通り:
現代の最先端言語モデルの精度は大きく異なり、ランダムな推測よりわずかに良い程度から最大67%までと幅広い。GPT-4 Turboが最も優れた性能を示したが、条件的推論は依然として大きな課題である。
「Chain of Thought」プロンプティングは一部の場合で性能向上に寄与するが、個々のステップの複雑性が高まるにつれ、モデルの能力は急速に低下する。
非典型的な利用者要求を含むサンプルでは、GPT-4 Turboの精度が最大6%低下し、事前学習時のバイアスが示唆される。
全体として、GroundCocoa は現代の言語モデルにとって重大な課題を提示しており、複合的・条件的推論能力の評価と改善に役立つと考えられる。
Estatísticas
航空券価格が12,400円未満かつ500円未満である必要がある。
航空券価格が1,800円以上である必要がある。
航空券の平均炭素排出量を上回る必要がある。
Citações
「現代の最先端言語モデルは、複雑な条件下での推論と組み合わせ的な問題解決において重大な課題を抱えている。」
「GPT-4 Turboの精度が最大6%低下し、事前学習時のバイアスが示唆される。」