大規模言語モデル(LLMs)の合成関係推論能力について、英語を含む多言語で1,500件のテストケースをカバーするベンチマークが提示された。LLMsの人間らしい推論プロセスと比較して、一部のモデルはランダムな推測よりも性能が悪かった。中国語、日本語、フランス語、韓国語への翻訳も含まれており、多様な言語コンテキストでの合成関係推論能力を評価した。GPT-4は他のモデルよりも優れた性能を示し、ZSCアプローチでは6%以上の精度向上が見られた。ただし、GPT-3はランダムな推測と同等の性能しか示さなかった。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询