大規模言語モデル(LLMs)の合成関係推論能力について、英語を含む多言語で1,500件のテストケースをカバーするベンチマークが提示された。LLMsの人間らしい推論プロセスと比較して、一部のモデルはランダムな推測よりも性能が悪かった。中国語、日本語、フランス語、韓国語への翻訳も含まれており、多様な言語コンテキストでの合成関係推論能力を評価した。GPT-4は他のモデルよりも優れた性能を示し、ZSCアプローチでは6%以上の精度向上が見られた。ただし、GPT-3はランダムな推測と同等の性能しか示さなかった。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jinman Zhao,... at arxiv.org 03-06-2024
https://arxiv.org/pdf/2403.02615.pdfDeeper Inquiries