本研究では、命令チューニングされた大規模言語モデル(IT-LLM)と、ベースの大規模言語モデル(base LLM)の、人間の読解行動のシミュレーション能力を比較した。
具体的には以下の点が明らかになった:
IT-LLMは、ベースのLLMよりも人間の読解行動の予測力が低い場合が多い。命令チューニングは必ずしも人間らしさを高めるわけではない。
プロンプティングを用いることで、IT-LLMの人間の読解行動の予測力を向上させることができる。特に、文法的・語彙的に単純なプロンプトが効果的である。これは、人間の「良い加減な処理」を反映しているかもしれない。
メタ言語的なプロンプティングは、直接の確率測定よりも人間の読解行動の予測力が低い。LLMは自身の出力確率を正確に認識できていないようだ。
全体として、命令チューニングやプロンプティングの最新の進歩にもかかわらず、単純な確率測定がまだ人間の読解行動をよりよく模擬できることが示された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Tatsuki Kuri... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2311.07484.pdfDomande più approfondite