本研究では、大規模言語モデルにおける思考連鎖プロンプティングの有効性を検証した。具体的には以下の点を明らかにした:
思考連鎖プロンプティングは、感情や道徳性といった主観的なタスクでは、単純なIn-Context Learningと同程度の低い性能しか発揮しない。
大規模で高性能な言語モデルほど、提示された証拠に関わらず自身の事前知識に基づいて推論を行う傾向が強い。つまり、思考連鎖プロンプティングでも事前知識の影響を強く受ける。
言語モデルが生成する思考連鎖は、入力に対して一定の妥当性を持っているものの、ニュアンスの理解などは不十分である。
以上より、思考連鎖プロンプティングでは主観的なタスクの性能向上には限界があり、事前知識の影響を受けやすいことが明らかになった。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問