本研究では、大規模言語モデルの構文理解能力を検証するために、表面的には似ているが意味的に異なる3つの構文(感情形容詞句、認知形容詞句、過剰性構文)を用いた実験を行った。
実験の結果、以下のことが明らかになった:
自然言語推論タスクでは、大規模言語モデルは過剰性構文を誤って肯定的に判断する強い傾向がある。一方、感情形容詞句と認知形容詞句については正しく判断できている。
因果関係の有無や因果関係の方向性を判断するタスクでも、大規模言語モデルは十分な性能を発揮できていない。特に、認知形容詞句の場合に大きな誤りが見られた。
文法性判断タスクでは、大規模言語モデルは過剰性構文と他の構文を適切に区別できているが、過剰性構文の文法性を過大評価する傾向がある。
以上の結果から、大規模言語モデルは表面的な言語形式には敏感であるものの、構文の意味的な違いを十分に理解できていないことが示された。特に、因果関係の有無や方向性の理解が不足していることが大きな問題点として指摘された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問