本論文は、言語モデルが稀な文法現象を学習する過程を調査したものである。主な知見は以下の通り:
言語モデルは、稀な「冠詞+形容詞+数詞+名詞」(AANN)構文を、その構文を一度も見ていなくても、ある程度学習することができる。これは、モデルが関連する他の言語現象から抽象化を行っているためと考えられる。
AANNの学習には、「冠詞+形容詞/数詞」の使用、「少数/数個の+複数名詞」の扱い、「数量名詞+単数動詞」の使用など、AANN以外の関連する言語現象が重要な役割を果たしている。これらの現象を訓練データから除去すると、AANNの学習精度が大きく低下する。
AANNの訓練データに現れる語彙の多様性が高いほど、モデルのAANN生成能力が高くなる。これは、人間の言語習得における一般化の過程と類似している。
以上の結果から、言語モデルは稀な文法現象を、より一般的な関連現象から抽象化することで学習できることが示された。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문