이 연구는 언어 모델이 드문 문법 현상인 영어의 관사+형용사+수사+명사(AANN) 구문("a beautiful five days")을 학습하는 과정을 탐구한다.
주요 발견은 다음과 같다:
언어 모델은 AANN 구문이 전혀 등장하지 않는 훈련 데이터에서도 AANN 구문의 문법성을 상당 수준 학습할 수 있다. 이는 모델이 관련된 다른 구문으로부터 일반화를 수행하기 때문이다.
AANN 구문과 관련된 다른 구문(예: "a few days", "five miles is")을 훈련 데이터에서 제거하면 모델의 AANN 구문 학습 성능이 크게 저하된다. 이는 이러한 관련 구문이 AANN 구문 학습의 "열쇠"가 됨을 보여준다.
AANN 구문의 다양한 어휘 항목을 접하는 것이 모델의 AANN 구문 일반화 능력을 높인다. 이는 인간 언어 학습에서 관찰되는 바와 유사한 패턴이다.
종합적으로 이 연구는 적절한 통계적 학습 메커니즘을 가진 모델이 드문 문법 현상을 더 흔한 관련 현상으로부터 일반화하여 학습할 수 있음을 보여준다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Kanishka Mis... kl. arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19827.pdfDybere Forespørgsler