핵심 개념
인공지능 언어 모델과 인간은 두 가지 유형의 학습 시스템이다. 이들 간의 공통점을 찾거나 촉진하면 언어 습득과 진화에 대한 이해를 크게 높일 수 있다.
초록
이 논문은 인공지능 언어 모델과 인간 간의 언어 진화 및 습득 과정에서의 차이점과 공통점을 살펴본다.
먼저 인공지능 언어 모델에서 초기에 나타나지 않았던 다양한 언어 현상들(Zipf의 약어 법칙, 합성적 구조의 이점, 집단 크기 효과 등)을 소개한다. 이러한 차이점들은 학습 압력의 부재로 인해 발생했으며, 적절한 학습 편향을 도입함으로써 해결할 수 있었다.
구체적으로 네 가지 핵심적인 학습 압력을 확인했다: 1) 성공적인 의사소통, 2) 효율적인 의사소통, 3) 학습 용이성, 4) 기타 심리/사회언어학적 요인. 이러한 압력들은 인간 언어 습득 및 진화에 중요한 역할을 하며, 현재 대규모 언어 모델에는 부족한 부분이다.
따라서 이러한 압력들을 언어 모델에 적절히 도입하면 인간과 더 유사한 언어 습득 및 진화 과정을 모사할 수 있을 것으로 기대된다. 이를 통해 언어 발달 연구에 언어 모델을 더 효과적으로 활용할 수 있을 것이다.
통계
언어 모델은 인간보다 훨씬 더 많은 데이터로 학습한다.
인간은 제한된 기억 용량으로 인해 집단이 커질수록 개별적인 의사소통 방식을 유지하기 어려워진다.
인공지능 언어 모델은 기억 용량의 제약이 없어 개별적인 의사소통 방식을 유지할 수 있다.
인용구
"언어 학습과 언어 진화는 본질적으로 연결되어 있다: 세대 간 전달, 모방, 사용의 반복적인 과정을 통해 언어의 구조가 지속적으로 형성된다."
"인간과 기계 간 의사소통 프로토콜의 차이를 해결하기 위해서는 기억 용량 제약, 생산-이해 대칭성 등 인간의 심리언어학적 특성을 모델에 반영할 필요가 있다."