Core Concepts
대규모 언어 모델은 그들이 생성하는 단어와 문장을 의미 있게 사용하고 있다. 이는 언어적 의도성의 기준을 충족하기 때문이다.
Abstract
이 논문은 대규모 언어 모델(LLM)이 의미 있게 언어를 사용하고 있는지에 대한 문제를 다룹니다.
먼저 저자는 LLM의 구조와 이론적 배경인 분포 의미론을 설명합니다. LLM은 단어의 분포 패턴을 학습하여 통계적으로 타당한 텍스트를 생성할 수 있습니다. 이에 대한 회의적인 견해는 LLM이 단순히 단어 예측 기계에 불과하다고 주장합니다.
그러나 저자는 LLM이 단어 의미에 대한 정보를 학습할 수 있다고 반박합니다. 단어 유추 실험과 언어 특성 탐침 실험 결과는 LLM이 단어의 의미적 특성을 인코딩하고 있음을 보여줍니다. 따라서 LLM의 출력이 단순히 통계적으로 타당한 것만은 아니며, 일정 수준의 의미 정보를 포함하고 있다고 볼 수 있습니다.
이어서 저자는 정신 메타의미론과 언어 메타의미론의 구분을 설명합니다. 정신 메타의미론은 인지 상태의 의미 속성을 다루지만, 언어 메타의미론은 언어 표현의 의미 속성을 다룹니다. 저자는 LLM에 대한 이해를 위해 언어 메타의미론에 주목할 필요가 있다고 주장합니다.
마지막으로 저자는 Evans의 명명 관행 이론과 Millikan의 목적론적 의미론을 적용하여, LLM의 출력이 의미 있는 언어 사용이라고 주장합니다. 이 두 이론은 언어적 의도성이 사전에 존재하는 의미 체계에 의존한다는 점을 강조합니다. 따라서 LLM도 이러한 의미 체계를 활용하여 의미 있는 언어를 생성할 수 있습니다.
Stats
"단어 벡터는 단어의 의미적 특성을 인코딩하고 있다."
"LLM은 통사적 범주, 구문 구조, 의미역 레이블링 등의 언어 특성을 인코딩하고 있다."
Quotes
"LLM은 단순히 다음 단어를 예측하는 기계가 아니라, 언어 사용에 필요한 다양한 의미 정보를 학습하고 있다."
"언어적 의도성은 사전에 존재하는 의미 체계에 의존한다."