Centrala begrepp
GPST는 구문 분석 트리를 동시에 생성하는 비지도 통사 언어 모델로, 기존 모델의 한계를 극복하고 대규모 데이터에서 사전 훈련이 가능하다.
Sammanfattning
이 논문은 구조화된 사전 훈련 변환기(GPST)라는 비지도 통사 언어 모델을 제안한다. GPST는 두 가지 주요 구성 요소로 이루어져 있다:
- 일반적인 통사 언어 모델(SLM)로, 단방향 언어 모델링 손실로 학습된다.
- 구문 분석 트리를 유도하고 구성 요소 표현을 계산하는 추가 합성 모델, 이는 양방향 언어 모델링 손실로 학습된다.
GPST는 기존 SLM의 한계를 극복하기 위해 다음과 같은 접근법을 사용한다:
- 금 트리에 의존하지 않고 원시 텍스트에서 사전 훈련할 수 있다.
- 구성 요소 표현을 사용하여 생성 모델과 합성 모델을 병렬적으로 학습할 수 있다.
- 구문 분석 트리 유도 시 양방향 피드백을 제공하여 편향을 해결한다.
실험 결과, GPST는 GPT-2와 비교하여 언어 이해, 생성, 비지도 구문 분석 등 다양한 작업에서 우수한 성능을 보였다. 또한 기존 비지도 SLM 대비 약 60배 빠른 학습 속도를 달성했다.
Statistik
9억 개의 토큰으로 구성된 OpenWebText 데이터셋을 사용하여 GPST를 사전 훈련했다.
GPST는 GPT-2 small 및 medium 모델과 유사한 크기를 가진다.
Citat
"인간의 언어 이해는 명시적인 구성 결정을 보여주지만, 변환기 언어 모델은 이러한 재귀적 구성을 암시적이고 얽혀있는 형태로 나타낸다."
"우리는 원시 텍스트에서 사전 훈련된 SLM을 탐구하고자 한다."