Kernkonzepte
본 논문에서는 제한된 데이터 환경에서 합성 스토리 데이터를 활용한 언어 모델 사전 훈련의 효과를 연구하고, TinyStories 데이터셋과 GPT-Neo 모델을 사용하여 데이터 증강을 통해 언어 모델의 성능 향상 가능성을 실험적으로 검증했습니다.
Zusammenfassung
BERTtime Stories: 제한된 데이터 환경에서 합성 스토리 데이터를 활용한 언어 사전 훈련 연구
본 연구는 인간의 언어 발달 과정에서 영감을 받아 제한된 데이터 환경에서 언어 모델의 사전 훈련 효율성을 높이는 것을 목표로 합니다. 특히, 합성 스토리 데이터를 활용한 데이터 증강 기법이 언어 모델의 성능에 미치는 영향을 실험적으로 분석합니다.
본 연구에서는 TinyStories 데이터셋을 사용하여 GPT-Neo 디코더 모델을 훈련하고, 이를 통해 생성된 합성 스토리 데이터를 사용하여 LTG-BERT 인코더 모델을 사전 훈련합니다.
데이터셋
TinyStories: GPT3.5-4를 사용하여 생성된 단편 스토리들의 합성 데이터셋으로, 간단한 언어와 제한된 어휘를 사용합니다.
BabyLM: 아동의 언어 발달 과정을 모방하기 위해 만들어진 데이터셋으로, 아동 도서, 대화, 아동 지향적 발화, 위키피디아 문서 등 다양한 텍스트를 포함합니다.
데이터 생성
TinyStories 데이터셋의 크기를 다양하게 조절하여 GPT-Neo 모델을 훈련하고, 생성 성능과 언어 능력을 평가합니다.
TinyStories 데이터셋의 일부를 사용하여 GPT-Neo 모델을 훈련하고, 훈련된 모델을 사용하여 스토리의 일부를 잘라낸 후 나머지 부분에 대한 대체 문장을 생성합니다.
생성된 데이터셋과 TinyStories 데이터셋의 일부, 그리고 BabyLM 데이터셋의 일부를 합쳐 최종 데이터셋을 구성합니다.
모델 훈련 및 평가
최종 데이터셋을 사용하여 LTG-BERT 인코더 모델을 훈련합니다.
훈련된 모델의 성능을 평가하기 위해 BLiMP, (Super)GLUE, EWoK 벤치마크를 사용합니다.
GPT-Neo 디코더 모델의 생성 성능을 평가하기 위해 BLiMP, EWoK, Self-BLEU, LLM 기반 평가를 사용합니다.