Konsep Inti
웹 크롤링 데이터로 구축한 대규모 단일 언어 코퍼스의 품질에는 상당한 차이가 있으며, 이러한 품질 차이가 언어 모델 성능에는 큰 영향을 미치지 않는다.
Abstrak
이 연구는 현재 가장 널리 사용되는 4개의 대규모 웹 크롤링 코퍼스(CC100, MaCoCu, mC4, OSCAR)를 11개의 저자원 유럽 언어에 대해 평가했다.
먼저 전문 언어학자들이 각 코퍼스의 문단 수준 품질을 평가했다. 그 결과 MaCoCu와 OSCAR 코퍼스가 가장 높은 품질을 보였고, mC4 코퍼스가 가장 낮은 품질을 보였다.
이어서 5개 언어에 대해 각 코퍼스로 언어 모델을 학습시켜 성능을 평가했다. 그 결과 코퍼스 품질과 언어 모델 성능 간에 유의미한 상관관계가 없었다. 오히려 CC100 코퍼스로 학습한 모델이 가장 좋은 성능을 보였다.
결론적으로 웹 크롤링 코퍼스의 품질 차이가 언어 모델 성능에는 큰 영향을 미치지 않는 것으로 나타났다.
Statistik
웹 크롤링 코퍼스 중 mC4가 가장 많은 문단(약 75%)이 잘못된 언어로 구성되어 있었다.
전반적으로 MaCoCu와 OSCAR 코퍼스가 가장 높은 품질의 문단을 포함하고 있었다.
Kutipan
"Large, curated, web-crawled corpora play a vital role in training language models (LMs). They form the lion's share of the training data in virtually all recent LMs, such as the well-known GPT, LLaMA and XLM-RoBERTa models."
"However, despite this importance, relatively little attention has been given to the quality of these corpora."