이 연구는 현재 가장 널리 사용되는 4개의 대규모 웹 크롤링 코퍼스(CC100, MaCoCu, mC4, OSCAR)를 11개의 저자원 유럽 언어에 대해 평가했다.
먼저 전문 언어학자들이 각 코퍼스의 문단 수준 품질을 평가했다. 그 결과 MaCoCu와 OSCAR 코퍼스가 가장 높은 품질을 보였고, mC4 코퍼스가 가장 낮은 품질을 보였다.
이어서 5개 언어에 대해 각 코퍼스로 언어 모델을 학습시켜 성능을 평가했다. 그 결과 코퍼스 품질과 언어 모델 성능 간에 유의미한 상관관계가 없었다. 오히려 CC100 코퍼스로 학습한 모델이 가장 좋은 성능을 보였다.
결론적으로 웹 크롤링 코퍼스의 품질 차이가 언어 모델 성능에는 큰 영향을 미치지 않는 것으로 나타났다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Rik ... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08693.pdfYêu cầu sâu hơn