Zusammenfassung
본 논문에서는 스웨덴어, 덴마크어, 노르웨이어, 아이슬란드어 등 스칸디나비아어로 구성된 1조 개 토큰 규모의 대규모 웹 데이터셋인 SWEb를 소개합니다. 이는 기존의 스칸디나비아어 데이터셋보다 상당히 큰 규모이며, 스칸디나비아어 자연어 처리 연구에 크게 기여할 것으로 기대됩니다.
SWEb는 Common Crawl에서 수집한 웹 페이지에서 텍스트를 추출하고 정제하는 새로운 파이프라인을 사용하여 구축되었습니다. 특히, 본 논문에서는 규칙 기반 접근 방식보다 복잡성을 크게 줄이는 모델 기반 텍스트 추출기를 제안합니다. 연구팀은 1,380개의 웹 페이지에 대해 수동으로 주석을 달아 모델을 학습시켰으며, 이를 통해 웹 페이지에서 주요 콘텐츠를 효과적으로 추출할 수 있었습니다.
또한, 스웨덴어 언어 모델 평가를 위한 새로운 cloze-style 벤치마크인 HP-MEK를 소개합니다. HP-MEK는 스웨덴 대학 입학 시험에 사용되는 Swedish Scholastic Aptitude Test (Högskoleprovet)의 일부입니다. 연구팀은 HP-MEK를 사용하여 SWEb 데이터로 학습된 모델과 FineWeb 데이터로 학습된 모델을 비교한 결과, SWEb 데이터셋이 FineWeb와 비슷한 성능을 보인다는 것을 확인했습니다.
본 논문에서 제안된 SWEb 데이터셋과 모델 기반 텍스트 추출 파이프라인은 스칸디나비아어 자연어 처리 연구에 중요한 자원이 될 것으로 기대됩니다. 특히, 대규모 데이터셋 구축 및 고품질 텍스트 추출 기술 개발에 기여할 수 있을 것으로 예상됩니다.
Zitate
"This paper presents the hitherto largest pretraining dataset for the Scandinavian languages: the Scandinavian WEb (SWEb), comprising over one trillion tokens."
"We also introduce a new cloze-style benchmark for evaluating language models in Swedish, HP-MEK, a subset of the Swedish Scholastic Aptitude Test (Högskoleprovet) used for university admissions in Sweden."
"We propose a new comprehensive pipeline for curating pretraining data for large language models, built around a model-based text extractor that significantly reduces complexity and is easily adaptable through rapid data annotation."
스칸디나비아어 이외의 저자원 언어에 대한 대규모 데이터셋 구축을 위해 SWEb 데이터셋 구축 및 텍스트 추출 기술을 어떻게 적용할 수 있을까요?
모델 기반 텍스트 추출기가 규칙 기반 접근 방식보다 항상 더 나은 성능을 보장할 수 있을까요? 특정 도메인이나 텍스트 유형에 따라 규칙 기반 접근 방식이 더 효과적인 경우는 없을까요?
SWEb 데이터셋을 활용하여 스칸디나비아어 기계 번역, 감성 분석, 텍스트 요약 등 다양한 자연어 처리 작업에서 얼마나 성능 향상을 이끌어낼 수 있을까요?