Core Concepts
WanJuan-CC is a safe and high-quality English webtext dataset derived from Common Crawl, created through a meticulous process to ensure data safety and quality.
Abstract
1. Introduction
Large-scale language models have shown significant advancements.
Scaling Law indicates the need for more data and model parameters.
Webtext data from Common Crawl is crucial for pre-training datasets.
2. Related Work
Webtext datasets like RefinedWeb and Redpajama utilize Common Crawl data.
Comparison of pre-training datasets including WanJuan-CC.
3. Method
Data extraction, heuristic rule filtering, deduplication, safety filtering, and quality filtering process.
4. Result
Removal rate and statistics of WanJuan-CC dataset.
Data safety metrics and data utility metrics.
5. Conclusion
WanJuan-CC provides a safe and high-quality dataset for language model training.
Stats
대략 68 억 개의 원본 영어 문서에서 2.22T 토큰의 안전한 데이터를 추출했습니다.
WanJuan-CC에서 1.0T 토큰의 고품질 데이터를 선택했습니다.
WanJuan-CC의 AUC 값은 다른 데이터셋보다 낮으며 안전성이 높음을 시사합니다.
Quotes
"WanJuan-CC는 Common Crawl에서 파생된 안전하고 고품질의 영어 웹텍스트 데이터셋입니다."
"우리의 데이터셋은 다양한 통계 지표를 계산하여 데이터의 다양한 특성을 이해할 수 있도록 합니다."