核心概念
WanJuan-CC is a safe and high-quality English webtext dataset derived from Common Crawl, created through a meticulous process to ensure data safety and quality.
統計
대략 68 억 개의 원본 영어 문서에서 2.22T 토큰의 안전한 데이터를 추출했습니다.
WanJuan-CC에서 1.0T 토큰의 고품질 데이터를 선택했습니다.
WanJuan-CC의 AUC 값은 다른 데이터셋보다 낮으며 안전성이 높음을 시사합니다.
引用
"WanJuan-CC는 Common Crawl에서 파생된 안전하고 고품질의 영어 웹텍스트 데이터셋입니다."
"우리의 데이터셋은 다양한 통계 지표를 계산하여 데이터의 다양한 특성을 이해할 수 있도록 합니다."