toplogo
Sign In

WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset


Core Concepts
WanJuan-CC is a safe and high-quality English webtext dataset derived from Common Crawl, created through a meticulous process to ensure data safety and quality.
Abstract

1. Introduction

  • Large-scale language models have shown significant advancements.
  • Scaling Law indicates the need for more data and model parameters.
  • Webtext data from Common Crawl is crucial for pre-training datasets.
    2. Related Work
  • Webtext datasets like RefinedWeb and Redpajama utilize Common Crawl data.
  • Comparison of pre-training datasets including WanJuan-CC.
    3. Method
  • Data extraction, heuristic rule filtering, deduplication, safety filtering, and quality filtering process.
    4. Result
  • Removal rate and statistics of WanJuan-CC dataset.
  • Data safety metrics and data utility metrics.
    5. Conclusion
  • WanJuan-CC provides a safe and high-quality dataset for language model training.
edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Stats
대략 68 억 개의 원본 영어 문서에서 2.22T 토큰의 안전한 데이터를 추출했습니다. WanJuan-CC에서 1.0T 토큰의 고품질 데이터를 선택했습니다. WanJuan-CC의 AUC 값은 다른 데이터셋보다 낮으며 안전성이 높음을 시사합니다.
Quotes
"WanJuan-CC는 Common Crawl에서 파생된 안전하고 고품질의 영어 웹텍스트 데이터셋입니다." "우리의 데이터셋은 다양한 통계 지표를 계산하여 데이터의 다양한 특성을 이해할 수 있도록 합니다."

Key Insights Distilled From

by Jiantao Qiu,... at arxiv.org 03-01-2024

https://arxiv.org/pdf/2402.19282.pdf
WanJuan-CC

Deeper Inquiries

어떻게 WanJuan-CC의 안전성과 품질을 평가했는가?

WanJuan-CC의 안전성과 품질을 평가하기 위해 여러 가지 방법을 사용했습니다. 먼저, Perspective API를 활용하여 다양한 차원에서 데이터의 안전성을 평가했습니다. 이를 통해 WanJuan-CC의 AUC 값이 다른 데이터셋에 비해 낮아 안전성이 높다는 것을 확인했습니다. 또한, 데이터 유틸리티를 평가하기 위해 PPL(Perplexity)을 사용하여 검증 데이터셋에서의 성능을 측정했습니다. 또한, 다양한 다운스트림 작업에서의 정확도를 통해 데이터의 품질을 평가했습니다. 마지막으로, 인간 평가, 품질 신호 평가, 모델 평가를 통해 데이터 품질을 평가하고 최적화하는 과정을 거쳤습니다.

다른 데이터셋과 비교하여 WanJuan-CC의 성능은 어떠한가?

WanJuan-CC는 다른 데이터셋과 비교하여 우수한 성능을 보였습니다. 특히, 다양한 검증 데이터셋에서의 PPL 값이 경쟁력 있었으며, 특히 언어 유창성이 요구되는 검증 세트인 tiny-storys에서 높은 성과를 보였습니다. 또한, 다운스트림 작업에서 WanJuan-CC는 영어 텍스트 완성 및 일반 영어 능력에서 성능을 크게 향상시켰습니다. 이러한 결과는 WanJuan-CC가 다른 데이터셋보다 데이터 품질이 뛰어나다는 것을 보여줍니다.

미래에는 WanJuan-CC를 어떻게 더 다양한 NLP 작업에 적용할 수 있을까?

미래에는 WanJuan-CC를 더 다양한 NLP 작업에 적용할 수 있습니다. 예를 들어, 기계 번역, 감정 분석, 요약, 질문 응답 시스템 등 다양한 자연어 처리 작업에 활용할 수 있습니다. 또한, WanJuan-CC를 활용하여 새로운 언어 모델을 훈련하고 다양한 언어 처리 과제에 적용함으로써 NLP 분야에서의 혁신적인 연구를 이끌어낼 수 있을 것입니다. 이를 통해 WanJuan-CC는 NLP 분야에서의 연구와 응용 프로그램에 큰 기여를 할 수 있을 것으로 기대됩니다.
0
star