WanJuan-CC: Ein sicheres und hochwertiges Open-Source-Englisch-Webtext-Datenset
WanJuan-CC ist ein sicheres und hochwertiges Open-Source-Englisch-Webtext-Datenset, das aus Common Crawl-Daten abgeleitet wurde und eine umfassende Verarbeitung durchlaufen hat.