Concepts de base
대규모 텍스트 코퍼스의 내용과 품질을 분석하여 중요한 인사이트를 도출합니다.
Stats
RedPajama 및 LAION-2B-en의 문서 중 약 50%가 중복됨을 발견
중복, 합성, 저품질 콘텐츠, 개인 식별 정보, 유해 언어, 벤치마크 오염 등의 결과 발견
Citations
"Large text corpora are the backbone of language models."
"We propose WHAT’S IN MY BIG DATA? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora."