Concepts de base
大規模なテキストコーパスの内容を明らかにするためのWIMBDフレームワークを提案し、複数の分析を通じて興味深い洞察を得る。
Résumé
この論文では、ICLR 2024で発表された「WHAT’S IN MY BIG DATA?」(WIMBD)というプラットフォームにより、10種類の異なるコーパスが分析されました。これにより、RedPajamaやLAION-2B-enなどのコーパスにおける重複率や個人情報含有量など、興味深い発見が行われました。さらに、GLUEやSuperGLUEなどの評価ベンチマークが汚染されていることも明らかになりました。WIMBDは他のコーパスでも再現可能であり、新しい研究問題に対応するための拡張性があります。
Stats
RedPajamaとLAION-2B-enのドキュメントの約50%が重複しています。
mC4-enでは電子メールアドレス約2億件、電話番号約40億件、IPアドレス約9700万件が見つかりました。
Citations
"Data is one of the most poorly understood and studied components in ML research since 'everyone wants to do the model work, not the data work'".
"Models are only capable of learning from the data they were trained on, but analysis of pretraining corpora is hindered by lack of public release and by their massive size".