この論文では、ICLR 2024で発表された「WHAT’S IN MY BIG DATA?」(WIMBD)というプラットフォームにより、10種類の異なるコーパスが分析されました。これにより、RedPajamaやLAION-2B-enなどのコーパスにおける重複率や個人情報含有量など、興味深い発見が行われました。さらに、GLUEやSuperGLUEなどの評価ベンチマークが汚染されていることも明らかになりました。WIMBDは他のコーパスでも再現可能であり、新しい研究問題に対応するための拡張性があります。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yanai Elazar... في arxiv.org 03-07-2024
https://arxiv.org/pdf/2310.20707.pdfاستفسارات أعمق