この論文では、ICLR 2024で発表された「WHAT’S IN MY BIG DATA?」(WIMBD)というプラットフォームにより、10種類の異なるコーパスが分析されました。これにより、RedPajamaやLAION-2B-enなどのコーパスにおける重複率や個人情報含有量など、興味深い発見が行われました。さらに、GLUEやSuperGLUEなどの評価ベンチマークが汚染されていることも明らかになりました。WIMBDは他のコーパスでも再現可能であり、新しい研究問題に対応するための拡張性があります。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yanai Elazar... lúc arxiv.org 03-07-2024
https://arxiv.org/pdf/2310.20707.pdfYêu cầu sâu hơn