MINT-1Tは、オープンソースの大規模マルチモーダルモデルの開発に不可欠な、これまでで最大規模かつ最も多様なマルチモーダルデータセットである。従来のオープンソースデータセットに比べ、MINT-1Tは10倍の規模を持ち、HTMLドキュメントに加えPDFやArXivなどの新しいソースからデータを収集している。
データ収集の過程では、大規模化に伴う多くの技術的課題に取り組み、テキストの品質フィルタリング、重複除去、安全性確保などの工夫を行っている。
実験の結果、MINT-1Tで事前学習したモデルは、これまでの最良のオープンソースデータセットであるOBELICSで学習したモデルと同等以上の性能を示した。特に、科学技術分野のタスクでの性能が向上しており、PDFやArXivからのデータ収集が有効であったことが示唆される。
MINT-1Tの公開により、オープンソースのマルチモーダルモデル開発が大きく前進することが期待される。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Anas Awadall... pada arxiv.org 09-23-2024
https://arxiv.org/pdf/2406.11271.pdfPertanyaan yang Lebih Dalam