本論文では、マルチモーダルの大規模モデルを効率的にリモートセンシングタスクに適用するための新しいアルゴリズムを提案している。
まず、大規模なマルチモーダルデータセットをベクトル空間にプロジェクションし、MiniBatchKMeansアルゴリズムを使用して自動クラスタリングを行う。次に、各クラスタ内のデータに対して、元のデータと擾乱データの間のベクトル空間の差分を計算し、これをデータの一般化性能の指標として使用する。この指標に基づいて、高い一般化性能を持つデータを選択して学習に使用する。
提案手法を、InternLM-XComposer2-VL-7Bモデルを使ってGeoChat multimodalデータセットで評価した結果、従来手法と比較して大幅な計算コスト削減と同等の性能を達成できることが示された。具体的には、提案手法は全データの1/3のみを使用して学習を行ったにもかかわらず、UCMercedデータセットで5.43ポイント、AIDデータセットで5.16ポイントの性能向上を実現した。一方で、一般ドメインの性能も維持できることが確認された。
このように、提案手法は大規模マルチモーダルデータセットから高品質なデータを自動的に選択することで、ドメイン固有の性能を最大化しつつ計算コストを大幅に削減できる有効なアプローチであると言える。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yi Ren, Tian... alle arxiv.org 09-23-2024
https://arxiv.org/pdf/2409.13345.pdfDomande più approfondite