Core Concepts
マルチモーダル大規模言語モデルを活用し、画像とラベルの視覚言語の不整合を検出することで、様々なタイプの汚れたデータサンプルを効果的に検出する。
Abstract
本論文では、データの質を高めるための万能なデータクレンザーVDCを提案している。VDCは、マルチモーダル大規模言語モデルの優れた cross-modal 整合性と推論能力を活用し、画像とラベルの視覚言語の不整合を検出することで、汚れたデータサンプルを効果的に検出する。
VDCは以下の3つのモジュールから構成される:
視覚質問生成モジュール: 画像に関する一般的な質問と、ラベルに特化した質問を生成する。
視覚質問回答モジュール: マルチモーダル大規模言語モデルを用いて、生成された質問に対する回答を得る。
視覚回答評価モジュール: 画像とラベルの意味的整合性を評価し、不整合なサンプルを検出する。
実験結果から、VDCは毒素付加サンプルや ノイズラベルなど、様々なタイプの汚れたサンプルを一貫して高い精度で検出できることが示された。また、ハイブリッドな汚れたデータセットにおいても、他手法に比べ優れた性能を発揮した。さらに、検出後のデータセットを用いて学習したモデルも、高い性能と堅牢性を示した。
Stats
毒素付加サンプルの検出率は平均99.91%と非常に高い。
ノイズラベルの検出率は、対称ノイズで94.79%、非対称ノイズで92.34%と高い。
ハイブリッドな汚れたデータセットにおいても、平均検出率は99.41%と優れている。