この調査は、MLMMの歴史的背景と標準的なマルチモーダル学習設定との違いを紹介し、その後、現在のMLMM手法、アプリケーション、およびデータセットの詳細な分析を行い、最後に、この分野における課題と潜在的な将来の方向性について議論する。
マルチモーダル学習は、視覚、テキスト、聴覚、センサー情報などのさまざまなデータタイプを統合および分析することに焦点を当てる重要な分野である。この手法は、環境との理解と相互作用のために複数の感覚を組み合わせる人間の能力を反映している。現代のマルチモーダルモデルは、深層学習の堅牢な一般化機能を活用して、ユニモーダルシステムでは検出できない複雑なパターンと関係性を明らかにしている。この機能は、コンピュータービジョンを含む複数の分野での取り組みを前進させている。
ただし、マルチモーダルシステムは、現実世界のアプリケーションでは、欠落または不完全なデータに直面することがよくある。これは、センサーの故障、ハードウェアの制限、プライバシーの懸念、環境干渉、データ伝送の問題などの要因によって発生する。欠損モダリティの問題は、データ収集から展開までのあらゆる段階で発生する可能性があり、モデルのパフォーマンスに大きな影響を及ぼす。
この調査では、モダリティの拡張、特徴空間の設計、アーキテクチャの設計、およびモデル選択の4つの主要な側面から、既存の深層学習MLMM手法を分類および議論する。さらに、さまざまなドメインにおけるMLMMのアプリケーションシナリオと対応するデータセットを要約する。最後に、この分野の未解決の課題と将来の方向性について議論する。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor