核心概念
本手法は、従来のマルチモーダル学習における共同最適化プロセスを交互ユニモーダル学習プロセスに変換することで、モダリティ間の干渉を最小限に抑え、同時にモダリティ間の相互作用を捕捉する。
要約
本論文では、マルチモーダル学習における「モダリティの怠惰さ」の問題に取り組むため、Multimodal Learning with Alternating Unimodal Adaptation (MLA)を提案する。
MLA の主なアプローチは以下の通りである:
交互ユニモーダル学習: 従来のマルチモーダル共同最適化プロセスを交互ユニモーダル学習プロセスに変換する。これにより、各モダリティの最適化が相互に干渉されることを防ぐ。
モダリティ間の相互作用の学習: 共有ヘッドを用いて、モダリティ間の相互作用を捕捉する。しかし、この最適化プロセスでは、共有ヘッドが以前学習したモダリティの情報を失う可能性がある(モダリティ忘却)。そこで、勾配修正メカニズムを導入し、モダリティ間の勾配方向の直交化を促すことで、この問題に対処する。
テスト時の動的モダリティ融合: 学習したモダリティ特定のエンコーダーと共有ヘッドを用いて、テスト時にモダリティ毎の予測の不確実性を評価し、それに基づいて動的にモダリティ融合を行う。
MLA は、完全なモダリティを持つ場合や一部のモダリティが欠落している場合の両方に適用可能である。実験の結果、MLA は従来手法を大きく上回る性能を示すことが分かった。
統計
各モダリティの予測の不確実性(エントロピー)が高いほど、その予測の重要度が低くなる。
各モダリティの予測の不確実性(エントロピー)は、Softmax(出力ロジット)を用いて計算する。
引用
本手法は、従来のマルチモーダル共同最適化プロセスを交互ユニモーダル学習プロセスに変換することで、モダリティ間の干渉を最小限に抑えている。
共有ヘッドの最適化プロセスにおいて、勾配修正メカニズムを導入することで、以前学習したモダリティの情報を保持している。
テスト時の動的モダリティ融合では、各モダリティの予測の不確実性に基づいて重要度を割り当てることで、効果的にマルチモーダル情報を統合している。