本論文では、マルチモーダル学習における「モダリティの怠惰さ」の問題に取り組むため、Multimodal Learning with Alternating Unimodal Adaptation (MLA)を提案する。
MLA の主なアプローチは以下の通りである:
交互ユニモーダル学習: 従来のマルチモーダル共同最適化プロセスを交互ユニモーダル学習プロセスに変換する。これにより、各モダリティの最適化が相互に干渉されることを防ぐ。
モダリティ間の相互作用の学習: 共有ヘッドを用いて、モダリティ間の相互作用を捕捉する。しかし、この最適化プロセスでは、共有ヘッドが以前学習したモダリティの情報を失う可能性がある(モダリティ忘却)。そこで、勾配修正メカニズムを導入し、モダリティ間の勾配方向の直交化を促すことで、この問題に対処する。
テスト時の動的モダリティ融合: 学習したモダリティ特定のエンコーダーと共有ヘッドを用いて、テスト時にモダリティ毎の予測の不確実性を評価し、それに基づいて動的にモダリティ融合を行う。
MLA は、完全なモダリティを持つ場合や一部のモダリティが欠落している場合の両方に適用可能である。実験の結果、MLA は従来手法を大きく上回る性能を示すことが分かった。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xiaohui Zhan... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.10707.pdfDeeper Inquiries