מושגי ליבה
マルチモーダル学習における、異なるモダリティ間の学習の不均衡を解消するために、動的に各モダリティの最適化を制御するオンザフライ変調手法を提案する。
תקציר
マルチモーダル学習における不均衡問題への取り組み
本論文は、マルチモーダル学習における、異なるモダリティ(音声、視覚、テキストなど)間で学習の進捗状況に差が生じる問題に取り組んでいます。
マルチモーダル学習は、複数のモダリティからの情報を統合することで、単一モダリティの学習を超える性能を発揮することが期待されています。しかし、従来のマルチモーダル学習では、すべてのモダリティに対して統一的な学習目標を設定する「ジョイントトレーニング」戦略が広く採用されてきました。この戦略では、モダリティ間で識別能力に差がある場合、識別能力の高いモダリティが学習を支配し、他のモダリティの学習が不十分になるという問題点がありました。
本論文では、この問題を解決するために、学習中にモダリティ間の識別能力の差異を監視し、各モダリティの最適化を動的に制御する2つのオンザフライ変調手法、OPM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)を提案しています。
OPM (On-the-fly Prediction Modulation)
OPMは、フォワードパスにおいて、識別能力の高いモダリティの特徴量を動的に決定される確率でドロップアウトすることで、識別能力の低いモダリティの学習を促進します。
OGM (On-the-fly Gradient Modulation)
OGMは、バックプロパゲーションにおいて、識別能力の高いモダリティの勾配を動的に軽減することで、識別能力の低いモダリティの学習を促進します。また、勾配の軽減によってモデルの汎化性能が低下する可能性を考慮し、追加のガウシアンノイズを導入することで汎化性能の維持・向上を図っています。