複数のモーダルデータが共通の潜在変数に基づいて生成されているが、実際の観測データは対応関係がない場合に、実験的な摂動情報を利用して、モーダル間の対応関係を推定する手法を提案する。
マスクされた多モーダル変換器アーキテクチャは、モダリティサンプルが疎に整列している場合でも、頑健な埋め込み空間を学習できることが示された。モーダル欠損チャネルを多頭注意メカニズムに組み込んだモーダルチャネル注意(MCA)と呼ばれる拡張モデルが提案された。CMU-MOSEIとTCGAの2つのデータセットを使用し、ほとんどのサンプルで2つのモダリティしか存在しない場合でも、高品質な埋め込み空間を学習できることが示された。さらに、モーダル欠損がない場合でも、提案のMCAメカニズムにより、生成された埋め込み空間の品質、リコール指標、およびダウンストリームタスクのパフォーマンスが向上することが分かった。
本研究では、多モーダルモデルに対する敵対的攻撃に対する初めての確実な防御手法であるMMCertを提案する。MMCertは、各モダリティの基本要素数の上限を設けることで、多モーダル入力に対する攻撃に対する堅牢性を保証する。