本研究では、マスクされた多モーダル変換器アーキテクチャの性能を、モダリティの欠損に対する頑健性の観点から評価している。提案するモーダルチャネル注意(MCA)は、多頭注意メカニズムにモーダル欠損チャネルを組み込むことで、モーダリティが疎に整列したデータセットでも高品質な埋め込み空間を生成できることを示している。
具体的には以下の知見が得られた:
CMU-MOSEIとTCGAの4つのモダリティを持つデータセットを用いて実験を行った。モーダル欠損率が40%まで(平均2.4モダリティ/サンプル)、両モデルは高品質な埋め込み空間を学習できることが示された。
MCАは一般的に、生成された埋め込み空間の品質、リコール指標、ダウンストリームタスクのパフォーマンスを向上させる。
モーダル欠損率が40%を超えると、両モデルの融合埋め込み空間の一様性が低下し、ユニモーダル埋め込み空間の一様性も低下する。しかし、アラインメントはほとんど変化しない。
線形プローブによる評価では、MCАがMMAよりも優れた性能を示す。特に、TCGAのがんタイプ分類タスクでは、モーダル欠損率の増加に伴い、MCАの優位性が高まる。一方、CMU-MOSEIの感情分析回帰タスクでは、モーダル欠損率の増加に伴い、両モデルの性能が近づく。
以上より、提案のMCAは、モーダリティが疎に整列したデータセットでも高品質な埋め込み空間を生成でき、ダウンストリームタスクでの性能も向上させることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Josiah Bjorg... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20280.pdfDeeper Inquiries