本研究では、マルチモーダル機械学習における課題に取り組んでいる。マルチモーダル分類モデルは、複数のモダリティ(画像、音声など)の情報を活用できるが、しばしば単一モダリティのモデルに劣る性能しか発揮できない。これは、モデルが特定のモダリティに過度に依存してしまうためである。
本研究では、帰属値に基づく正規化手法を提案することで、この問題に取り組む。具体的には以下の通りである:
実験では、VGGSound、CREMA-Dデータセットを用いて提案手法の有効性を検証する。従来手法との比較を通じて、提案手法がモダリティ支配の抑制と分類精度の向上に寄与することを示す。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania