Core Concepts
マルチモーダル分類モデルにおいて、単一モダリティの支配を抑制し、全モダリティの情報を効果的に活用するための帰属正規化手法を提案する。
Abstract
本研究では、マルチモーダル機械学習における課題に取り組んでいる。マルチモーダル分類モデルは、複数のモダリティ(画像、音声など)の情報を活用できるが、しばしば単一モダリティのモデルに劣る性能しか発揮できない。これは、モデルが特定のモダリティに過度に依存してしまうためである。
本研究では、帰属値に基づく正規化手法を提案することで、この問題に取り組む。具体的には以下の通りである:
各モダリティの重要度を表す帰属値を計算する。
目標の帰属値比率に基づいて正規化項を定義し、モデルの学習時に追加する。
これにより、モデルが全モダリティの情報を効果的に活用するよう誘導する。
実験では、VGGSound、CREMA-Dデータセットを用いて提案手法の有効性を検証する。従来手法との比較を通じて、提案手法がモダリティ支配の抑制と分類精度の向上に寄与することを示す。
Stats
ビデオ分類タスクにおいて、単一モダリティモデルの精度は以下の通り:
音声のみ: mAP 40.18%, 精度 38.89%
映像のみ: mAP 25.51%, 精度 25.76%
一方、ナイーブなマルチモーダル融合モデルの精度は以下の通り:
mAP 44.82%, 精度 42.2%
音声の寄与が74%、映像の寄与が26%