核心概念
本稿では、マルチモーダル変分オートエンコーダ(VAE)における各モダリティの統合の重要性を、情報理論を用いて4つの指標を定義することで定量的に評価し、特に視覚モダリティが重要な役割を果たしていることを示した。
要約
マルチモーダルVAEにおけるモダリティ統合の情報理論的分析
本研究は、ロボットの行動制御に用いられるマルチモーダル変分オートエンコーダ(VAE)において、各モダリティ(視覚、触覚、聴覚など)の情報統合の重要性を情報理論的に分析することを目的とする。
対象:iCubヒューマノイドロボットの制御に用いられるマルチモーダルVAE
データセット:ロボットの関節位置、視覚、触覚、音声、モーターコマンドの5つのモダリティデータ(各モダリティは2つの時点t-1, tのデータを含む)
手法:
入力データの一部をミュートしたデータを用いてVAEを学習
全モダリティのデータを入力とした場合と、一部モダリティをミュートした場合の再構成データ間のKLダイバージェンスを計算する4つの指標を定義
上記指標を用いて、各モダリティの情報統合の重要性を定量的に評価
KLコスト重み付けスケジュール:
Constant 1:ELBOをそのまま使用(β=1)
Constant 0:再構成損失のみを使用(β=0)
Dyn. Decr. Plateau 0:βを動的に減少させ、最終的に0で固定
Dyn. Decr. Plateau 1:βを動的に減少させ、最終的に1で固定