本稿では、任意の数のモダリティからの表現学習を可能にする、適応的なグラフ構築を用いた新しいマルチモーダル対照学習フレームワーク「AutoBIND」を提案する。
マルチモーダル対照学習では、単一のモーダリティ間の冗長な情報のみを学習するのではなく、モーダリティ間の固有の情報やシナジー情報も同時に学習する必要がある。本研究では、CoMMと呼ばれる新しいマルチモーダル対照学習手法を提案し、これらの異なるタイプの情報を効果的に捉えることができることを示した。
脳のグローバルワークスペース理論に基づいたマルチモーダル表現は、強化学習エージェントにおけるゼロショットクロスモーダルポリシー転送を可能にする。