Core Concepts
VIT-LENSは、事前学習済みのViTを活用して、3D点群、深度、音声、触覚、EEGなどの多様なモダリティの表現を効率的に学習する。これにより、モダリティ間の整合的な表現を得ることができ、様々な理解タスクで優れた性能を発揮する。さらに、VIT-LENSをマルチモーダルファウンデーションモデルに統合することで、モダリティを問わない画像生成や質問応答などの新しい機能を実現できる。
Abstract
本論文は、VIT-LENS: Towards Omni-modal Representationsと題する新手法を提案している。VIT-LENSは、事前学習済みのViTを活用して、3D点群、深度、音声、触覚、EEGなどの多様なモダリティの表現を効率的に学習する。
具体的には以下の通り:
- モダリティ特有のLensと軽量なモダリティ埋め込みモジュールを用いて、入力データを中間表現空間にマッピングする。
- その後、凍結された事前学習済みViTを適用して、さらに特徴を抽出する。
- これにより、多様なモダリティの特徴を、オフザシェルフのファウンデーションモデルが定義した共通の特徴空間に整合的に表現できる。
実験では、3D点群、深度、音声、触覚、EEGなどの多様なモダリティで、様々な理解タスクにおいて、従来手法を大きく上回る性能を示している。
さらに、VIT-LENSをマルチモーダルファウンデーションモデルに統合することで、モダリティを問わない画像生成や質問応答などの新しい機能を実現できることを示している。
Stats
3D点群分類タスクでは、Objaverse-LVISデータセットの長尾クラスで50.1%の精度を達成し、従来手法を11.0%上回った。
深度画像分類タスクでは、SUN-Dデータセットで52.2%の精度を達成し、従来手法を大きく上回った。
音声分類タスクでは、Audiosetデータセットで26.7%のmAPを達成し、従来手法を大きく上回った。
触覚分類タスクでは、Touch-and-goデータセットの材質分類で65.8%の精度を達成し、従来手法を大きく上回った。
EEG視覚概念分類タスクでは、ImageNet-EEGデータセットで42.7%の精度を達成し、従来手法を大きく上回った。
Quotes
"VIT-LENSは、事前学習済みのViTを活用して、多様なモダリティの表現を効率的に学習する。"
"VIT-LENSをマルチモーダルファウンデーションモデルに統合することで、モダリティを問わない画像生成や質問応答などの新しい機能を実現できる。"