핵심 개념
VIT-LENSは、事前学習済みのViTを活用して、効率的にオムニモーダルな表現学習を実現する。特に3D形状の理解において、従来手法を大幅に上回る性能を示す。
초록
VIT-LENSは、事前学習済みのViTを活用して、効率的にオムニモーダルな表現学習を実現する手法を提案している。具体的には以下の通り:
- モダリティ特有のレンズを使ってマルチモーダルな信号をViTの入力空間にマッピングする。
- 事前学習済みのViTを用いて、マッピングされた特徴を符号化する。
- 事前学習済みのファウンデーションモデルを使って、モダリティ間の特徴を整列させる。
この手法により、ViTの豊富な知識を活用しつつ、効率的にオムニモーダルな表現を学習できる。
3D形状理解の実験では、従来手法を大幅に上回る性能を示した。特に、長尾分布を持つObjaverse-LVISデータセットでは、52.0%の精度を達成し、従来手法を5.2%上回った。また、InstructBLIPモデルにVIT-LENSの3Dエンコーダを統合することで、3D形状のキャプショニングやQAを可能にした。
今後は、より多様なモダリティへの拡張や、ファウンデーションモデルとの統合による新たな能力の発現などが期待される。
통계
3D形状分類タスクでは、ModelNet40データセットでトップ1精度70.6%を達成し、従来手法を10.2%上回った。
Objaverse-LVISデータセットでは、トップ1精度52.0%を達成し、従来手法を5.2%上回った。
ScanObjectNNデータセットでは、トップ1精度60.6%を達成し、従来手法を3.4%上回った。
인용구
"VIT-LENSは、事前学習済みのViTを活用して、効率的にオムニモーダルな表現学習を実現する。"
"VIT-LENSは、3D形状理解の分野で従来手法を大幅に上回る性能を示した。"
"VIT-LENSを用いることで、InstructBLIPモデルが3D形状のキャプショニングやQAを可能になった。"