Khái niệm cốt lõi
任意のモダリティ(ビジョン、言語、オーディオ)の事前学習済み大規模モデルを、パラメータ効率的に3D理解タスクに適応させる手法を提案する。
Tóm tắt
本論文は、任意のモダリティ(ビジョン、言語、オーディオ)の事前学習済み大規模モデルを、効率的かつ効果的に3D理解タスクに適応させる手法「Any2Point」を提案している。
まず、3D点群を事前学習済みモデルの1D/2D位置エンコーディングに仮想的に射影する手法を導入し、3D幾何情報の損失を防ぐ。次に、各トランスフォーマーブロックに任意のモダリティ特有の空間情報を活用するアダプタモジュールを挿入し、効率的な微調整を行う。
実験の結果、Any2Pointは3D事前学習モデルと比較して優れた性能を示しつつ、学習パラメータ量は1%程度に抑えられることを示している。また、言語、ビジョン、オーディオなど、様々なモダリティの事前学習モデルを活用できることも確認された。
Thống kê
3D点群をビジョン、言語、オーディオの事前学習モデルに仮想的に射影することで、3D幾何情報の損失を防ぐことができる。
各トランスフォーマーブロックにモダリティ特有の空間情報を活用するアダプタを挿入することで、効率的な微調整が可能となる。
Any2Pointは3D事前学習モデルと比較して優れた性能を示しつつ、学習パラメータ量は1%程度に抑えられる。
Trích dẫn
"To enable a general any-to-3D transferring framework, we propose Any2Point, which empowers any-modality pre-trained large models (e.g., 2D vision, language, and audio) for efficient 3D understanding."
"We introduce two techniques, i.e., 3D-to-any virtual projection and any-to-3D guided adapter, to effectively overcome the issues within current methods, such as 3D geometry loss and excessive resource cost."
"Any2Point achieves superior performance compared to previous SOTA 3D pre-trained models across various tasks. Notably, these competitive results remain consistent by leveraging pre-trained models from different modalities, e.g., 2D vision, language, and audio."