Conceitos Básicos
Lift3Dは、任意の2Dビジョンモデルを3Dに拡張し、多視点入力に対して一貫性のある3D予測を生成することができる。
Resumo
本論文では、Lift3Dと呼ばれる新しい手法を提案する。Lift3Dは、任意の2Dビジョンモデルを3Dに拡張し、多視点入力に対して一貫性のある3D予測を生成することができる。
具体的には以下の通り:
- 2Dビジョンモデルの中間特徴マップを入力とし、ジオメトリ情報を活用して、多視点の特徴マップを一貫性のある3D特徴マップに変換する。
- この3D特徴マップを、元の2Dビジョンモデルのデコーダを用いて、任意のタスクの3D予測を生成する。
- Lift3Dは、DINO and CLIPの2つのビジョンモデルのみを使って事前学習され、その後、任意の2Dビジョンモデルに対して、シーンや特定のタスクの学習なしに適用できる。
- セマンティックセグメンテーション、スタイル転移、シーン編集などの様々なタスクで、専用手法と同等以上の性能を示す。さらに、カラー化や開放語彙セグメンテーションなど、これまで3Dドメインで検討されていなかったタスクにも適用可能である。
Estatísticas
多視点入力画像から抽出した特徴マップを用いて、一貫性のある3D特徴マップを生成することで、従来手法と比べて優れた性能を示す。
事前学習したDINOとCLIPの2つのビジョンモデルのみを使用し、任意の2Dビジョンモデルに対して、シーンや特定のタスクの学習なしに適用できる。
Citações
"我々は、任意の事前学習2Dビジョンモデルを即座に3Dモデルに変換し、多視点入力に対して一貫性のある3D予測を生成することができる新しい手法Lift3Dを提案する。"
"Lift3Dは、DINO and CLIPの2つのビジョンモデルのみを使って事前学習され、その後、任意の2Dビジョンモデルに対して、シーンや特定のタスクの学習なしに適用できる。"