Core Concepts
本手法は、2Dビジョン言語モデルから知識を転移することで、3D形状の部分セグメンテーションを行う。
Abstract
本論文は、3D形状の部分セグメンテーションを行うための新しい手法「PartDistill」を提案する。PartDistillは、2Dビジョン言語モデル(VLM)から知識を転移することで、3D部分セグメンテーションを行う。
主な特徴は以下の通り:
2D予測の不完全さ(未検出領域)、2D予測の不整合性、および単一3D形状での知識転移の限界といった課題に取り組む。
ティーチャーネットワークとしてVLMを、スチューデントネットワークとして3Dエンコーダを用いる。
双方向蒸留を行い、2D知識の質を高めることで、最終的な3D部分セグメンテーションを改善する。
既存の生成モデルを活用し、生成された3D形状データを蒸留に利用できる。
実験の結果、提案手法は既存手法と比べて、ShapeNetPartとPartNetEデータセットで15%以上、12%以上高いmIoUスコアを達成した。
Stats
2D予測の信頼度が低い領域(例えば椅子の腕部分)では、蒸留後の信頼度が0.1まで下がる。
一方、2D予測が正確な領域(例えば椅子の脚部分)では、蒸留後の信頼度が上がる。
Quotes
"本手法は、2Dビジョン言語モデル(VLM)から知識を転移することで、3D形状の部分セグメンテーションを行う。"
"提案手法は、既存手法と比べて、ShapeNetPartとPartNetEデータセットで15%以上、12%以上高いmIoUスコアを達成した。"