核心概念
大規模な視覚言語モデルを活用して3Dポイントクラウドと物体カテゴリラベルの間の対応関係を間接的に構築し、物体とその関係の擬似ラベルを生成することで、3Dシーングラフを生成する。
要約
本論文は、3Dシーングラフ生成のための弱教師学習手法を提案している。具体的には以下の通りである:
3Dポイントクラウドと2Dイメージの位置合わせを行い、大規模な視覚言語モデルを使ってイメージとテキストカテゴリラベルの対応関係を構築する。これにより、3Dインスタンスとテキストカテゴリラベルの間接的な対応関係を得る。
視覚特徴とテキスト特徴の類似度に基づいて、物体とその関係の擬似ラベルを生成する。ただし、同一カテゴリの物体間の区別が難しいため、ハイブリッドマッチング戦略を導入して擬似ラベル生成の精度を向上させる。また、関係の擬似ラベル生成では、物体の擬似ラベルを活用してマスクフィルタを適用し、精度を高める。
最終的に、エッジ自己注意機構を備えたグラフニューラルネットワークを用いて、3Dポイントクラウドからシーングラフを生成する。
実験の結果、提案手法は完全教師あり手法と比較して遜色ない性能を示しつつ、大幅にアノテーションコストを削減できることが確認された。
統計
3Dポイントクラウドと2Dイメージの位置合わせは、カメラの内部パラメータと外部パラメータを用いて行う。
物体の擬似ラベルは、視覚特徴とテキスト特徴の類似度に基づいて生成する。
関係の擬似ラベルは、物体の擬似ラベルを活用したマスクフィルタを適用して生成する。
引用
"大規模な視覚言語モデルを活用して3Dポイントクラウドと物体カテゴリラベルの間の対応関係を間接的に構築し、物体とその関係の擬似ラベルを生成することで、3Dシーングラフを生成する。"
"ハイブリッドマッチング戦略を導入して擬似ラベル生成の精度を向上させる。また、関係の擬似ラベル生成では、物体の擬似ラベルを活用してマスクフィルタを適用し、精度を高める。"