Belangrijkste concepten
提案するGOV-NeSFは、3Dシーンの表現と言語に基づくセマンティックを同時にエンコードできる一般化可能なニューラルセマンティックフィールドのアプローチである。
Samenvatting
本論文では、一般化可能なオープンボキャブラリーニューラルセマンティックフィールド(GOV-NeSF)を提案している。GOV-NeSFは、3Dシーンの表現と言語に基づくセマンティックを同時にエンコードできる新しいアプローチである。
主な特徴は以下の通り:
2Dデータのみを使用し、点群データ、深度情報、セマンティックラベルは必要としない。
マルチビュー特徴の融合モジュールを提案し、色情報とオープンボキャブラリー特徴の両方を効果的にブレンドする。
幅広いシーンやデータセットにわたって優れた一般化性能を示す。
具体的な手順は以下の通り:
2D画像エンコーダを使ってRGB特徴マップを抽出し、3Dコストボリュームを構築する。
事前学習した2D言語モデルを使ってオープンボキャブラリー特徴マップを抽出する。
マルチビュー特徴融合モジュールを使って、色情報とオープンボキャブラリー特徴をブレンドする。
体積レンダリングを通じて、任意のテキストクエリに対する2Dおよび3Dのオープンボキャブラリーセマンティックセグメンテーションを行う。
実験の結果、提案手法はScanNetおよびReplicaデータセットにおいて、2Dおよび3Dのオープンボキャブラリーセマンティックセグメンテーションで最先端の性能を示した。また、一般化性能も優れていることが確認された。
Statistieken
3Dポイントの色と言語特徴は、マルチビューの投影から予測された重み付き和によって算出される。
密度は3Dボリューム特徴から予測される。