本論文では、EgoLifterと呼ばれる新しいシステムを提案している。EgoLifterは、エゴセントリックセンサーから捉えられたシーンを、個々の3D物体の完全な分解へと自動的にセグメンテーションできる。
EgoLifterは、3D Gaussianを基本的な3Dシーンと物体の表現として採用し、Segment Anything Model (SAM)からのセグメンテーションマスクを弱教師として使用することで、特定のオブジェクトタクソノミーに縛られない柔軟で要求可能な物体インスタンスの定義を学習する。
また、エゴセントリックビデオの中の動的物体への対処として、過渡的予測モジュールを設計し、動的物体を3D再構築から除外することで、静的な背景の再構築精度を向上させている。
その結果、EgoLifterは完全自動のパイプラインを実現し、3D Gaussianの集合体として全体シーンを再構築できる。
Aria Digital Twinデータセットを用いた新しいベンチマークにより、自然なエゴセントリックインプットからのオープンワールド3Dセグメンテーションにおける最先端の性能を定量的に示している。
また、様々なエゴセントリックアクティビティデータセットでEgoLifterを実行し、スケールの大きいエゴセントリック3D知覚への応用可能性を示している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問