PARIS3Dは、複雑な自然言語クエリに基づいて3Dオブジェクトの部品セグメンテーションマスクを生成し、その説明を提供することができる。
提案手法のGeometric Transform Attention (GTA)は、トークンの幾何学的関係を直接注意機構に組み込むことで、従来の位置エンコーディング手法よりも効率的に学習し、高性能な新規ビュー合成を実現する。
3DInActionパイプラインは、時間的に変化するローカルポイントパッチ(t-パッチ)を抽出し、階層的なアーキテクチャを使用してスペース-時間表現を学習することで、3Dポイントクラウドからの行動認識を大幅に向上させる。
Lift3Dは、任意の2Dビジョンモデルを3Dに拡張し、多視点入力に対して一貫性のある3D予測を生成することができる。