本論文では、NeRFを基盤とした3D表現ディスエンタングルメントモデルNaviNeRFを提案している。3D表現ディスエンタングルメントは、3D データに潜む説明因子を特定、分解、操作することで、3D世界の本質的な理解を促進する重要な課題である。しかし、3D表現は複雑で情報量が多く、また勾配ベースの最適化に適さないという課題がある。
NaviNeRFは、NeRFを微分可能な3D表現として活用し、潜在空間における解釈可能なセマンティックな方向性を自己教師あり的に特定することで、細粒度な3D表現のディスエンタングルメントを実現する。具体的には、NaviNeRFは外部ナビゲーションブランチと内部リファインメントブランチから構成される。外部ブランチは、潜在空間における大域的なセマンティックな方向性を特定し、内部ブランチは細粒度な属性に焦点を当てる。これら2つのブランチは相補的に機能し、相乗的な損失関数によって協調的に学習される。
実験では、FFHQやAFHQデータセットなどで、NaviNeRFが従来の3D認識モデルを上回る細粒度な3D表現ディスエンタングルメント性能を示すことを確認した。また、セマンティックやジオメトリの事前情報を必要とする編集指向モデルとも匹敵する性能を発揮することを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Baao Xie,Boh... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2304.11342.pdfDeeper Inquiries