核心概念
本手法は、100種類以上の四足動物の3Dモデルを、インターネット上の2D画像のみを使って自動的に学習することができる。
要約
本論文では、3D-Faunaと呼ばれる手法を提案している。3D-Faunaは、100種類以上の四足動物の3Dモデルを、インターネット上の2D画像のみを使って自動的に学習することができる。
まず、事前学習された自己教師学習特徴量抽出器を使って、入力画像から特徴量を抽出する。この特徴量を用いて、動物の基本形状と変形パラメータを予測する。基本形状は、事前に学習した基本形状ライブラリから選択・組み合わせることで表現される。変形パラメータは、入力画像の特徴量に基づいて予測される。さらに、姿勢パラメータも予測し、最終的に3Dメッシュを生成する。
この手法の特徴は以下の通りである:
100種類以上の四足動物を一度に学習可能
2D画像のみを使って学習可能
入力画像から即座に3Dメッシュを生成可能
基本形状ライブラリを自動的に学習
入力画像の視点バイアスを補正するマスク識別器を導入
これらの工夫により、従来手法よりも高品質な3D再構築が可能となっている。
統計
本手法で使用したデータセットには、78,168枚の画像が含まれ、128種類の四足動物が含まれている。
既存のデータセットを集約し、さらにインターネットから追加収集することで、データの多様性と規模を確保している。