Core Concepts
本論文では、言語-画像-3D対照学習を通じて、3Dオブジェクトの包括的な表現を学習する手法を提案する。
Abstract
本論文では、3Dオブジェクトの包括的な表現を学習する手法「MixCon3D」を提案している。
主な内容は以下の通り:
従来の手法では、3Dポイントクラウドと画像、テキストの単純な対応関係のみを考慮していたが、本手法では、3Dポイントクラウドと多視点レンダリング画像の補完的な情報を組み合わせることで、より包括的な3Dオブジェクト表現を構築する。
3Dオブジェクト表現とテキスト表現の対照学習を行うことで、テキストとの整合性の高い3D表現を学習する。
学習手順の改善として、バッチサイズの拡大、学習率スケジュールの最適化、指数移動平均の導入などを行い、安定した学習と高性能化を実現する。
提案手法は、Objaverse-LVIS、ScanObjectNN、ModelNet40などの3Dベンチマークで従来手法を大きく上回る性能を示し、テキスト-3Dリトリーバルやポイントクラウドキャプショニングなどのクロスモーダルタスクでも優れた性能を発揮する。
Stats
提案手法のObjaverse-LVISデータセットにおけるTop1精度は52.5%で、従来手法を5.7%上回る。
ScanObjectNNデータセットでは58.6%のTop1精度を達成し、従来手法を6.4%上回る。
ModelNet40データセットでは86.8%のTop1精度を達成し、従来手法を1.5%上回る。