Core Concepts
拡散モデルに3Dジオメトリ制御を組み込むことで、生成された画像の3D構造を明示的に制御し、自動的に正確な3Dアノテーションを取得することが可能です。
Abstract
ABSTRACT
拡散モデルは高品質な画像生成に成功しており、3D構造の制御が不足している。
本研究では、3D Diffusion Style Transfer(3D-DST)を提案し、ControlNetを活用して拡散モデルに3次元ジオメトリ制御を組み込んでいます。
INTRODUCTION
2次元画像の背後にある3次元世界の理解は重要であり、大規模な訓練データ不足が課題となっている。
拡散モデルは高品質な画像生成能力を持ちつつも、まだ3次元世界の明示的な制御が不足している。
3D DIFFUSION STYLE TRANSFER (3D-DST)
本手法では、ControlNetを活用して拡散モデルに視覚プロンプトとテキストプロンプトを組み合わせています。
生成された画像は広範囲の視点や色彩で豊富であり、IDおよびOODシナリオで性能向上が確認されています。
RELATED WORK
合成データ増強方法や大規模言語モデル(LLM)の活用が進んでおり、本研究はその流れに沿っています。
EXPERIMENTS
ImageNet-100/200やPASCAL3D+など多くの実験結果から、提案手法が性能向上に有効であることが示されています。
VISUALIZATIONS & CONCLUSION
提案手法は多様性豊かな画像生成に成功し、さまざまなタスクで性能向上を達成しています。
Stats
拡散モデルは高品質な画像生成能力を持ちつつも、まだ3次元世界の明示的な制御が不足している。
テキストプロンプトや視覚プロンプトを組み合わせた新しいフレームワーク「3D-DST」が提案されている。