核心概念
本稿では、従来の合成データセットのリアリズム不足と、生成モデル由来のデータセットにおけるground truthの不正確さという課題を、制御可能な合成手法によって解決することを目指す。具体的には、Stable DiffusionとControlNetを用いて、既存の合成データセットBEDLAMの画像をフォトリアリスティックに拡張しつつ、ground truthの精度を維持する手法を提案する。
要約
BEDLAMのフォトリアリスティック化とground truth精度維持の両立
本稿は、3D人体姿勢・形状推定のための深層学習モデルの学習に適した、フォトリアリスティックかつground truthの正確な合成データセットの生成手法を提案する研究論文である。
Cuevas-Velasquez, H., Patel, P., Feng, H., & Black, M. (2024). Toward Human Understanding with Controllable Synthesis. arXiv preprint arXiv:2411.08663v1.
3D人体姿勢・形状推定モデルの学習には、大量の多様なデータが必要となる。本研究では、従来の合成データセットのリアリズム不足と、生成モデル由来のデータセットにおけるground truthの不正確さという課題を、制御可能な合成手法によって解決することを目指す。