ロボットの姿勢と関節角度を推定するための新しい枠組みを提案する。2Dキーポイントの検出と2Dキーポイントから3Dキーポイントへの変換という2つのサブタスクに分割することで、効率性と性能のバランスを取る。拡散モデルを用いた3Dキーポイントの生成により、2Dキーポイントの検出誤差や自己遮蔽に対するロバスト性を高める。さらに、正規化カメラ座標空間を導入することで、カメラ間の一般化性を向上させる。