本文提出了一種基於 Transformer 的新型自回歸模型 PT43D,用於從單張可能包含高度模糊物件觀察結果的 RGB 影像生成 3D 形狀的機率分佈,並透過模擬產生遮擋和視角截斷的影像-形狀訓練對,以及採用交叉注意力機制,有效提升模型在真實場景中的效能。