toplogo
Log på

PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery


Kernekoncepter
PostoMETRO integrates occlusion-resilient 2D pose representation into transformers for robust 3D human mesh recovery.
Resumé
Directory: Abstract Introduction Traditional Approach vs. PostoMETRO Methodology: Pose Tokenizer, Overall Pipeline, Loss Design Experiments: Datasets, Implementation Details, Evaluation Metrics Main Results: Quantitative and Qualitative Results, Training/Inference Time Comparison Ablation Studies: Effect of Different Tokens, Accuracy of Pose Tokens, Ablation of Mixer Layers, Occlusion Sensitivity Analysis Abstract: Recent advancements in single-image-based human mesh recovery have led to interest in enhancing performance under extreme scenarios like occlusion. PostoMETRO integrates occlusion-resilient 2D pose representation into transformers for more precise 3D coordinate decoding. Experiments demonstrate the effectiveness of PostoMETRO on standard and occlusion-specific benchmarks. Introduction: Challenges in 3D human pose estimation under monocular camera settings include depth ambiguity and occlusion issues. Existing methods struggle with severe occlusion impacting alignment between human mesh vertices and image pixels. Traditional Approach vs. PostoMETRO: Traditional methods convert 2D pose information to estimate 3D pose and mesh, while PostoMETRO uses pose tokens integrated with image tokens for robust integration. PostoMETRO's approach ensures a rich depiction of texture from images and fosters a robust integration of pose and image information. Methodology: Pose tokenizer compresses 2D poses into token sequences using VQ-VAE. Overall pipeline involves transformer encoders/decoders for message passing between camera token, image tokens, and pose tokens. Loss design includes penalties for vertex coordinates, joint errors in 3D space, and alignment with ground truth 2D joints. Experiments: Utilize datasets like Human3.6M for training and evaluate on benchmarks like 3DPW-OCC to showcase effectiveness under different scenarios. PyTorch implementation with competitive efficiency during training/inference times compared to other baselines. Main Results: Quantitative results show state-of-the-art performance on various datasets including object/person occlusion scenarios. Qualitative evaluation highlights improved robustness to occluded body parts compared to baseline methods. Ablation Studies: Effectiveness of combining image tokens with pose tokens demonstrated through superior performance across different dataset splits. Ground truth 2D pose tokens significantly enhance model performance in the process of 3D human mesh recovery.
Statistik
PostoMETROは、画像トークンとポーズトークンを組み合わせて、ロバストな3次元人間メッシュの復元を実現します。
Citater

Vigtigste indsigter udtrukket fra

by Wendi Yang,Z... kl. arxiv.org 03-20-2024

https://arxiv.org/pdf/2403.12473.pdf
PostoMETRO

Dybere Forespørgsler

どのようにしてPostoMETROは他の手法と比較して優れた性能を発揮していますか?

PostoMETROは、2Dポーズと画像を組み合わせて3Dヒューマンメッシュ再構築タスクに取り組む新しいフレームワークです。このアプローチでは、過去の手法と異なり、オクルージョン耐性のある2Dポーズをトークンレベルで圧縮し、そのポーズトークンを画像トークンと統合することで3Dヒューマンメッシュ再構築タスクを実現します。広範囲な実験では、PostoMETROがさまざまなデータセットで顕著な改善を達成しました。これには、物体オクルージョンや人物オクルージョン、非オクルージョンのシナリオも含まれます。また、私たちの基準研究から明らかにされるようにPose TokenがTransformerアーキテクチャへ効果的に導入されることでロバスト性が向上しました。

Ground Truthの2次元ポーズトークンがモデルパフォーマンスに与える影響は何ですか

Ground Truthの2次元ポーズトークンがモデルパフォーマンスに与える影響は何ですか? Ground Truth(正解)の2次元ポーストー​​ケントー​​キングした場合、PosetoMETROは大幅なパフォーマ​​nce improvement を示すことが分かります。 ResNet-50 をバックボーんドする際, ground-truth 2次元 ポース ト ケント の使用時, MPVPE, MPJPE, PA-MPJPEそれぞれ65.9mm,57.7mm ,31.3mm の得点 を記録します。 これは,3D human mesh recovery task 過程で正確な2D pose の重要性を強く示唆しており,提案手法 PostoMETRO の可能性も示唆しています。

Pose TokenとImage Tokenの組み合わせがモデルのロバスト性向上にどのように貢献していますか

Pose Token および Image Token の組み合わせがモデルのロバスト性向上にどう貢献していますか? Pose Token および Image Token を入力情報として用いることで,PosetoMETRO モデルは Occlusion 対策や精度向上等多岐​面​から利益​ ​受けています。 特定設計不要 Occlusion 特有問題対応 一般的適用可能 各種 Occlusion シナリオ処理能力 向上 以上
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star