Keskeiset käsitteet
本文提出了一個名為PoseEmbroider的新框架,能夠將三維人體姿勢、人物圖像和文字描述融合在一個增強的表示空間中,以獲得更豐富的語義、視覺和空間感知的人體姿勢表示。
Tiivistelmä
本文提出了PoseEmbroider框架,旨在通過融合三維人體姿勢、人物圖像和文字描述,構建一個增強的人體姿勢表示。
具體來說:
- 該框架使用一個transformer模型來聚合不同模態的信息,產生一個全局的姿勢表示。
- 在訓練過程中,使用單模態對比損失函數,將全局表示投射回各個模態空間,以確保其包含豐富的語義、視覺和空間信息。
- 實驗結果表明,與單一模態對齊的基線模型相比,PoseEmbroider在多模態檢索、姿勢指令生成和SMPL回歸等任務中都有顯著的性能提升。
- 該框架可以靈活地處理任意組合的輸入模態,無需重新訓練,在實際應用中具有很好的適用性。
Tilastot
人物圖像中,右膝成L型,雙腳和雙手約肩寬,雙手在臀部下方,肘部略微彎曲。
人物圖像中,右肘成直角,低於左肘,左肘彎曲,左手在背後,略微向右側看。
人物圖像中,雙腳約肩寬,雙手放在地板上,左腿和右腿向前伸展。
人物圖像中,右手臂伸出向左側,左手移到右側。