核心概念
本文提出了一個將三維人體姿勢與自然語言描述相連結的多模態學習框架,包括建立了PoseScript數據集,並提出了基於此數據集的三種多模態學習任務。
摘要
本文介紹了PoseScript數據集,該數據集將超過六千個三維人體姿勢與詳細的人工註釋描述相關聯。為了擴大數據集規模以滿足數據密集型學習算法的需求,作者提出了一個自動生成自然語言描述的流程。該流程首先提取低級姿勢信息(稱為"posecodes"),然後使用語法規則將其組合成更高級的文本描述。
作者提出了三種基於PoseScript數據集的多模態學習任務:
- 文本到姿勢的檢索,目標是根據文本查詢從大規模數據庫中檢索相關的三維姿勢。
- 基於文本的姿勢生成,目標是生成符合給定文本描述的三維人體姿勢。
- 姿勢描述生成,目標是根據給定的三維姿勢生成相應的自然語言描述。
實驗結果表明,在這些任務上預先使用自動生成的描述進行預訓練,可以顯著提高在真實人工註釋上的性能。這說明自動生成的描述能夠幫助模型學習到人工註釋中的新概念。
統計資料
人體姿勢的左手在右手下方。
人體姿勢的左肘在右肘下方。
人體姿勢的左臂在右臂下方。
人體姿勢的膝蓋部分彎曲。
人體姿勢的右膝蓋和左肘部分彎曲。
引述
"The pose has the head down, ultimately touching the floor, with the weight of the body on the palms and the feet. The arms are stretched straight forward, shoulder width apart; the feet are a foot apart, the legs are straight, and the hips are raised as high as possible."