本文介紹了PoseScript數據集,該數據集將超過六千個三維人體姿勢與詳細的人工註釋描述相關聯。為了擴大數據集規模以滿足數據密集型學習算法的需求,作者提出了一個自動生成自然語言描述的流程。該流程首先提取低級姿勢信息(稱為"posecodes"),然後使用語法規則將其組合成更高級的文本描述。
作者提出了三種基於PoseScript數據集的多模態學習任務:
實驗結果表明,在這些任務上預先使用自動生成的描述進行預訓練,可以顯著提高在真實人工註釋上的性能。這說明自動生成的描述能夠幫助模型學習到人工註釋中的新概念。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ging... lúc arxiv.org 09-11-2024
https://arxiv.org/pdf/2210.11795.pdfYêu cầu sâu hơn