本文提出了一種基於文本的3D人體動作編輯模型TMED。主要貢獻包括:
介紹了MotionFix數據集,這是首個支持基於文本的3D人體動作編輯任務的數據集。該數據集包含源動作、目標動作和文本編輯指令的三元組。數據集是通過半自動的方式收集而來,利用運動相似度檢索找到可編輯的動作對,並由人工標註編輯文本。
提出了TMED模型,這是一個基於擴散模型的條件生成模型,可以根據源動作和文本編輯指令生成編輯後的動作。TMED模型利用了MotionFix數據集中的三元組信息,在生成過程中同時考慮源動作和文本編輯指令。
設計了新的評估指標,包括生成動作與目標動作的相似度檢索指標,以及生成動作與源動作的相似度檢索指標。這些指標可以用於評估基於文本的3D人體動作編輯模型的性能。
實驗結果表明,TMED模型在MotionFix數據集上的性能優於基於文本-動作對訓練的基線模型。這說明利用三元組數據可以更好地學習動作編輯的規律。
總的來說,本文提出了一種新的基於文本的3D人體動作編輯任務,並建立了相應的數據集和模型,為進一步研究這一領域奠定了基礎。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Niko... alle arxiv.org 09-20-2024
https://arxiv.org/pdf/2408.00712.pdfDomande più approfondite