本研究では、MoRAGと呼ばれる新しい多部位融合型リトリーバ拡張フレームワークを提案している。MoRAGは、大規模言語モデルを活用して部位ごとの動作記述を生成し、それに基づいて部位ごとの動作リトリーバを構築する。これにより、テキストから人間の動作を生成する際の性能を向上させることができる。
具体的には以下の3つのステップからなる:
この構築した動作シーケンスを、ディフュージョンベースの動作生成モデルの追加の入力情報として活用することで、生成された動作の質とジェネラリゼーション性能が向上する。
実験の結果、提案手法MoRAGは、既存の動作リトリーバ手法や動作生成手法と比べて、ジェネラリゼーション性、ゼロショット性能、多様性の面で優れた結果を示した。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Kalakonda Sa... um arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12140.pdfTiefere Fragen